v1v2 (latest)

CoAtNet: Marrying Convolution and Attention for All Data Sizes

Neural Information Processing Systems (NeurIPS), 2021

9 June 2021

Mingxing Tan

Papers citing "CoAtNet: Marrying Convolution and Attention for All Data Sizes"

50 / 510 papers shown

EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction

Han Cai

Junyan Li

Muyan Hu

Chuang Gan

Song Han

338

29 May 2022

How Tempering Fixes Data Augmentation in Bayesian Neural NetworksInternational Conference on Machine Learning (ICML), 2022

262

27 May 2022

Fast Vision Transformers with HiLo AttentionNeural Information Processing Systems (NeurIPS), 2022

Zizheng Pan

Jianfei Cai

Bohan Zhuang

439

242

26 May 2022

MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

293

26 May 2022

Inception TransformerNeural Information Processing Systems (NeurIPS), 2022

Weihao Yu

335

253

25 May 2022

MoCoViT: Mobile Convolutional Vision Transformer

Min Zheng

378

25 May 2022

Visualizing CoAtNet Predictions for Aiding Melanoma DetectionEngineering and Technology Journal (ETJ), 2022

Daniel Kvak

MedIm

186

21 May 2022

Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative PriorsNeural Information Processing Systems (NeurIPS), 2022

Sanyam Kapoor

162

20 May 2022

TRT-ViT: TensorRT-oriented Vision Transformer

Min Zheng

Rui Wang

ViT

216

19 May 2022

ConvMAE: Masked Convolution Meets Masked Autoencoders

Yu Qiao

256

150

08 May 2022

CoCa: Contrastive Captioners are Image-Text Foundation Models

Mojtaba Seyedhosseini

Yonghui Wu

VLM CLIP OffRL

667

1,596

04 May 2022

MiCS: Near-linear Scaling for Training Gigantic Model on Public CloudProceedings of the VLDB Endowment (PVLDB), 2022

George Karypis

Xin Jin

442

30 Apr 2022

DearKD: Data-Efficient Early Knowledge Distillation for Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

Xianing Chen

Qiong Cao

Yujie Zhong

Jing Zhang

Shenghua Gao

Dacheng Tao

ViT

236

101

27 Apr 2022

TranSiam: Fusing Multimodal Visual Features Using Transformer for Medical Image Segmentation

26 Apr 2022

Investigating Neural Architectures by Synthetic Dataset Design

Adrien Courtois

Jean-Michel Morel

Pablo Arias

172

23 Apr 2022

VSA: Learning Varied-Size Window Attention in Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Qiming Zhang

Yufei Xu

Jing Zhang

Dacheng Tao

218

18 Apr 2022

ResT V2: Simpler, Faster and StrongerNeural Information Processing Systems (NeurIPS), 2022

Qing-Long Zhang

Yubin Yang

ViT

242

15 Apr 2022

Localization Distillation for Object DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Ming-Ming Cheng

215

12 Apr 2022

DaViT: Dual Attention Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Mingyu Ding

Bin Xiao

Noel Codella

Ping Luo

Jingdong Wang

Lu Yuan

ViT

367

343

07 Apr 2022

Few-Shot Forecasting of Time-Series with Heterogeneous Channels

203

07 Apr 2022

Unleashing Vanilla Vision Transformer with Masked Image Modeling for Object DetectionIEEE International Conference on Computer Vision (ICCV), 2022

Yuxin Fang

Shusheng Yang

Shijie Wang

Yixiao Ge

Ying Shan

Xinggang Wang

237

06 Apr 2022

MaxViT: Multi-Axis Vision TransformerEuropean Conference on Computer Vision (ECCV), 2022

Feng Yang

479

881

04 Apr 2022

Revisiting a kNN-based Image Classification System with High-capacity StorageEuropean Conference on Computer Vision (ECCV), 2022

242

03 Apr 2022

InstaFormer: Instance-Aware Image-to-Image Translation with TransformerComputer Vision and Pattern Recognition (CVPR), 2022

301

30 Mar 2022

Affine Medical Image Registration with Coarse-to-Fine Vision TransformerComputer Vision and Pattern Recognition (CVPR), 2022

Tony C. W. Mok

Albert C. S. Chung

ViT MedIm

194

29 Mar 2022

Automated Progressive Learning for Efficient Training of Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

Changlin Li

Bohan Zhuang

Guangrun Wang

Xiaodan Liang

Xiaojun Chang

Yi Yang

250

28 Mar 2022

DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth EstimationMachine Intelligence Research (MIR), 2022

178

225

27 Mar 2022

On the link between conscious function and general intelligence in humans and machines

275

24 Mar 2022

Deep Frequency Filtering for Domain GeneralizationComputer Vision and Pattern Recognition (CVPR), 2022

...

Zicheng Liu

254

23 Mar 2022

Symmetry-Based Representations for Artificial and Biological General IntelligenceFrontiers in Computational Neuroscience (Front. Comput. Neurosci.), 2022

I. Higgins

S. Racanière

Danilo Jimenez Rezende

AI4CE

250

17 Mar 2022

Stubborn: A Strong Baseline for Indoor Object NavigationIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

280

14 Mar 2022

TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic SegmentationJournal of Visual Communication and Image Representation (JVCIR), 2022

189

14 Mar 2022

CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification

176

13 Mar 2022

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference timeInternational Conference on Machine Learning (ICML), 2022

Raphael Gontijo-Lopes

...

728

1,281

10 Mar 2022

ParC-Net: Position Aware Circular Convolution with Merits from ConvNets and TransformerEuropean Conference on Computer Vision (ECCV), 2022

330

08 Mar 2022

MetaFormer: A Unified Meta Framework for Fine-Grained Recognition

168

05 Mar 2022

ViT-P: Rethinking Data-efficient Vision Transformers from Locality

04 Mar 2022

Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy for Image Recognition without ConvolutionsIEEE International Conference on Consumer Electronics (ICCE), 2022

137

02 Mar 2022

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

697

28 Feb 2022

Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method for Visual Discrimination

Yu Qiao

236

21 Feb 2022

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and BeyondInternational Journal of Computer Vision (IJCV), 2022

Qiming Zhang

275

272

21 Feb 2022

Visual Attention NetworkComputational Visual Media (CVM), 2022

Ming-Ming Cheng

470

869

20 Feb 2022

Mixture-of-Experts with Expert Choice RoutingNeural Information Processing Systems (NeurIPS), 2022

602

554

18 Feb 2022

How Do Vision Transformers Work?International Conference on Learning Representations (ICLR), 2022

Namuk Park

Songkuk Kim

ViT

465

599

14 Feb 2022

KENN: Enhancing Deep Neural Networks by Leveraging Knowledge for Time Series Forecasting

266

08 Feb 2022

Towards an Analytical Definition of Sufficient DataSN Computer Science (SN Comput. Sci.), 2022

Adam Byerly

T. Kalganova

180

07 Feb 2022

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning FrameworkInternational Conference on Machine Learning (ICML), 2022

Peng Wang

An Yang

Rui Men

Junyang Lin

Shuai Bai

Zhikang Li

Jianxin Ma

Chang Zhou

Jingren Zhou

Hongxia Yang

MLLM ObjD

517

1,006

07 Feb 2022

Learning strides in convolutional neural networksInternational Conference on Learning Representations (ICLR), 2022

159

03 Feb 2022

Architecture Matters in Continual Learning

369

01 Feb 2022

Patches Are All You Need?

Asher Trockman

J. Zico Kolter

ViT

437

482

24 Jan 2022