CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

PVT v2: Improved Baselines with Pyramid Vision TransformerComputational Visual Media (CVM), 2021

Xiang Li

Ping Luo

854

2,198

25 Jun 2021

ViTAS: Vision Transformer Architecture SearchEuropean Conference on Computer Vision (ECCV), 2021

499

25 Jun 2021

VOLO: Vision Outlooker for Visual Recognition

432

384

24 Jun 2021

IA-RED

^2

: Interpretability-Aware Redundancy Reduction for Vision Transformers

350

192

23 Jun 2021

Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

310

239

23 Jun 2021

P2T: Pyramid Pooling Transformer for Scene UnderstandingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

702

292

22 Jun 2021

Encoder-Decoder Architectures for Clinically Relevant Coronary Artery SegmentationInternational Conference on Computational Advances in Bio and Medical Sciences (ICCABS), 2021

228

21 Jun 2021

More than Encoder: Introducing Transformer Decoder to UpsampleIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2021

Xiping Hu

261

20 Jun 2021

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

359

789

18 Jun 2021

Efficient Self-supervised Vision Transformers for Representation LearningInternational Conference on Learning Representations (ICLR), 2021

Jianwei Yang

Lu Yuan

322

225

17 Jun 2021

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision

^2

-MLP: Spatial-Shift MLP Architecture for VisionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

265

222

14 Jun 2021

Styleformer: Transformer based Generative Adversarial Networks with Style VectorComputer Vision and Pattern Recognition (CVPR), 2021

Jeeseung Park

Younggeun Kim

ViT

345

13 Jun 2021

MlTr: Multi-label Classification with TransformerIEEE International Conference on Multimedia and Expo (ICME), 2021

Fan Yang

179

11 Jun 2021

Transformed CNNs: recasting pre-trained convolutional layers with self-attention

111

10 Jun 2021

CAT: Cross Attention in Vision TransformerIEEE International Conference on Multimedia and Expo (ICME), 2021

Fan Yang

198

270

10 Jun 2021

CoAtNet: Marrying Convolution and Attention for All Data SizesNeural Information Processing Systems (NeurIPS), 2021

Mingxing Tan

612

1,512

09 Jun 2021

TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising

Dayang Wang

Zhan Wu

Hengyong Yu

ViT MedIm

240

08 Jun 2021

On the Connection between Local Attention and Dynamic Depth-wise ConvolutionInternational Conference on Learning Representations (ICLR), 2021

Ming-Ming Cheng

Jingdong Wang

427

139

08 Jun 2021

On Improving Adversarial Transferability of Vision TransformersInternational Conference on Learning Representations (ICLR), 2021

Salman Khan

Fatih Porikli

269

107

08 Jun 2021

Fully Transformer Networks for Semantic Image Segmentation

307

08 Jun 2021

Efficient Training of Visual Transformers with Small DatasetsNeural Information Processing Systems (NeurIPS), 2021

Wei Bi

208

216

07 Jun 2021

Reveal of Vision Transformers Robustness against Adversarial Attacks

265

07 Jun 2021

Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer

283

208

07 Jun 2021

ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive BiasNeural Information Processing Systems (NeurIPS), 2021

Qiming Zhang

478

401

07 Jun 2021

Vision Transformers with Hierarchical AttentionMachine Intelligence Research (MIR), 2021

Le Zhang

Luc Van Gool

190

06 Jun 2021

CAPE: Encoding Relative Positions with Continuous Augmented Positional EmbeddingsNeural Information Processing Systems (NeurIPS), 2021

373

06 Jun 2021

Uformer: A General U-Shaped Transformer for Image RestorationComputer Vision and Pattern Recognition (CVPR), 2021

Zhendong Wang

Xiaodong Cun

Jianmin Bao

569

1,963

06 Jun 2021

RegionViT: Regional-to-Local Attention for Vision TransformersInternational Conference on Learning Representations (ICLR), 2021

498

238

04 Jun 2021

Glance-and-Gaze Vision TransformerNeural Information Processing Systems (NeurIPS), 2021

279

04 Jun 2021

X-volution: On the unification of convolution and self-attention

183

04 Jun 2021

Attention mechanisms and deep learning for machine vision: A survey of the state of the art

A. M. Hafiz

S. A. Parah

R. A. Bhat

237

03 Jun 2021

SegFormer: Simple and Efficient Design for Semantic Segmentation with TransformersNeural Information Processing Systems (NeurIPS), 2021

1.2K

7,447

31 May 2021

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger TokensComputer Vision and Pattern Recognition (CVPR), 2021

253

31 May 2021

Analogous to Evolutionary Algorithm: Designing a Unified Sequence ModelNeural Information Processing Systems (NeurIPS), 2021

Jiangning Zhang

Chao Xu

Jian Li

Wenzhou Chen

Yabiao Wang

Ying Tai

Shuo Chen

Chengjie Wang

Feiyue Huang

Yong Liu

302

31 May 2021

Not All Images are Worth 16x16 Words: Dynamic Transformers for Efficient Image RecognitionNeural Information Processing Systems (NeurIPS), 2021

Yulin Wang

Gao Huang

300

241

31 May 2021

Dual-stream Network for Visual RecognitionNeural Information Processing Systems (NeurIPS), 2021

Errui Ding

297

31 May 2021

Less is More: Pay Less Attention in Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2021

Zizheng Pan

Bohan Zhuang

Haoyu He

Jing Liu

Jianfei Cai

ViT

363

104

29 May 2021

KVT: k-NN Attention for Boosting Vision TransformersEuropean Conference on Computer Vision (ECCV), 2021

Hao Li

273

136

28 May 2021

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual UnderstandingAAAI Conference on Artificial Intelligence (AAAI), 2021

Tomas Pfister

364

209

26 May 2021

Pay Attention to MLPsNeural Information Processing Systems (NeurIPS), 2021

654

823

17 May 2021

Towards Robust Vision TransformerComputer Vision and Pattern Recognition (CVPR), 2021

476

234

17 May 2021

Waste detection in Pomerania: non-profit project for detecting waste in environmentWaste Management (Waste Manag.), 2021

Sylwia Majchrowska

Agnieszka Mikołajczyk

262

173

12 May 2021

Homogeneous vector bundles and

G

-equivariant convolutional neural networksSampling Theory, Signal Processing, and Data Analysis (SAMPTA), 2021

J. Aronsson

222

12 May 2021

Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet

Luke Melas-Kyriazi

ViT

174

115

06 May 2021

Beyond Self-attention: External Attention using Two Linear Layers for Visual TasksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

245

650

05 May 2021

Twins: Revisiting the Design of Spatial Attention in Vision TransformersNeural Information Processing Systems (NeurIPS), 2021

Chunhua Shen

714

1,254

28 Apr 2021

Vision Transformers with Patch Diversification

265

26 Apr 2021

Visformer: The Vision-friendly TransformerIEEE International Conference on Computer Vision (ICCV), 2021

555

283

26 Apr 2021

VidTr: Video Transformer Without ConvolutionsIEEE International Conference on Computer Vision (ICCV), 2021

Hao Chen

448

221

23 Apr 2021

All Tokens Matter: Token Labeling for Training Better Vision TransformersNeural Information Processing Systems (NeurIPS), 2021

410

239

22 Apr 2021