CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

Brain-inspired Multilayer Perceptron with Spiking NeuronsComputer Vision and Pattern Recognition (CVPR), 2022

179

28 Mar 2022

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Shuyuan Yang

218

24 Mar 2022

Contrastive Transformer-based Multiple Instance Learning for Weakly Supervised Polyp Frame DetectionInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2022

279

23 Mar 2022

PaCa-ViT: Learning Patch-to-Cluster Attention in Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

167

22 Mar 2022

Focal Modulation NetworksNeural Information Processing Systems (NeurIPS), 2022

Jianwei Yang

Lu Yuan

352

388

22 Mar 2022

MixFormer: End-to-End Tracking with Iterative Mixed AttentionComputer Vision and Pattern Recognition (CVPR), 2022

Gangshan Wu

324

710

21 Mar 2022

ScalableViT: Rethinking the Context-oriented Generalization of Vision TransformerEuropean Conference on Computer Vision (ECCV), 2022

Min Zheng

321

21 Mar 2022

HIPA: Hierarchical Patch Transformer for Single Image Super ResolutionIEEE Transactions on Image Processing (IEEE TIP), 2022

253

19 Mar 2022

SwinTextSpotter: Scene Text Spotting via Better Synergy between Text Detection and Text RecognitionComputer Vision and Pattern Recognition (CVPR), 2022

Yuliang Liu

Lianwen Jin

212

138

19 Mar 2022

CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric GuidanceComputer Vision and Pattern Recognition (CVPR), 2022

183

18 Mar 2022

Three things everyone should know about Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

249

155

18 Mar 2022

SepTr: Separable Transformer for Audio Spectrogram ProcessingInterspeech (Interspeech), 2022

Nicolae-Cătălin Ristea

Radu Tudor Ionescu

Fahad Shahbaz Khan

ViT

339

17 Mar 2022

PanoFormer: Panorama Transformer for Indoor 360 Depth EstimationEuropean Conference on Computer Vision (ECCV), 2022

Zhijie Shen

180

125

17 Mar 2022

Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot LearningComputer Vision and Pattern Recognition (CVPR), 2022

253

17 Mar 2022

Patch-Fool: Are Vision Transformers Always Robust Against Adversarial Perturbations?International Conference on Learning Representations (ICLR), 2022

419

16 Mar 2022

InvPT: Inverted Pyramid Multi-task Transformer for Dense Scene UnderstandingEuropean Conference on Computer Vision (ECCV), 2022

Hanrong Ye

Dan Xu

ViT

267

114

15 Mar 2022

Enriched CNN-Transformer Feature Aggregation Networks for Super-ResolutionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

265

15 Mar 2022

TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic SegmentationJournal of Visual Communication and Image Representation (JVCIR), 2022

198

14 Mar 2022

Deep Transformers Thirst for Comprehensive-Frequency Data

277

14 Mar 2022

Self-Promoted Supervision for Few-Shot TransformerEuropean Conference on Computer Vision (ECCV), 2022

Bowen Dong

184

14 Mar 2022

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNsComputer Vision and Pattern Recognition (CVPR), 2022

Jungong Han

382

686

13 Mar 2022

The Principle of Diversity: Training Stronger Vision Transformers Calls for Reducing All Levels of RedundancyComputer Vision and Pattern Recognition (CVPR), 2022

Tianlong Chen

Zhenyu Zhang

Yu Cheng

Ahmed Hassan Awadallah

Zinan Lin

ViT

260

12 Mar 2022

Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain Analysis: From Theory to PracticeInternational Conference on Learning Representations (ICLR), 2022

289

195

09 Mar 2022

ParC-Net: Position Aware Circular Convolution with Merits from ConvNets and TransformerEuropean Conference on Computer Vision (ECCV), 2022

352

08 Mar 2022

Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group AttentionInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

296

08 Mar 2022

WaveMix: Resource-efficient Token Mixing for Images

Pranav Jeevan

A. Sethi

111

07 Mar 2022

Stepwise Feature Fusion: Local Guides GlobalInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2022

Jionglong Su

259

247

07 Mar 2022

Knowledge Amalgamation for Object Detection with TransformersIEEE Transactions on Image Processing (IEEE TIP), 2022

385

07 Mar 2022

Multi-Tailed Vision Transformer for Efficient InferenceNeural Networks (NN), 2022

Bo Du

594

03 Mar 2022

ViTransPAD: Video Transformer using convolution and self-attention for Face Presentation Attack DetectionInternational Conference on Information Photonics (ICIP), 2022

153

03 Mar 2022

Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy for Image Recognition without ConvolutionsIEEE International Conference on Consumer Electronics (ICCE), 2022

147

02 Mar 2022

3DCTN: 3D Convolution-Transformer Network for Point Cloud Classification

Jonathan Li

194

02 Mar 2022

A Data-scalable Transformer for Medical Image Segmentation: Architecture, Model Efficiency, and Benchmark

707

28 Feb 2022

CTformer: Convolution-free Token2Token Dilated Vision Transformer for Low-dose CT DenoisingPhysics in Medicine and Biology (PMB), 2022

Dayang Wang

181

176

28 Feb 2022

Factorizer: A Scalable Interpretable Approach to Context Modeling for Medical Image Segmentation

244

24 Feb 2022

Auto-scaling Vision Transformers without TrainingInternational Conference on Learning Representations (ICLR), 2022

Xianzhi Du

150

24 Feb 2022

GroupViT: Semantic Segmentation Emerges from Text SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

762

633

22 Feb 2022

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and BeyondInternational Journal of Computer Vision (IJCV), 2022

Qiming Zhang

287

276

21 Feb 2022

Visual Attention NetworkComputational Visual Media (CVM), 2022

Ming-Ming Cheng

513

887

20 Feb 2022

Discriminability-enforcing loss to improve representation learning

Florinel-Alin Croitoru

Diana-Nicoleta Grigore

Radu Tudor Ionescu

FaML

133

14 Feb 2022

CATs++: Boosting Cost Aggregation with Convolutions and TransformersIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

375

14 Feb 2022

Mixing and Shifting: Exploiting Global and Local Dependencies in Vision MLPs

Huangjie Zheng

Pengcheng He

Weizhu Chen

Mingyuan Zhou

115

14 Feb 2022

BViT: Broad Attention based Vision TransformerIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

261

13 Feb 2022

Feature-level augmentation to improve robustness of deep neural networks to affine transformations

A. Sandru

Mariana-Iuliana Georgescu

Radu Tudor Ionescu

OOD

377

10 Feb 2022

LwPosr: Lightweight Efficient Fine-Grained Head Pose EstimationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Naina Dhingra

131

07 Feb 2022

Towards an Analytical Definition of Sufficient DataSN Computer Science (SN Comput. Sci.), 2022

Adam Byerly

T. Kalganova

227

07 Feb 2022

Training Vision Transformers with Only 2040 ImagesEuropean Conference on Computer Vision (ECCV), 2022

392

26 Jan 2022

Convolutional Xformers for Vision

Pranav Jeevan

Amit Sethi

ViT

167

25 Jan 2022

UniFormer: Unifying Convolution and Self-attention for Visual RecognitionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Yu Qiao

546

532

24 Jan 2022

Improving Chest X-Ray Report Generation by Leveraging Warm Starting

281

154

24 Jan 2022