CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

Optimizing Vision Transformers for Medical Image SegmentationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Qianying Liu

Chaitanya Kaul

Jun Wang

Christos Anagnostopoulos

Roderick Murray-Smith

Fani Deligianni

ViT MedIm

266

14 Oct 2022

MCTNet: A Multi-Scale CNN-Transformer Network for Change Detection in Optical Remote Sensing ImagesFusion (FUSION), 2022

213

14 Oct 2022

TokenMixup: Efficient Attention-guided Token-level Data Augmentation for TransformersNeural Information Processing Systems (NeurIPS), 2022

241

14 Oct 2022

How to Train Vision Transformer on Small-scale Datasets?British Machine Vision Conference (BMVC), 2022

214

13 Oct 2022

FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis via Stacked TransformersPattern Recognition (Pattern Recogn.), 2022

Yitian Liu

Zheng Lian

374

12 Oct 2022

Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small DatasetsNeural Information Processing Systems (NeurIPS), 2022

267

12 Oct 2022

SaiT: Sparse Vision Transformers through Adaptive Token Pruning

138

11 Oct 2022

Coded Residual Transform for Generalizable Deep Metric LearningNeural Information Processing Systems (NeurIPS), 2022

267

09 Oct 2022

Flexible Alignment Super-Resolution Network for Multi-Contrast MRI

186

07 Oct 2022

Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision TasksNeural Information Processing Systems (NeurIPS), 2022

283

07 Oct 2022

MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision ModelsInternational Conference on Learning Representations (ICLR), 2022

Siyuan Qiao

325

04 Oct 2022

Towards Flexible Inductive Bias via Progressive Reparameterization Scheduling

139

04 Oct 2022

Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration

Sixiang Chen

127

03 Oct 2022

Attention Distillation: self-supervised vision transformer students need more guidanceBritish Machine Vision Conference (BMVC), 2022

162

03 Oct 2022

E-Branchformer: Branchformer with Enhanced merging for speech recognitionSpoken Language Technology Workshop (SLT), 2022

Kwangyoun Kim

408

162

30 Sep 2022

MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

S. Wadekar

Abhishek Chaurasia

ViT

317

143

30 Sep 2022

Effective Vision Transformer Training: A Data-Centric Perspective

Fan Wang

161

29 Sep 2022

Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-AttentionInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

213

28 Sep 2022

Self-Supervised Masked Convolutional Transformer Block for Anomaly DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Neelu Madan

Nicolae-Cătălin Ristea

555

102

25 Sep 2022

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question AnsweringIEEE Transactions on Image Processing (IEEE TIP), 2022

Hao Li

Qi Wu

382

21 Sep 2022

Understanding the Tricks of Deep Learning in Medical Image Segmentation: Challenges and Future Directions

Hao Chen

Xin Yang

287

21 Sep 2022

On the Shift Invariance of Max Pooling Feature Maps in Convolutional Neural Networks

497

19 Sep 2022

A Mosquito is Worth 16x16 Larvae: Evaluation of Deep Learning Architectures for Mosquito Larvae Classification

16 Sep 2022

Transformer based Fingerprint Feature ExtractionInternational Conference on Pattern Recognition (ICPR), 2022

Saraansh Tandon

A. Namboodiri

ViT

210

08 Sep 2022

Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D Image RepresentationsInternational Conference on 3D Vision (3DV), 2022

Vadim Tschernezki

Iro Laina

Diane Larlus

Andrea Vedaldi

530

232

07 Sep 2022

Fusion of Satellite Images and Weather Data with Transformer Networks for Downy Mildew Disease DetectionIEEE Access (IEEE Access), 2022

124

06 Sep 2022

Statistical Foundation Behind Machine Learning and Its Impact on Computer Vision

Lei Zhang

H. Shum

VLM SSL

144

06 Sep 2022

ELMformer: Efficient Raw Image Restoration with a Locally Multiplicative TransformerACM Multimedia (ACM MM), 2022

164

31 Aug 2022

MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual RecognitionNeurocomputing (Neurocomputing), 2022

Errui Ding

162

31 Aug 2022

MRL: Learning to Mix with Attention and Convolutions

Shlok Mohta

Hisahiro Suganuma

Yoshiki Tanaka

244

30 Aug 2022

Adaptive Perception Transformer for Temporal Action Localization

Yizheng Ouyang

Tianjin Zhang

Weibo Gu

Hongfa Wang

240

25 Aug 2022

gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted WindowIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Mocho Go

Hideyuki Tachibana

ViT

171

24 Aug 2022

Efficient Attention-free Video Shift Transformers

Adrian Bulat

Brais Martínez

Georgios Tzimiropoulos

ViT

218

23 Aug 2022

FocusFormer: Focusing on What We Need via Architecture Sampler

Jing Liu

Jianfei Cai

Bohan Zhuang

162

23 Aug 2022

DPTNet: A Dual-Path Transformer Architecture for Scene Text Detection

Hongfa Wang

Wei Liu

Hanzi Wang

ViT

142

21 Aug 2022

Improved Image Classification with Token FusionIEEE Access (IEEE Access), 2022

183

19 Aug 2022

Learning Spatial-Frequency Transformer for Visual Object Tracking

337

18 Aug 2022

Conviformers: Convolutionally guided Vision Transformer

308

17 Aug 2022

Your ViT is Secretly a Hybrid Discriminative-Generative Diffusion Model

263

16 Aug 2022

Flow-Guided Transformer for Video InpaintingEuropean Conference on Computer Vision (ECCV), 2022

218

101

14 Aug 2022

Class-attention Video Transformer for Engagement Intensity Prediction

142

12 Aug 2022

Deep is a Luxury We Don't HaveInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2022

173

11 Aug 2022

DropKey

Bonan li

Yinhan Hu

Xuecheng Nie

Congying Han

Xiangjian Jiang

Tiande Guo

Luoqi Liu

232

04 Aug 2022

Maintaining Performance with Less Data

Dominic Sanderson

Tatiana Kalgonova

260

03 Aug 2022

Global-Local Self-Distillation for Visual Representation LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tim Lebailly

Tinne Tuytelaars

SSL

138

29 Jul 2022

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated ConvolutionsNeural Information Processing Systems (NeurIPS), 2022

Yongming Rao

Wenliang Zhao

Yansong Tang

Jie Zhou

Ser-Nam Lim

Jiwen Lu

ViT

444

338

28 Jul 2022

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-TransformerKnowledge-Based Systems (KBS), 2022

Hao Li

168

28 Jul 2022

Convolutional Embedding Makes Hierarchical Vision Transformer StrongerEuropean Conference on Computer Vision (ECCV), 2022

111

27 Jul 2022

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-trainingEuropean Conference on Computer Vision (ECCV), 2022

Lu Yuan

225

26 Jul 2022

Self-Distilled Vision Transformer for Domain GeneralizationAsian Conference on Computer Vision (ACCV), 2022

M. Sultana

Muzammal Naseer

Muhammad Haris Khan

Salman Khan

Fahad Shahbaz Khan

ViT

300

25 Jul 2022