CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

D3Former: Debiased Dual Distilled Transformer for Incremental Learning

Salman Khan

313

25 Jul 2022

Jigsaw-ViT: Learning Jigsaw Puzzles in Vision Transformer

262

25 Jul 2022

Online Continual Learning with Contrastive Vision TransformerEuropean Conference on Computer Vision (ECCV), 2022

267

24 Jul 2022

An Efficient Spatio-Temporal Pyramid Transformer for Action DetectionEuropean Conference on Computer Vision (ECCV), 2022

Yuetian Weng

Zizheng Pan

Mingfei Han

Xiaojun Chang

Bohan Zhuang

ViT

207

21 Jul 2022

Locality Guidance for Improving Vision Transformers on Tiny DatasetsEuropean Conference on Computer Vision (ECCV), 2022

Runyi Yu

203

20 Jul 2022

Vision Transformers: From Semantic Segmentation to Dense PredictionInternational Journal of Computer Vision (IJCV), 2022

Li Zhang

328

19 Jul 2022

Defect Transformer: An Efficient Hybrid Transformer Architecture for Surface Defect Detection

225

112

17 Jul 2022

SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly DetectionComputer Vision and Image Understanding (CVIU), 2022

Antonio Bărbălău

Radu Tudor Ionescu

Mariana-Iuliana Georgescu

547

102

16 Jul 2022

Convolutional Bypasses Are Better Vision Transformer AdaptersEuropean Conference on Artificial Intelligence (ECAI), 2022

Shibo Jie

Zhi-Hong Deng

VPVLM

392

170

14 Jul 2022

N-Grammer: Augmenting Transformers with latent n-grams

...

208

13 Jul 2022

Eliminating Gradient Conflict in Reference-based Line-Art ColorizationEuropean Conference on Computer Vision (ECCV), 2022

522

13 Jul 2022

MSP-Former: Multi-Scale Projection Transformer for Single Image DesnowingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Sixiang Chen

290

12 Jul 2022

Long-term Leap Attention, Short-term Periodic Shift for Video ClassificationACM Multimedia (ACM MM), 2022

Chong-Wah Ngo

222

12 Jul 2022

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

Rui Wang

Min Zheng

Xin Pan

ViT

295

209

12 Jul 2022

Wave-ViT: Unifying Wavelet and Transformers for Visual Representation LearningEuropean Conference on Computer Vision (ECCV), 2022

Ting Yao

Yingwei Pan

Yehao Li

Chong-Wah Ngo

Tao Mei

ViT

512

207

11 Jul 2022

Dual Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Yingwei Pan

Tao Mei

395

121

11 Jul 2022

Self-attention on Multi-Shifted Windows for Scene Segmentation

194

10 Jul 2022

Horizontal and Vertical Attention in Transformers

Litao Yu

Shuai Liu

ViT

187

10 Jul 2022

QKVA grid: Attention in Image Perspective and Stacked DETR

Wenyuan Sheng

ViT MU

09 Jul 2022

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech SynthesisACM Multimedia (ACM MM), 2022

Yongqiang Wang

Zhou Zhao

339

08 Jul 2022

MaiT: Leverage Attention Masks for More Efficient Image Transformers

Ling Li

Ali Shafiee Ardestani

Joseph Hassoun

135

06 Jul 2022

Branchformer: Parallel MLP-Attention Architectures to Capture Local and Global Context for Speech Recognition and UnderstandingInternational Conference on Machine Learning (ICML), 2022

301

198

06 Jul 2022

OSFormer: One-Stage Camouflaged Instance Segmentation with TransformersEuropean Conference on Computer Vision (ECCV), 2022

Luc Van Gool

369

05 Jul 2022

Improving Semantic Segmentation in Transformers using Hierarchical Inter-Level Attention

Gary Leung

Jun Gao

Fangyin Wei

Sanja Fidler

236

05 Jul 2022

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural NetworksIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Yongming Rao

Zuyan Liu

Wenliang Zhao

Jie Zhou

Jiwen Lu

ViT

318

04 Jul 2022

Masked World Models for Visual ControlConference on Robot Learning (CoRL), 2022

Pieter Abbeel

465

199

28 Jun 2022

BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping

466

24 Jun 2022

Vicinity Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Zhen Qin

Lingpeng Kong

307

21 Jun 2022

Global Context Vision TransformersInternational Conference on Machine Learning (ICML), 2022

526

211

20 Jun 2022

Learning Multiscale Transformer Models for Sequence GenerationInternational Conference on Machine Learning (ICML), 2022

Jingbo Zhu

255

19 Jun 2022

EATFormer: Improving Vision Transformer Inspired by Evolutionary AlgorithmInternational Journal of Computer Vision (IJCV), 2022

Jiangning Zhang

Xiangtai Li

Yabiao Wang

Chengjie Wang

357

19 Jun 2022

SimA: Simple Softmax-free Attention for Vision TransformersIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Soroush Abbasi Koohpayegani

Hamed Pirsiavash

344

17 Jun 2022

Patch-level Representation Learning for Self-supervised Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

342

16 Jun 2022

SP-ViT: Learning 2D Spatial Priors for Vision TransformersBritish Machine Vision Conference (BMVC), 2022

Lei Zhang

140

15 Jun 2022

Efficient Adaptive Ensembling for Image Classification

A. Bruno

Davide Moroni

M. Martinelli

258

15 Jun 2022

Peripheral Vision TransformerNeural Information Processing Systems (NeurIPS), 2022

275

14 Jun 2022

MLP-3D: A MLP-like 3D Architecture with Grouped Time MixingComputer Vision and Pattern Recognition (CVPR), 2022

Zhaofan Qiu

Ting Yao

Chong-Wah Ngo

Tao Mei

ViT

298

13 Jun 2022

Spatial Entropy as an Inductive Bias for Vision TransformersMachine-mediated learning (ML), 2022

Wei Bi

315

09 Jun 2022

MobileOne: An Improved One millisecond Mobile BackboneComputer Vision and Pattern Recognition (CVPR), 2022

Pavan Kumar Anasosalu Vasu

404

275

08 Jun 2022

Separable Self-attention for Mobile Vision Transformers

Sachin Mehta

Mohammad Rastegari

ViT MQ

368

411

06 Jun 2022

Federated Adversarial Training with Transformers

252

05 Jun 2022

EfficientFormer: Vision Transformers at MobileNet SpeedNeural Information Processing Systems (NeurIPS), 2022

835

565

02 Jun 2022

Transforming medical imaging with Transformers? A comparative review of key properties, current progresses, and future perspectives

Bennett A. Landman

520

169

02 Jun 2022

The Fully Convolutional Transformer for Medical Image SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Athanasios Tragakis

Chaitanya Kaul

Roderick Murray-Smith

D. Husmeier

ViT MedIm

258

108

01 Jun 2022

Vision GNN: An Image is Worth Graph of NodesNeural Information Processing Systems (NeurIPS), 2022

382

563

01 Jun 2022

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

310

30 May 2022

Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence LearningNeural Information Processing Systems (NeurIPS), 2022

Aniket Didolkar

Kshitij Gupta

Anirudh Goyal

Nitesh B. Gundavarapu

524

30 May 2022

WaveMix: A Resource-efficient Neural Network for Image Analysis

536

28 May 2022

Future Transformer for Long-term Action AnticipationComputer Vision and Pattern Recognition (CVPR), 2022

Joonseok Lee

140

27 May 2022

Green Hierarchical Vision Transformer for Masked Image ModelingNeural Information Processing Systems (NeurIPS), 2022

Fei Wang

371

26 May 2022