CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

Fast Vision Transformers with HiLo AttentionNeural Information Processing Systems (NeurIPS), 2022

Zizheng Pan

Jianfei Cai

Bohan Zhuang

448

249

26 May 2022

Concurrent Neural Tree and Data Preprocessing AutoML for Image Classification

155

25 May 2022

Inception TransformerNeural Information Processing Systems (NeurIPS), 2022

Weihao Yu

357

257

25 May 2022

MoCoViT: Mobile Convolutional Vision Transformer

Min Zheng

388

25 May 2022

VLCDoC: Vision-Language Contrastive Pre-Training Model for Cross-Modal Document ClassificationPattern Recognition (Pattern Recogn.), 2022

284

24 May 2022

Transformer based Generative Adversarial Network for Liver Segmentation

Debesh Jha

189

21 May 2022

Boosting Camouflaged Object Detection with Dual-Task Interactive TransformerInternational Conference on Pattern Recognition (ICPR), 2022

Zheng Liu

Zhili Zhang

Wei Wu

224

21 May 2022

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality

Xiang Li

Wenhai Wang

Lingfeng Yang

Jian Yang

305

20 May 2022

TRT-ViT: TensorRT-oriented Vision Transformer

Min Zheng

Rui Wang

ViT

224

19 May 2022

Learning Rate CurriculumInternational Journal of Computer Vision (IJCV), 2022

Florinel-Alin Croitoru

Nicolae-Cătălin Ristea

Radu Tudor Ionescu

Andrii Zadaianchuk

262

18 May 2022

Vision Transformer Adapter for Dense PredictionsInternational Conference on Learning Representations (ICLR), 2022

Yu Qiao

913

766

17 May 2022

POViT: Vision Transformer for Multi-objective Design and Characterization of Nanophotonic Devices

326

17 May 2022

ShiftAddNAS: Hardware-Inspired Search for More Accurate and Efficient Neural NetworksInternational Conference on Machine Learning (ICML), 2022

362

17 May 2022

Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and LocalizationComputer Vision and Pattern Recognition (CVPR), 2022

Luke Melas-Kyriazi

Christian Rupprecht

Iro Laina

Andrea Vedaldi

303

188

16 May 2022

Transformers in 3D Point Clouds: A Survey

Mingqiang Wei

Jonathan Li

327

16 May 2022

Activating More Pixels in Image Super-Resolution TransformerComputer Vision and Pattern Recognition (CVPR), 2022

523

914

09 May 2022

ConvMAE: Masked Convolution Meets Masked Autoencoders

Yu Qiao

256

151

08 May 2022

EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Georgios Tzimiropoulos

Brais Martínez

ViT

369

245

06 May 2022

Symmetric Transformer-based Network for Unsupervised Image RegistrationKnowledge-Based Systems (KBS), 2022

160

28 Apr 2022

Self-Supervised Learning of Object Parts for Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2022

A. Ziegler

Yuki M. Asano

SSL OCL

330

127

27 Apr 2022

DearKD: Data-Efficient Early Knowledge Distillation for Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

Xianing Chen

Qiong Cao

Yujie Zhong

Jing Zhang

Shenghua Gao

Dacheng Tao

ViT

255

102

27 Apr 2022

Adaptive Split-Fusion TransformerIEEE International Conference on Multimedia and Expo (ICME), 2022

Chong-Wah Ngo

255

26 Apr 2022

TranSiam: Fusing Multimodal Visual Features Using Transformer for Medical Image Segmentation

26 Apr 2022

Deeper Insights into the Robustness of ViTs towards Common Corruptions

Zuxuan Wu

309

26 Apr 2022

High-Efficiency Lossy Image Coding Through Adaptive Neighborhood Information Aggregation

Ming Lu

Fangdong Chen

Shiliang Pu

Zhan Ma

156

25 Apr 2022

Residual Mixture of Experts

Lu Yuan

354

20 Apr 2022

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks

Changjie Fan

142

19 Apr 2022

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering TransformerComputer Vision and Pattern Recognition (CVPR), 2022

Wentao Liu

271

166

19 Apr 2022

The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-TrainingAAAI Conference on Artificial Intelligence (AAAI), 2022

Xin Li

189

18 Apr 2022

ResT V2: Simpler, Faster and StrongerNeural Information Processing Systems (NeurIPS), 2022

Qing-Long Zhang

Yubin Yang

ViT

249

15 Apr 2022

MiniViT: Compressing Vision Transformers with Weight MultiplexingComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

289

152

14 Apr 2022

Neighborhood Attention TransformerComputer Vision and Pattern Recognition (CVPR), 2022

414

403

14 Apr 2022

DeiT III: Revenge of the ViTEuropean Conference on Computer Vision (ECCV), 2022

295

545

14 Apr 2022

SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient object detection

324

284

12 Apr 2022

TopFormer: Token Pyramid Transformer for Mobile Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2022

Tao Chen

Chunhua Shen

280

260

12 Apr 2022

Linear Complexity Randomized Self-attention MechanismInternational Conference on Machine Learning (ICML), 2022

Lin Zheng

Chong-Jun Wang

Lingpeng Kong

206

10 Apr 2022

Multimodal Multi-Head Convolutional Attention with Various Kernel Sizes for Medical Image Super-ResolutionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Mariana-Iuliana Georgescu

Radu Tudor Ionescu

A. Miron

O. Savencu

Nicolae-Cătălin Ristea

N. Verga

Fahad Shahbaz Khan

SupR

162

08 Apr 2022

DaViT: Dual Attention Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Mingyu Ding

Bin Xiao

Noel Codella

Ping Luo

Jingdong Wang

Lu Yuan

ViT

382

344

07 Apr 2022

Unified Contrastive Learning in Image-Text-Label SpaceComputer Vision and Pattern Recognition (CVPR), 2022

Jianwei Yang

Lu Yuan

319

273

07 Apr 2022

MixFormer: Mixing Features across Windows and DimensionsComputer Vision and Pattern Recognition (CVPR), 2022

Errui Ding

Jingdong Wang

208

130

06 Apr 2022

SE(3)-Equivariant Attention Networks for Shape Reconstruction in Function SpaceInternational Conference on Learning Representations (ICLR), 2022

Evangelos Chatzipantazis

Stefanos Pertigkiozoglou

Guang Cheng

Kostas Daniilidis

3DPC

338

05 Apr 2022

MaxViT: Multi-Axis Vision TransformerEuropean Conference on Computer Vision (ECCV), 2022

Feng Yang

517

906

04 Apr 2022

Matching Feature Sets for Few-Shot Image ClassificationComputer Vision and Pattern Recognition (CVPR), 2022

Arman Afrasiyabi

Hugo Larochelle

Jean-François Lalonde

Christian Gagné

VLM

271

02 Apr 2022

CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object DetectionComputer Vision and Pattern Recognition (CVPR), 2022

Yanan Zhang

Jiaxin Chen

Di Huang

ViT 3DPC

360

01 Apr 2022

Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical LoadInterspeech (Interspeech), 2022

201

30 Mar 2022

ITTR: Unpaired Image-to-Image Translation with Transformers

170

30 Mar 2022

MatteFormer: Transformer-Based Image Matting via Prior-TokensComputer Vision and Pattern Recognition (CVPR), 2022

243

29 Mar 2022

SepViT: Separable Vision Transformer

Min Zheng

278

29 Mar 2022

MAT: Mask-Aware Transformer for Large Hole Image InpaintingComputer Vision and Pattern Recognition (CVPR), 2022

Yi Wang

389

435

29 Mar 2022

Affine Medical Image Registration with Coarse-to-Fine Vision TransformerComputer Vision and Pattern Recognition (CVPR), 2022

Tony C. W. Mok

Albert C. S. Chung

ViT MedIm

204

29 Mar 2022