CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

HRFormer: High-Resolution Transformer for Dense Prediction

Jingdong Wang

322

303

18 Oct 2021

CAE-Transformer: Transformer-based Model to Predict Invasiveness of Lung Adenocarcinoma Subsolid Nodules from Non-thin Section 3D CT Scans

Shahin Heidarian

Parnian Afshar

A. Oikonomou

Konstantinos N. Plataniotis

Arash Mohammadi

ViT MedIm

226

17 Oct 2021

CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for Non-Contrast to Contrast CT Translation

Nicolae-Cătălin Ristea

A. Miron

O. Savencu

Mariana-Iuliana Georgescu

500

12 Oct 2021

Global Vision Transformer Pruning with Hessian-Aware SaliencyComputer Vision and Pattern Recognition (CVPR), 2021

Huanrui Yang

213

10 Oct 2021

Adversarial Token Attacks on Vision Transformers

199

08 Oct 2021

PHNNs: Lightweight Neural Networks via Parameterized Hypercomplex ConvolutionsIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

Eleonora Grassucci

Aston Zhang

Danilo Comminiello

216

08 Oct 2021

UniNet: Unified Architecture Search with Convolution, Transformer, and MLPEuropean Conference on Computer Vision (ECCV), 2021

233

08 Oct 2021

SERAB: A multi-lingual benchmark for speech emotion recognition

204

07 Oct 2021

Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs

259

06 Oct 2021

3rd Place Solution to Google Landmark Recognition Competition 2021

216

06 Oct 2021

Ripple Attention for Visual Perception with Sub-quadratic Complexity

Lin Zheng

Huijie Pan

Lingpeng Kong

253

06 Oct 2021

MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer

Sachin Mehta

Mohammad Rastegari

ViT

649

1,915

05 Oct 2021

UFO-ViT: High Performance Linear Vision Transformer without Softmax

Jeonggeun Song

ViT

320

29 Sep 2021

Fine-tuning Vision Transformers for the Prediction of State Variables in Ising Models

Onur Kara

Arijit Sehanobish

H. Corzo

154

28 Sep 2021

BiTr-Unet: a CNN-Transformer Combined Network for MRI Brain Tumor Segmentation

Qiran Jia

Hai Shu

ViT MedIm

236

101

25 Sep 2021

Audiomer: A Convolutional Transformer For Keyword Spotting

186

21 Sep 2021

SDTP: Semantic-aware Decoupled Transformer Pyramid for Dense Image Prediction

Bing Li

144

18 Sep 2021

Primer: Searching for Efficient Transformers for Language Modeling

410

187

17 Sep 2021

Complementary Feature Enhanced Network with Vision Transformer for Image Dehazing

Jia Li

229

15 Sep 2021

LibFewShot: A Comprehensive Library for Few-shot LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

...

413

10 Sep 2021

Towards Transferable Adversarial Attacks on Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2021

Zuxuan Wu

345

141

09 Sep 2021

Scaled ReLU Matters for Training Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2021

Jingkai Zhou

Fan Wang

Hao Li

Rong Jin

244

08 Sep 2021

Searching for Efficient Multi-Stage Vision Transformers

113

01 Sep 2021

Hire-MLP: Vision MLP via Hierarchical RearrangementComputer Vision and Pattern Recognition (CVPR), 2021

281

115

30 Aug 2021

A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP

175

30 Aug 2021

Reiterative Domain Aware Multi-Target AdaptationGerman Conference on Pattern Recognition (DAGM), 2021

Sudipan Saha

Shan Zhao

Nasrullah Sheikh

Xiao Xiang Zhu

169

26 Aug 2021

Shifted Chunk Transformer for Spatio-Temporal Representational LearningNeural Information Processing Systems (NeurIPS), 2021

308

26 Aug 2021

Transformers predicting the future. Applying attention in next-frame and time series forecasting

Radostin Cholakov

T. Kolev

AI4TS

159

18 Aug 2021

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

766

454

16 Aug 2021

Mobile-Former: Bridging MobileNet and TransformerComputer Vision and Pattern Recognition (CVPR), 2021

Lu Yuan

Zicheng Liu

ViT

863

623

12 Aug 2021

ICAF: Iterative Contrastive Alignment Framework for Multimodal Abstractive SummarizationIEEE International Joint Conference on Neural Network (IJCNN), 2021

177

11 Aug 2021

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding NetworkACM Multimedia (ACM MM), 2021

Bin Tang

311

167

09 Aug 2021

Armour: Generalizable Compact Self-Attention for Vision Transformers

Lingchuan Meng

ViT

03 Aug 2021

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

374

263

03 Aug 2021

CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale AttentionInternational Conference on Learning Representations (ICLR), 2021

Wei Liu

506

343

31 Jul 2021

Query2Label: A Simple Transformer Way to Multi-Label Classification

Shilong Liu

Lei Zhang

Xiao Yang

Hang Su

Jun Zhu

200

238

22 Jul 2021

CycleMLP: A MLP-like Architecture for Dense PredictionInternational Conference on Learning Representations (ICLR), 2021

395

253

21 Jul 2021

FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks

457

13 Jul 2021

Visual Parser: Representing Part-whole Hierarchies with Transformers

Shuyang Sun

Xiaoyu Yue

S. Bai

Juil Sock

234

13 Jul 2021

Locally Enhanced Self-Attention: Combining Self-Attention and Convolution as Local and Context Terms

Chenglin Yang

Siyuan Qiao

Adam Kortylewski

Alan Yuille

267

12 Jul 2021

Local-to-Global Self-Attention in Vision Transformers

121

10 Jul 2021

ViTGAN: Training GANs with Vision TransformersInternational Conference on Learning Representations (ICLR), 2021

351

220

09 Jul 2021

Vision Xformers: Efficient Attention for Image Classification

Pranav Jeevan

Amit Sethi

ViT

178

05 Jul 2021

Long-Short Transformer: Efficient Transformers for Language and Vision

442

161

05 Jul 2021

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Jianmin Bao

Lu Yuan

795

1,236

01 Jul 2021

AutoFormer: Searching Transformers for Visual Recognition

300

322

01 Jul 2021

Global Filter Networks for Image Classification

Wenliang Zhao

Jie Zhou

304

611

01 Jul 2021

Focal Self-attention for Local-Global Interactions in Vision Transformers

Jianwei Yang

Lu Yuan

353

501

01 Jul 2021

Rethinking Token-Mixing MLP for MLP-based Vision BackboneBritish Machine Vision Conference (BMVC), 2021

197

28 Jun 2021

Early Convolutions Help Transformers See BetterNeural Information Processing Systems (NeurIPS), 2021

Piotr Dollár

377

887

28 Jun 2021