CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

UniFormer: Unified Transformer for Efficient Spatiotemporal Representation LearningInternational Conference on Learning Representations (ICLR), 2022

Yu Qiao

489

320

12 Jan 2022

A ConvNet for the 2020sComputer Vision and Pattern Recognition (CVPR), 2022

Zhuang Liu

Hanzi Mao

Chaozheng Wu

Christoph Feichtenhofer

Trevor Darrell

Saining Xie

ViT

627

7,167

10 Jan 2022

Spatio-Temporal Tuples Transformer for Skeleton-Based Action Recognition

231

08 Jan 2022

QuadTree Attention for Vision TransformersInternational Conference on Learning Representations (ICLR), 2022

494

188

08 Jan 2022

Lumbar Bone Mineral Density Estimation from Chest X-ray Images: Anatomy-aware Attentive Multi-ROI ModelingIEEE Transactions on Medical Imaging (IEEE TMI), 2022

161

05 Jan 2022

Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention

396

05 Jan 2022

PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture

227

04 Jan 2022

Vision Transformer with Deformable AttentionComputer Vision and Pattern Recognition (CVPR), 2022

Gao Huang

450

704

03 Jan 2022

HPRN: Holistic Prior-embedded Relation Network for Spectral Super-ResolutionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

185

29 Dec 2021

Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped AttentionAAAI Conference on Artificial Intelligence (AAAI), 2021

248

28 Dec 2021

SPViT: Enabling Faster Vision Transformers via Soft Token PruningEuropean Conference on Computer Vision (ECCV), 2021

...

326

196

27 Dec 2021

Vision Transformer for Small-Size Datasets

246

284

27 Dec 2021

Learned Queries for Efficient Local AttentionComputer Vision and Pattern Recognition (CVPR), 2021

263

21 Dec 2021

MPViT: Multi-Path Vision Transformer for Dense PredictionComputer Vision and Pattern Recognition (CVPR), 2021

322

321

21 Dec 2021

Lite Vision Transformer with Enhanced Self-AttentionComputer Vision and Pattern Recognition (CVPR), 2021

248

149

20 Dec 2021

StyleSwin: Transformer-based GAN for High-resolution Image GenerationComputer Vision and Pattern Recognition (CVPR), 2021

Bo Zhang

Shuyang Gu

Bo Zhang

Jianmin Bao

459

293

20 Dec 2021

Towards End-to-End Image Compression and Analysis with Transformers

Yaowei Wang

261

17 Dec 2021

Couplformer:Rethinking Vision Transformer with Coupling Attention Map

196

10 Dec 2021

Locally Shifted Attention With Early Global Integration

Shelly Sheynin

Sagie Benaim

Adam Polyak

Lior Wolf

ViT

09 Dec 2021

3D Medical Point Transformer: Introducing Convolution to Attention Networks for Medical Point Cloud Analysis

Jianhui Yu

Heng Wang

Dongnan Liu

196

09 Dec 2021

MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection

303

07 Dec 2021

Creating Multimodal Interactive Agents with Imitation and Self-Supervised Learning

DeepMind Interactive Agents Team Josh Abramson

Arun Ahuja

...

Rui Zhu

282

07 Dec 2021

Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training

278

07 Dec 2021

GETAM: Gradient-weighted Element-wise Transformer Attention Map for Weakly-supervised Semantic segmentation

226

06 Dec 2021

Dynamic Token Normalization Improves Vision TransformersInternational Conference on Learning Representations (ICLR), 2021

Ying Shan

Ping Luo

ViT

326

05 Dec 2021

BEVT: BERT Pretraining of Video Transformers

Zuxuan Wu

Lu Yuan

297

248

02 Dec 2021

MViTv2: Improved Multiscale Vision Transformers for Classification and Detection

Christoph Feichtenhofer

ViT

492

850

02 Dec 2021

Vision Pair Learning: An Efficient Training Framework for Image Classification

Bei Tong

Xiaoyuan Yu

ViT

126

02 Dec 2021

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition

Zuxuan Wu

Ser-Nam Lim

246

294

30 Nov 2021

Adaptive Token Sampling For Efficient Vision Transformers

Mohsen Fayyaz

Soroush Abbasi Koohpayegani

F. Jafari

Sunando Sengupta

Hamid Reza Vaezi Joze

Eric Sommerlade

Hamed Pirsiavash

Juergen Gall

ViT

379

220

30 Nov 2021

TransWeather: Transformer-based Restoration of Images Degraded by Adverse Weather Conditions

Jeya Maria Jose Valanarasu

R. Yasarla

Vishal M. Patel

ViT

350

413

29 Nov 2021

On the Integration of Self-Attention and ConvolutionComputer Vision and Pattern Recognition (CVPR), 2021

Rui Lu

Gao Huang

305

432

29 Nov 2021

SWAT: Spatial Structure Within and Among TokensInternational Joint Conference on Artificial Intelligence (IJCAI), 2021

Kumara Kahatapitiya

Michael S. Ryoo

272

26 Nov 2021

NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition

Xin Li

185

25 Nov 2021

Self-slimmed Vision Transformer

Yu Qiao

305

24 Nov 2021

Octree Transformer: Autoregressive 3D Shape Generation on Hierarchically Structured Sequences

Moritz Ibing

Gregor Kobsik

Leif Kobbelt

217

24 Nov 2021

Florence: A New Foundation Model for Computer Vision

Lu Yuan

...

Jianwei Yang

409

1,060

22 Nov 2021

MetaFormer Is Actually What You Need for VisionComputer Vision and Pattern Recognition (CVPR), 2021

Weihao Yu

541

1,198

22 Nov 2021

Semi-Supervised Vision TransformersEuropean Conference on Computer Vision (ECCV), 2021

Zuxuan Wu

194

22 Nov 2021

CpT: Convolutional Point Transformer for 3D Point Cloud Processing

Chaitanya Kaul

Joshua Mitton

H. Dai

Roderick Murray-Smith

3DPC

114

21 Nov 2021

Rethinking Query, Key, and Value Embedding in Vision Transformer under Tiny Model Constraints

233

19 Nov 2021

INTERN: A New Learning Paradigm Towards General Vision

Siyu Chen

...

Yu Qiao

237

16 Nov 2021

Attention Mechanisms in Computer Vision: A SurveyComputational Visual Media (CVM), 2021

Ming-Ming Cheng

306

2,129

15 Nov 2021

Searching for TrioNet: Combining Convolution with Local and Global Self-AttentionBritish Machine Vision Conference (BMVC), 2021

181

15 Nov 2021

A Survey of Visual TransformersIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

Yang Liu

473

487

11 Nov 2021

Sliced Recursive TransformerEuropean Conference on Computer Vision (ECCV), 2021

216

09 Nov 2021

Convolutional Gated MLP: Combining Convolutions & gMLP

A. Rajagopal

V. Nirmala

136

06 Nov 2021

Blending Anti-Aliasing into Vision TransformerNeural Information Processing Systems (NeurIPS), 2021

213

28 Oct 2021

MVT: Multi-view Vision Transformer for 3D Object RecognitionBritish Machine Vision Conference (BMVC), 2021

Shuo Chen

Tan Yu

Ping Li

ViT

135

25 Oct 2021

CvT-ASSD: Convolutional vision-Transformer Based Attentive Single Shot MultiBox DetectorIEEE International Conference on Tools with Artificial Intelligence (ICTAI), 2021

115

24 Oct 2021