CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

Kolmogorov-Arnold Convolutions: Design Principles and Empirical Studies

Ivan Drokin

323

01 Jul 2024

Query-Efficient Hard-Label Black-Box Attack against Vision Transformers

Chao Zhou

Xiaowen Shi

Yuan-Gen Wang

ViT AAML

215

29 Jun 2024

Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads

Ali Khaleghi Rahimian

240

27 Jun 2024

Pamba: Enhancing Global Interaction in Point Clouds via State Space Model

178

25 Jun 2024

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Qi Ma

Danda Pani Paudel

E. Konukoglu

Luc Van Gool

271

25 Jun 2024

A Primal-Dual Framework for Transformers and Neural Networks

Tan M. Nguyen

Tam Nguyen

201

19 Jun 2024

Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy DiagnosisProcedia Computer Science (PCS), 2024

Long Bai

Jianhua Zhang

Hongliang Ren

325

15 Jun 2024

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

391

12 Jun 2024

Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking

312

12 Jun 2024

You Only Need Less Attention at Each Stage in Vision Transformers

293

01 Jun 2024

Automatic Channel Pruning for Multi-Head Attention

Eunho Lee

Youngbae Hwang

ViT

261

31 May 2024

Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

Daniele Jahier Pagliari

Luca Bompani

Luca Benini

297

29 May 2024

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

324

28 May 2024

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

Xiang Li

...

Zhoujun Li

233

27 May 2024

ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking

254

24 May 2024

YOLOv10: Real-Time End-to-End Object DetectionNeural Information Processing Systems (NeurIPS), 2024

Hui Chen

Jungong Han

303

3,206

23 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

911

170

23 May 2024

CSTA: CNN-based Spatiotemporal Attention for Video Summarization

308

20 May 2024

Stereo-Knowledge Distillation from dpMV to Dual Pixels for Light Field Video Reconstruction

Aryan Garg

Raghav Mallampali

Akshat Joshi

Shrisudhan Govindarajan

Kaushik Mitra

290

20 May 2024

GestFormer: Multiscale Wavelet Pooling Transformer Network for Dynamic Hand Gesture Recognition

256

18 May 2024

All in One Framework for Multimodal Re-identification in the Wild

He Li

Mang Ye

Ming Zhang

Bo Du

293

08 May 2024

Examining Changes in Internal Representations of Continual Learning Models Through Tensor Decomposition

Nishant Suresh Aswani

Amira Guesmi

Muhammad Abdullah Hanif

Mohamed Bennai

CLL

185

06 May 2024

A separability-based approach to quantifying generalization: which layer is best?

349

02 May 2024

Fusing Depthwise and Pointwise Convolutions for Efficient Inference on GPUs

189

30 Apr 2024

ShadowMaskFormer: Mask Augmented Patch Embeddings for Shadow Removal

373

29 Apr 2024

GLIMS: Attention-Guided Lightweight Multi-Scale Hybrid Network for Volumetric Semantic Segmentation

242

27 Apr 2024

PromptCIR: Blind Compressed Image Restoration with Prompt Learning

335

26 Apr 2024

MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition

Felix M. Schmitt-Koopmann

209

21 Apr 2024

Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing

251

20 Apr 2024

An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training

291

18 Apr 2024

Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution

Cansu Korkmaz

A. Murat Tekalp

ViT

322

17 Apr 2024

Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers

Diana-Nicoleta Grigore

Mariana-Iuliana Georgescu

J. A. Justo

T. Johansen

Andreea-Iuliana Ionescu

Radu Tudor Ionescu

340

14 Apr 2024

TSLANet: Rethinking Transformers for Time Series Representation Learning

338

122

12 Apr 2024

Robust feature knowledge distillation for enhanced performance of lightweight crack segmentation models

Zhaohui Chen

Elyas Asadi Shamsabadi

Sheng Jiang

Luming Shen

Daniel Dias-da-Costa

192

09 Apr 2024

Using Few-Shot Learning to Classify Primary Lung Cancer and Other Malignancy with Lung Metastasis in Cytological Imaging via Endobronchial Ultrasound Procedures

Ching-Kai Lin

Di-Chun Wei

Yun-Chien Cheng

351

09 Apr 2024

Lightweight Deep Learning for Resource-Constrained Environments: A Survey

368

160

08 Apr 2024

HSViT: Horizontally Scalable Vision Transformer

243

08 Apr 2024

GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets

Dongjing Shan

guiqiang chen

ViT

327

07 Apr 2024

Learning Correlation Structures for Vision Transformers

299

05 Apr 2024

ViTamin: Designing Scalable Vision Models in the Vision-Language EraComputer Vision and Pattern Recognition (CVPR), 2024

Liang-Chieh Chen

418

02 Apr 2024

Structured Initialization for Attention in Vision Transformers

272

01 Apr 2024

Improving Visual Recognition with Hyperbolical Visual Hierarchy Mapping

345

01 Apr 2024

Harnessing The Power of Attention For Patch-Based Biomedical Image Classification

Gousia Habib

Shaima Qureshi

Malik Ishfaq

137

01 Apr 2024

IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions

289

31 Mar 2024

Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights

...

Ehsan Khodapanah Aghdam

Amirhossein Kazerouni

Ilker Hacihaliloglu

Dorit Merhof

307

28 Mar 2024

Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis

Badri N. Patro

Suhas Ranganath

Vinay P. Namboodiri

Vijay Srinivas Agneeswaran

311

26 Mar 2024

PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition

342

170

26 Mar 2024

A Survey on Deep Learning and State-of-the-art Applications

Mohd Halim Mohd Noor

A. O. Ige

AILaw MLAU

214

26 Mar 2024

Exploring Dynamic Transformer for Efficient Object Tracking

Huchuan Lu

413

26 Mar 2024

CFAT: Unleashing TriangularWindows for Image Super-resolution

284

24 Mar 2024