CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

HBFormer: A Hybrid-Bridge Transformer for Microtumor and Miniature Organ Segmentation

246

03 Dec 2025

A unified framework for geometry-independent operator learning in cardiac electrophysiology simulations

...

116

01 Dec 2025

Stacked Ensemble of Fine-Tuned CNNs for Knee Osteoarthritis Severity Grading

27 Nov 2025

Self-Paced Learning for Images of Antinuclear AntibodiesIEEE Transactions on Medical Imaging (IEEE TMI), 2025

26 Nov 2025

Rethinking Vision Transformer Depth via Structural Reparameterization

108

24 Nov 2025

EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification

Muhammad Abdullah Adnan

ViT

24 Nov 2025

Exploring Weak-to-Strong Generalization for CLIP-based Classification

228

23 Nov 2025

CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework

106

08 Nov 2025

GroupKAN: Rethinking Nonlinearity with Grouped Spline-based KAN Modeling for Efficient Medical Image Segmentation

Guojie Li

Anwar P.P. Abdul Majeed

132

07 Nov 2025

A Hybrid Deep Learning Model for Robust Biometric Authentication from Low-Frame-Rate PPG Signals

Arfina Rahman

Mahesh K. Banavar

253

06 Nov 2025

UniSOT: A Unified Framework for Multi-Modality Single Object TrackingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

220

03 Nov 2025

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

H. Michaeli

Daniel Soudry

184

26 Oct 2025

3rd Place Solution to Large-scale Fine-grained Food Recognition

232

24 Oct 2025

Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency

141

23 Oct 2025

Dual-attention ResNet outperforms transformers in HER2 prediction on DCE-MRI

Naomi Fridman

Anat Goldstein

MedIm

14 Oct 2025

Automated Neural Architecture Design for Industrial Defect DetectionIEEE/ASME transactions on mechatronics (TAM), 2025

116

08 Oct 2025

On knot detection via picture recognition

Anne Dranowski

Yura Kabkov

Daniel Tubbenhauer

06 Oct 2025

A Mathematical Explanation of Transformers for Large Language Models and GPTs

150

05 Oct 2025

Allocation of Parameters in Transformers

154

04 Oct 2025

AttentionViG: Cross-Attention-Based Dynamic Neighbor Aggregation in Vision GNNs

109

29 Sep 2025

FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention

118

28 Sep 2025

Random Direct Preference Optimization for Radiography Report Generation

19 Sep 2025

Single Domain Generalization in Diabetic Retinopathy: A Neuro-Symbolic Learning Approach

140

03 Sep 2025

Enhancing compact convolutional transformers with super attention

Simpenzwe Honore Leandre

Natenaile Asmamaw Shiferaw

Dillip Rout

ViT VLM

100

26 Aug 2025

Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms

189

02 Aug 2025

Foundation Models for Bioacoustics -- a Comparative Review

141

02 Aug 2025

JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment

171

28 Jul 2025

Towards Universal Modal Tracking with Online Dense Temporal Token LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

173

27 Jul 2025

Foundation Models and Transformers for Anomaly Detection: A SurveyInformation Fusion (Inf. Fusion), 2025

198

21 Jul 2025

Frequency-Dynamic Attention Modulation for Dense Prediction

Linwei Chen

Lin Gu

Ying Fu

550

16 Jul 2025

EEG Foundation Models: A Critical Review of Current Progress and Future Directions

Gayal Kuruppu

Neeraj Wagh

Y. Varatharajah

Sandipan Pati

Gregory Worrell

Yogatheesan Varatharajah

309

15 Jul 2025

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer

149

15 Jun 2025

Delayformer: spatiotemporal transformation for predicting high-dimensional dynamics

150

13 Jun 2025

Enhancing Deepfake Detection using SE Block Attention with CNN

303

12 Jun 2025

Foundation Models in Medical Imaging: A Review and Outlook

Vivien van Veldhuizen

...

458

10 Jun 2025

Can Vision Transformers with ResNet's Global Features Fairly Authenticate Demographic Faces?International Conference on Pattern Recognition (ICPR), 2025

222

03 Jun 2025

S2AFormer: Strip Self-Attention for Efficient Vision TransformerIEEE Transactions on Image Processing (IEEE TIP), 2025

275

28 May 2025

Vision Transformers with Self-Distilled Registers

470

27 May 2025

Structured Initialization for Vision Transformers

Jianqiao Zheng

Xueqian Li

Hemanth Saratchandran

Simon Lucey

ViT

205

26 May 2025

PiT: Progressive Diffusion Transformer

612

19 May 2025

A 2D Semantic-Aware Position Encoding for Vision Transformers

...

293

14 May 2025

FAD: Frequency Adaptation and Diversion for Cross-domain Few-shot Learning

293

13 May 2025

Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer

Sainath Dey

Mitul Goswami

Jashika Sethi

Prasant Kumar Pattnaik

ViT

271

07 May 2025

SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

Young-Hu Park

R.-H. Park

Hyung-Min Park

342

07 May 2025

Image Recognition with Online Lightweight Vision Transformer: A Survey

...

1.1K

06 May 2025

Variational diffusion transformers for conditional sampling of supernovae spectra

Yunyi Shen

Alexander T. Gagliano

DiffM

199

05 May 2025

AI Assisted Cervical Cancer Screening for Cytology Samples in Developing Countries

Love Panta

Suraj Prasai

Karishma Malla Vaidya

Shyam Shrestha

Suresh Manandhar

313

29 Apr 2025

Group Downsampling with Equivariant Anti-aliasingInternational Conference on Learning Representations (ICLR), 2025

Md Ashiqur Rahman

Raymond A. Yeh

298

24 Apr 2025

ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages

Zhoujie Qian

ViT

283

21 Apr 2025

Fighting Fires from Space: Leveraging Vision Transformers for Enhanced Wildfire Detection and Characterization

181

18 Apr 2025