CvT: Introducing Convolutions to Vision Transformers

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Lu Yuan

Lei Zhang

ViT

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (227★)

Papers citing "CvT: Introducing Convolutions to Vision Transformers"

50 / 860 papers shown

HBFormer: A Hybrid-Bridge Transformer for Microtumor and Miniature Organ Segmentation

264

03 Dec 2025

A unified framework for geometry-independent operator learning in cardiac electrophysiology simulations

...

131

01 Dec 2025

Stacked Ensemble of Fine-Tuned CNNs for Knee Osteoarthritis Severity Grading

27 Nov 2025

Self-Paced Learning for Images of Antinuclear AntibodiesIEEE Transactions on Medical Imaging (IEEE TMI), 2025

26 Nov 2025

Rethinking Vision Transformer Depth via Structural Reparameterization

115

24 Nov 2025

EVCC: Enhanced Vision Transformer-ConvNeXt-CoAtNet Fusion for Classification

Muhammad Abdullah Adnan

ViT

24 Nov 2025

Exploring Weak-to-Strong Generalization for CLIP-based Classification

229

23 Nov 2025

CoMA: Complementary Masking and Hierarchical Dynamic Multi-Window Self-Attention in a Unified Pre-training Framework

109

08 Nov 2025

GroupKAN: Rethinking Nonlinearity with Grouped Spline-based KAN Modeling for Efficient Medical Image Segmentation

Guojie Li

Anwar P.P. Abdul Majeed

134

07 Nov 2025

A Hybrid Deep Learning Model for Robust Biometric Authentication from Low-Frame-Rate PPG Signals

Arfina Rahman

Mahesh K. Banavar

267

06 Nov 2025

UniSOT: A Unified Framework for Multi-Modality Single Object TrackingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

236

03 Nov 2025

Alias-Free ViT: Fractional Shift Invariance via Linear Attention

H. Michaeli

Daniel Soudry

189

26 Oct 2025

3rd Place Solution to Large-scale Fine-grained Food Recognition

234

24 Oct 2025

Attentive Convolution: Unifying the Expressivity of Self-Attention with Convolutional Efficiency

155

23 Oct 2025

Dual-attention ResNet outperforms transformers in HER2 prediction on DCE-MRI

Naomi Fridman

Anat Goldstein

MedIm

107

14 Oct 2025

Automated Neural Architecture Design for Industrial Defect DetectionIEEE/ASME transactions on mechatronics (TAM), 2025

125

08 Oct 2025

On knot detection via picture recognition

Anne Dranowski

Yura Kabkov

Daniel Tubbenhauer

06 Oct 2025

A Mathematical Explanation of Transformers for Large Language Models and GPTs

159

05 Oct 2025

Allocation of Parameters in Transformers

161

04 Oct 2025

AttentionViG: Cross-Attention-Based Dynamic Neighbor Aggregation in Vision GNNs

114

29 Sep 2025

FastViDAR: Real-Time Omnidirectional Depth Estimation via Alternative Hierarchical Attention

134

28 Sep 2025

Random Direct Preference Optimization for Radiography Report Generation

19 Sep 2025

Single Domain Generalization in Diabetic Retinopathy: A Neuro-Symbolic Learning Approach

146

03 Sep 2025

Enhancing compact convolutional transformers with super attention

Simpenzwe Honore Leandre

Natenaile Asmamaw Shiferaw

Dillip Rout

ViT VLM

112

26 Aug 2025

Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms

195

02 Aug 2025

Foundation Models for Bioacoustics -- a Comparative Review

161

02 Aug 2025

JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment

213

28 Jul 2025

Towards Universal Modal Tracking with Online Dense Temporal Token LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

175

27 Jul 2025

Foundation Models and Transformers for Anomaly Detection: A SurveyInformation Fusion (Inf. Fusion), 2025

213

21 Jul 2025

Frequency-Dynamic Attention Modulation for Dense Prediction

Linwei Chen

Lin Gu

Ying Fu

563

16 Jul 2025

EEG Foundation Models: A Critical Review of Current Progress and Future Directions

Gayal Kuruppu

Neeraj Wagh

Y. Varatharajah

Sandipan Pati

Gregory Worrell

Yogatheesan Varatharajah

326

15 Jul 2025

DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer

160

15 Jun 2025

Delayformer: spatiotemporal transformation for predicting high-dimensional dynamics

158

13 Jun 2025

Enhancing Deepfake Detection using SE Block Attention with CNN

315

12 Jun 2025

Foundation Models in Medical Imaging: A Review and Outlook

Vivien van Veldhuizen

...

462

10 Jun 2025

Can Vision Transformers with ResNet's Global Features Fairly Authenticate Demographic Faces?International Conference on Pattern Recognition (ICPR), 2025

227

03 Jun 2025

S2AFormer: Strip Self-Attention for Efficient Vision TransformerIEEE Transactions on Image Processing (IEEE TIP), 2025

292

28 May 2025

Vision Transformers with Self-Distilled Registers

473

27 May 2025

Structured Initialization for Vision Transformers

Jianqiao Zheng

Xueqian Li

Hemanth Saratchandran

Simon Lucey

ViT

228

26 May 2025

PiT: Progressive Diffusion Transformer

616

19 May 2025

A 2D Semantic-Aware Position Encoding for Vision Transformers

...

306

14 May 2025

FAD: Frequency Adaptation and Diversion for Cross-domain Few-shot Learning

298

13 May 2025

Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer

Sainath Dey

Mitul Goswami

Jashika Sethi

Prasant Kumar Pattnaik

ViT

286

07 May 2025

SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer

Young-Hu Park

R.-H. Park

Hyung-Min Park

348

07 May 2025

Image Recognition with Online Lightweight Vision Transformer: A Survey

...

1.2K

06 May 2025

Variational diffusion transformers for conditional sampling of supernovae spectra

Yunyi Shen

Alexander T. Gagliano

DiffM

220

05 May 2025

AI Assisted Cervical Cancer Screening for Cytology Samples in Developing Countries

Love Panta

Suraj Prasai

Karishma Malla Vaidya

Shyam Shrestha

Suresh Manandhar

319

29 Apr 2025

Group Downsampling with Equivariant Anti-aliasingInternational Conference on Learning Representations (ICLR), 2025

Md Ashiqur Rahman

Raymond A. Yeh

312

24 Apr 2025

ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages

Zhoujie Qian

ViT

290

21 Apr 2025

Fighting Fires from Space: Leveraging Vision Transformers for Enhanced Wildfire Detection and Characterization

194

18 Apr 2025