v1v2v3v4 (latest)

How Do Vision Transformers Work?

International Conference on Learning Representations (ICLR), 2022

14 February 2022

Namuk Park

Songkuk Kim

ViT

ArXiv (abs)PDF HTML Github (815★)

Papers citing "How Do Vision Transformers Work?"

50 / 258 papers shown

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

152

04 Dec 2025

LAHNet: Local Attentive Hashing Network for Point Cloud Registration

127

30 Nov 2025

Frequency-Aware Token Reduction for Efficient Vision Transformer

190

26 Nov 2025

CountXplain: Interpretable Cell Counting with Prototype-Based Density Map Estimation

Abdurahman Ali Mohammed

Wallapak Tavanapong

Catherine Fonder

Donald S. Sakaguchi

24 Nov 2025

On the Role of Hidden States of Modern Hopfield Network in Transformer

Tsubasa Masumura

Masato Taki

120

24 Nov 2025

DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

143

24 Nov 2025

DetailSemNet: Elevating Signature Verification through Detail-Semantic IntegrationEuropean Conference on Computer Vision (ECCV), 2025

152

20 Nov 2025

Application of Graph Based Vision Transformers Architectures for Accurate Temperature Prediction in Fiber Specklegram Sensors

Abhishek Sebastian

141

15 Nov 2025

SYNAPSE: Synergizing an Adapter and Finetuning for High-Fidelity EEG Synthesis from a CLIP-Aligned Encoder

Jeyoung Lee

Hochul Kang

DiffM

11 Nov 2025

UHKD: A Unified Framework for Heterogeneous Knowledge Distillation via Frequency-Domain Representations

158

28 Oct 2025

Exploring and Leveraging Class Vectors for Classifier Editing

Jaeik Kim

Jaeyoung Do

VLM

193

13 Oct 2025

Robust RGB-T Tracking via Learnable Visual Fourier Prompt Fine-tuning and Modality Fusion Prompt Generation

157

24 Sep 2025

A Modern Look at Simplicity Bias in Image Classification Tasks

138

13 Sep 2025

Fine-grained Multi-class Nuclei Segmentation with Molecular-empowered All-in-SAM ModelJournal of Medical Imaging (JMI), 2025

116

21 Aug 2025

MoCHA-former: Moiré-Conditioned Hybrid Adaptive Transformer for Video Demoiréing

238

20 Aug 2025

Omni Survey for Multimodality Analysis in Visual Object Tracking

190

18 Aug 2025

Cross-Architecture Distillation Made Simple with Redundancy Suppression

185

29 Jul 2025

Frequency-Dynamic Attention Modulation for Dense Prediction

Linwei Chen

Lin Gu

Ying Fu

552

16 Jul 2025

FastDINOv2: Frequency Based Curriculum Learning Improves Robustness and Training Speed

140

04 Jul 2025

Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting

271

27 Jun 2025

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental LearningComputer Vision and Pattern Recognition (CVPR), 2025

190

30 May 2025

Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel ImagingComputer Vision and Pattern Recognition (CVPR), 2025

141

29 May 2025

Locality-Aware Zero-Shot Human-Object Interaction DetectionComputer Vision and Pattern Recognition (CVPR), 2025

360

26 May 2025

Understanding Differential Transformer Unchains Pretrained Self-Attentions

Chaerin Kong

Jiho Jang

Nojun Kwak

459

22 May 2025

Learning Spatio-Temporal Dynamics for Trajectory Recovery via Time-Aware Transformer

166

20 May 2025

Towards Quantifying the Hessian Structure of Neural Networks

Zhaorui Dong

Yushun Zhang

Jianfeng Yao

303

05 May 2025

CVVNet: A Cross-Vertical-View Network for Gait Recognition

282

03 May 2025

Exploring Synergistic Ensemble Learning: Uniting CNNs, MLP-Mixers, and Vision Transformers to Enhance Image Classification

254

12 Apr 2025

Spectral-Adaptive Modulation Networks for Visual Perception

426

31 Mar 2025

Filtering with Time-frequency Analysis: An Adaptive and Lightweight Model for Sequential Recommender Systems Based on Discrete Wavelet TransformInternational Conference on Intelligent Computing (ICIC), 2025

559

30 Mar 2025

BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion TransformersComputer Vision and Pattern Recognition (CVPR), 2025

351

20 Mar 2025

Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras

...

243

20 Mar 2025

FEB-Cache: Frequency-Guided Exposure Bias Reduction for Enhancing Diffusion Transformer Caching

Zhen Zou

Hu Yu

310

10 Mar 2025

Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image ClassificationIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

Yimin Zhu

Linlin Xu

DiffM

379

27 Feb 2025

Learning Structure-Supporting Dependencies via Keypoint Interactive Transformer for General Mammal Pose EstimationInternational Journal of Computer Vision (IJCV), 2025

412

25 Feb 2025

Understanding Why Adam Outperforms SGD: Gradient Heterogeneity in Transformers

Akiyoshi Tomihari

Issei Sato

ODL

710

31 Jan 2025

Keypoint Aware Masked Image ModellingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Madhava Krishna

Convin.AI

454

03 Jan 2025

Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and MetricsNeural Information Processing Systems (NeurIPS), 2024

Mennatallah El-Assady

Paul F. Jäger

XAI ELM

648

03 Jan 2025

Prompt Categories Cluster for Weakly Supervised Semantic Segmentation

584

18 Dec 2024

Adaptive High-Pass Kernel Prediction for Efficient Video Deblurring

Bo Ji

Angela Yao

374

02 Dec 2024

Enhancing Parameter-Efficient Fine-Tuning of Vision Transformers through Frequency-Based Adaptation

S. Ly

Hien Nguyen

330

28 Nov 2024

D-Cube: Exploiting Hyper-Features of Diffusion Model for Robust Medical ClassificationIndustrial Conference on Data Mining (IDM), 2024

Minhee Jang

Juheon Son

Thanaporn Viriyasaranon

Junho Kim

Jang-Hwan Choi

MedIm

346

17 Nov 2024

Freqformer: Frequency-Domain Transformer for 3-D Reconstruction and Quantification of Human Retinal Vasculature

216

17 Nov 2024

Where Do Large Learning Rates Lead Us?Neural Information Processing Systems (NeurIPS), 2024

335

29 Oct 2024

Depth Attention for Robust RGB TrackingAsian Conference on Computer Vision (ACCV), 2024

Yu Liu

Arif Mahmood

Muhammad Haris Khan

VOS MDE

313

27 Oct 2024

In Search of the Successful Interpolation: On the Role of Sharpness in CLIP Generalization

Alireza Abdollahpoorrostam

239

21 Oct 2024

Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation

417

16 Oct 2024

CATCH: Channel-Aware multivariate Time Series Anomaly Detection via Frequency PatchingInternational Conference on Learning Representations (ICLR), 2024

576

16 Oct 2024

What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian AnalysisInternational Conference on Learning Representations (ICLR), 2024

Weronika Ormaniec

Felix Dangel

Sidak Pal Singh

544

14 Oct 2024

Neural Architecture Search of Hybrid Models for NPU-CIM Heterogeneous AR/VR Devices

...

124

10 Oct 2024