v1v2v3v4 (latest)

How Do Vision Transformers Work?

International Conference on Learning Representations (ICLR), 2022

14 February 2022

Namuk Park

Songkuk Kim

ViT

ArXiv (abs)PDF HTML Github (815★)

Papers citing "How Do Vision Transformers Work?"

50 / 258 papers shown

ReFIR: Grounding Large Restoration Models with Retrieval AugmentationNeural Information Processing Systems (NeurIPS), 2024

Taolin Zhang

Bin Chen

219

08 Oct 2024

Spiking Transformer with Spatial-Temporal AttentionComputer Vision and Pattern Recognition (CVPR), 2024

414

29 Sep 2024

The Overfocusing Bias of Convolutional Neural Networks: A Saliency-Guided Regularization Approach

241

25 Sep 2024

DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion

474

16 Sep 2024

Investigation of Hierarchical Spectral Vision Transformer Architecture for Classification of Hyperspectral ImageryIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Wei Liu

Saurabh Prasad

Melba M. Crawford

193

14 Sep 2024

STAA: Spatio-Temporal Alignment Attention for Short-Term Precipitation ForecastingIEEE Geoscience and Remote Sensing Letters (GRSL), 2024

139

06 Sep 2024

Do Sharpness-based Optimizers Improve Generalization in Medical Image Analysis?IEEE Access (IEEE Access), 2024

Mohamed Hassan

Aleksandar Vakanski

Min Xian

AAML MedIm

387

07 Aug 2024

Exploring the Adversarial Robustness of CLIP for AI-generated Image DetectionInternational Workshop on Information Forensics and Security (WIFS), 2024

281

28 Jul 2024

SegPoint: Segment Any Point Cloud via Large Language Model

Henghui Ding

246

18 Jul 2024

Hierarchical Separable Video Transformer for Snapshot Compressive Imaging

415

16 Jul 2024

Asynchronous Feedback Network for Perceptual Point Cloud Quality Assessment

258

13 Jul 2024

Revealing the Dark Secrets of Extremely Large Kernel ConvNets on Robustness

298

12 Jul 2024

Wavelet Convolutions for Large Receptive Fields

488

313

08 Jul 2024

Learning Dual Transformers for All-In-One Image Restoration from a Frequency Perspective

192

30 Jun 2024

Segmentation of Non-Small Cell Lung Carcinomas: Introducing DRU-Net and Multi-Lens Distortion

...

149

20 Jun 2024

H-Fac: Memory-Efficient Optimization with Factorized Hamiltonian DescentInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Son Nguyen

Lizhang Chen

Bo Liu

Qiang Liu

299

14 Jun 2024

Hybrid Spatial-spectral Neural Network for Hyperspectral Image Denoising

Hao Liang

Chengjie

Kun Li

Xin Tian

159

13 Jun 2024

RS-DFM: A Remote Sensing Distributed Foundation Model for Diverse Downstream Tasks

Xian Sun

221

11 Jun 2024

Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor ControlInternational Conference on Machine Learning (ICML), 2024

257

10 Jun 2024

Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology

Richard J. M. den Hollander

Martin C. van Leeuwen

Judith Dijk

Wyke Huizinga

207

30 May 2024

Hyperspectral Image Reconstruction for Predicting Chick Embryo Mortality Towards Advancing Egg and Hatchery Industry

Girish Chowdhary

163

22 May 2024

EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic CameraInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2024

Hongliang Ren

246

14 May 2024

CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation

150

30 Apr 2024

Data-independent Module-aware Pruning for Hierarchical Vision Transformers

Yang He

Qiufeng Wang

ViT

231

21 Apr 2024

CKGConv: General Graph Convolution with Continuous Kernels

Yitian Zhang

205

21 Apr 2024

Partial Large Kernel CNNs for Efficient Super-Resolution

190

18 Apr 2024

DGMamba: Domain Generalization via Generalized State Space Model

342

11 Apr 2024

Playing to Vision Foundation Model's Strengths in Stereo MatchingIEEE Transactions on Intelligent Vehicles (TIV), 2024

Chuangwei Liu

Qijun Chen

Rui Fan

256

09 Apr 2024

Frequency Decomposition-Driven Unsupervised Domain Adaptation for Remote Sensing Image Semantic Segmentation

Xianping Ma

147

06 Apr 2024

ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale

208

03 Apr 2024

Seeing the Unseen: A Frequency Prompt Guided Transformer for Image Restoration

248

30 Mar 2024

Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration

290

30 Mar 2024

Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System

285

24 Mar 2024

Accelerating ViT Inference on FPGA through Static and Dynamic Pruning

Dhruv Parikh

Shouyi Li

Bingyi Zhang

Rajgopal Kannan

Carl E. Busart

Viktor Prasanna

258

21 Mar 2024

Spiking Wavelet Transformer

Yuetong Fang

Ziqing Wang

Lingfeng Zhang

Jiahang Cao

Honglei Chen

Renjing Xu

342

17 Mar 2024

Adaptive Semantic-Enhanced Denoising Diffusion Probabilistic Model for Remote Sensing Image Super-Resolution

Xianping Ma

184

17 Mar 2024

Frequency-Adaptive Dilated Convolution for Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2024

Linwei Chen

Lin Gu

Ying Fu

751

08 Mar 2024

DuDoUniNeXt: Dual-domain unified hybrid model for single and multi-contrast undersampled MRI reconstruction

Yue Zhang

230

08 Mar 2024

Interactive Multi-Head Self-Attention with Linear Complexity

Hankyul Kang

Ming-Hsuan Yang

Jongbin Ryu

215

27 Feb 2024

SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion Classification Using 3D Multi-Phase Imaging

281

27 Feb 2024

Interpretable Short-Term Load Forecasting via Multi-Scale Temporal Decomposition

332

18 Feb 2024

Architecture Analysis and Benchmarking of 3D U-shaped Deep Learning Models for Thoracic Anatomical SegmentationIEEE Access (IEEE Access), 2024

186

05 Feb 2024

CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic SegmentationPattern Recognition (Pattern Recogn.), 2024

631

05 Feb 2024

Precise Knowledge Transfer via Flow Matching

277

03 Feb 2024

Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

281

31 Jan 2024

SHViT: Single-Head Vision Transformer with Memory Efficient Macro DesignComputer Vision and Pattern Recognition (CVPR), 2024

Seokju Yun

Youngmin Ro

ViT

399

29 Jan 2024

MsSVT++: Mixed-scale Sparse Voxel Transformer with Center Voting for 3D Object DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

273

22 Jan 2024

Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation

Debesh Jha

210

18 Jan 2024

Efficient generative adversarial networks using linear additive-attention Transformers

Emilio Morales-Juarez

Gibran Fuentes Pineda

488

17 Jan 2024

Learning Generalizable Models via Disentangling Spurious and Enhancing Potential CorrelationsIEEE Transactions on Image Processing (TIP), 2024

Lei Qi

244

11 Jan 2024