v1v2v3v4 (latest)

How Do Vision Transformers Work?

International Conference on Learning Representations (ICLR), 2022

14 February 2022

Namuk Park

Songkuk Kim

ViT

ArXiv (abs)PDF HTML Github (815★)

Papers citing "How Do Vision Transformers Work?"

50 / 258 papers shown

Setting the Record Straight on Transformer Oversmoothing

G. Dovonon

M. Bronstein

Matt J. Kusner

403

09 Jan 2024

A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

Ikumi Okubo

Keisuke Sugiura

Hiroki Matsutani

240

05 Jan 2024

GTA: Guided Transfer of Spatial Attention from Object-Centric Representations

181

05 Jan 2024

PnPNet: Pull-and-Push Networks for Volumetric Segmentation with Boundary Confusion

1.1K

13 Dec 2023

AdaptIR: Parameter Efficient Multi-task Adaptation for Pre-trained Image Restoration ModelsNeural Information Processing Systems (NeurIPS), 2023

181

12 Dec 2023

PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-ResolutionACM Multimedia (ACM MM), 2023

252

29 Nov 2023

Aligning Non-Causal Factors for Transformer-Based Source-Free Domain AdaptationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Sunandini Sanyal

Ashish Ramayee Asokan

Suvaansh Bhambri

YM Pradyumna

Akshay Ravindra Kulkarni

Jogendra Nath Kundu

R. V. Babu

CML

213

27 Nov 2023

Dynamic Association Learning of Self-Attention and Convolution in Image Restoration

Zheng Wang

189

09 Nov 2023

SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote Sensing Image Classification

Junyu Dong

176

08 Nov 2023

On the Convergence of Encoder-only Shallow TransformersNeural Information Processing Systems (NeurIPS), 2023

219

02 Nov 2023

Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked AutoencodersIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

307

31 Oct 2023

Analyzing Vision Transformers for Image Classification in Class Embedding SpaceNeural Information Processing Systems (NeurIPS), 2023

Martina G. Vilas

Timothy Schaumlöffel

Gemma Roig

ViT

214

29 Oct 2023

Circuit as Set of PointsNeural Information Processing Systems (NeurIPS), 2023

165

26 Oct 2023

Frequency-Aware Transformer for Learned Image CompressionInternational Conference on Learning Representations (ICLR), 2023

389

25 Oct 2023

Domain Generalization Using Large Pretrained Models with Mixture-of-AdaptersIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

223

17 Oct 2023

A Simple and Robust Framework for Cross-Modality Medical Image Segmentation applied to Vision Transformers

195

09 Oct 2023

AdaFuse: Adaptive Medical Image Fusion Based on Spatial-Frequential Cross Attention

323

09 Oct 2023

Sub-token ViT Embedding via Stochastic Resonance TransformersInternational Conference on Machine Learning (ICML), 2023

256

06 Oct 2023

R-divergence for Estimating Model-oriented Distribution DiscrepancyNeural Information Processing Systems (NeurIPS), 2023

Zhilin Zhao

Longbing Cao

379

02 Oct 2023

CINFormer: Transformer network with multi-stage CNN feature injection for surface defect segmentation

Hao Liu

162

22 Sep 2023

FreeU: Free Lunch in Diffusion U-NetComputer Vision and Pattern Recognition (CVPR), 2023

Ziwei Liu

348

215

20 Sep 2023

Hierarchical Attention and Graph Neural Networks: Toward Drift-Free Pose Estimation

Kathia Melbouci

F. Nashashibi

158

18 Sep 2023

RingMo-lite: A Remote Sensing Multi-task Lightweight Network with CNN-Transformer Hybrid Framework

...

Xian Sun

280

16 Sep 2023

Biased Attention: Do Vision Transformers Amplify Gender Bias More than Convolutional Neural Networks?British Machine Vision Conference (BMVC), 2023

229

15 Sep 2023

Hydra: Multi-head Low-rank Adaptation for Parameter Efficient Fine-tuningNeural Networks (Neural Netw.), 2023

211

13 Sep 2023

Dynamic Spectrum Mixer for Visual Recognition

Zhiqiang Hu

Tao Yu

215

13 Sep 2023

MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor Formula for Image DehazingIEEE International Conference on Computer Vision (ICCV), 2023

264

183

27 Aug 2023

EFormer: Enhanced Transformer towards Semantic-Contour Features of Foreground for Portraits MattingComputer Vision and Pattern Recognition (CVPR), 2023

195

24 Aug 2023

NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic VideosACM Multimedia (ACM MM), 2023

192

23 Aug 2023

SPANet: Frequency-balancing Token Mixer using Spectral Pooling Aggregation ModulationIEEE International Conference on Computer Vision (ICCV), 2023

218

22 Aug 2023

Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain PromptingIEEE International Conference on Computer Vision (ICCV), 2023

Lu Yuan

Gang Hua

Weiming Zhang

Neng H. Yu

AAML

294

20 Aug 2023

Diverse Cotraining Makes Strong Semi-Supervised SegmentorIEEE International Conference on Computer Vision (ICCV), 2023

202

18 Aug 2023

Long-Range Grouping Transformer for Multi-View 3D ReconstructionIEEE International Conference on Computer Vision (ICCV), 2023

220

17 Aug 2023

Revisiting Vision Transformer from the View of Path EnsembleIEEE International Conference on Computer Vision (ICCV), 2023

Fan Wang

169

12 Aug 2023

Learning to Generate Training Datasets for Robust Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Angela Yao

300

01 Aug 2023

Improving Pixel-based MIM by Reducing Wasted Modeling CapabilityIEEE International Conference on Computer Vision (ICCV), 2023

209

01 Aug 2023

LGViT: Dynamic Early Exiting for Accelerating Vision TransformerACM Multimedia (ACM MM), 2023

226

01 Aug 2023

Partitioned Saliency Ranking with Dense Pyramid TransformersACM Multimedia (ACM MM), 2023

Yan Xu

163

01 Aug 2023

Conditional Cross Attention Network for Multi-Space Embedding without Entanglement in Only a SINGLE NetworkIEEE International Conference on Computer Vision (ICCV), 2023

207

25 Jul 2023

On the Effectiveness of Spectral Discriminators for Perceptual Quality ImprovementIEEE International Conference on Computer Vision (ICCV), 2023

278

22 Jul 2023

PINNsFormer: A Transformer-Based Framework For Physics-Informed Neural NetworksInternational Conference on Learning Representations (ICLR), 2023

Leo Zhao

Xueying Ding

B. Prakash

PINN AI4CE

251

21 Jul 2023

Towards Building More Robust Models with Frequency BiasIEEE International Conference on Computer Vision (ICCV), 2023

Qingwen Bu

Dong Huang

Heming Cui

AAML

253

19 Jul 2023

Deficiency-Aware Masked Transformer for Video Inpainting

250

17 Jul 2023

Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition

Qiulei Dong

Hong Wang

Qiulei Dong

304

14 Jul 2023

DiffuseGAE: Controllable and High-fidelity Image Manipulation from Disentangled RepresentationACM Multimedia Asia (MA), 2023

185

12 Jul 2023

Connectional-Style-Guided Contextual Representation Learning for Brain Disease Diagnosis

230

08 Jun 2023

Multi-Architecture Multi-Expert Diffusion ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

355

08 Jun 2023

Graph Inductive Biases in Transformers without Message PassingInternational Conference on Machine Learning (ICML), 2023

Liheng Ma

Chen Lin

Derek Lim

Adriana Romero Soriano

Ser-Nam Lim

250

150

27 May 2023

Dual Path Transformer with Partition Attention

Zhengkai Jiang

Liang Liu

Jiangning Zhang

Yabiao Wang

Mingang Chen

Chengjie Wang

ViT

236

24 May 2023

Semantic Segmentation using Vision Transformers: A surveyEngineering applications of artificial intelligence (Eng. Appl. Artif. Intell.), 2023

Rajith Vidanaarachchi

Damayanthi Herath

ViT

198

215

05 May 2023