Focal Self-attention for Local-Global Interactions in Vision Transformers

1 July 2021

Jianwei Yang

Lu Yuan

Papers citing "Focal Self-attention for Local-Global Interactions in Vision Transformers"

50 / 263 papers shown

Context-Enhanced Stereo TransformerEuropean Conference on Computer Vision (ECCV), 2022

171

21 Oct 2022

Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small DatasetsNeural Information Processing Systems (NeurIPS), 2022

258

12 Oct 2022

Curved Representation Space of Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2022

281

11 Oct 2022

Hierarchical Graph Transformer with Adaptive Node SamplingNeural Information Processing Systems (NeurIPS), 2022

Zaixin Zhang

Qi Liu

Qingyong Hu

Cheekong Lee

311

122

08 Oct 2022

FocalUNETR: A Focal Transformer for Boundary-aware Segmentation of CT ImagesInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2022

146

06 Oct 2022

MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision ModelsInternational Conference on Learning Representations (ICLR), 2022

Siyuan Qiao

320

04 Oct 2022

Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Xiao Luo

256

03 Oct 2022

MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

S. Wadekar

Abhishek Chaurasia

ViT

295

139

30 Sep 2022

Graph Reasoning Transformer for Image ParsingACM Multimedia (ACM MM), 2022

140

20 Sep 2022

Axially Expanded Windows for Local-Global Interaction in Vision Transformers

Zhemin Zhang

Xun Gong

ViT

146

19 Sep 2022

SegNeXt: Rethinking Convolutional Attention Design for Semantic SegmentationNeural Information Processing Systems (NeurIPS), 2022

Ming-Ming Cheng

318

981

18 Sep 2022

DMFormer: Closing the Gap Between CNN and Vision TransformersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Dongsheng Li

317

16 Sep 2022

CenterFormer: Center-based Transformer for 3D Object DetectionEuropean Conference on Computer Vision (ECCV), 2022

187

180

12 Sep 2022

MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual RecognitionNeurocomputing (Neurocomputing), 2022

Errui Ding

159

31 Aug 2022

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image PretrainingComputer Vision and Pattern Recognition (CVPR), 2022

Jianmin Bao

...

Lu Yuan

281

221

25 Aug 2022

Efficient Attention-free Video Shift Transformers

Adrian Bulat

Brais Martínez

Georgios Tzimiropoulos

ViT

211

23 Aug 2022

In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze EstimationBritish Machine Vision Conference (BMVC), 2022

Miao Liu

236

08 Aug 2022

TransMatting: Enhancing Transparent Objects Matting with TransformersEuropean Conference on Computer Vision (ECCV), 2022

164

05 Aug 2022

TransPillars: Coarse-to-Fine Aggregation for Multi-Frame 3D Object DetectionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

208

04 Aug 2022

giMLPs: Gate with Inhibition Mechanism in MLPs

163

01 Aug 2022

Global-Local Self-Distillation for Visual Representation LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tim Lebailly

Tinne Tuytelaars

SSL

121

29 Jul 2022

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram TransformersIEEE journal of biomedical and health informatics (IEEE JBHI), 2022

171

19 Jul 2022

Earthformer: Exploring Space-Time Transformers for Earth System ForecastingNeural Information Processing Systems (NeurIPS), 2022

315

245

12 Jul 2022

LightViT: Towards Light-Weight Convolution-Free Vision Transformers

Fei Wang

182

12 Jul 2022

Compound Prototype Matching for Few-shot Action RecognitionEuropean Conference on Computer Vision (ECCV), 2022

Yifei Huang

Lijin Yang

Yoichi Sato

361

12 Jul 2022

Wave-ViT: Unifying Wavelet and Transformers for Visual Representation LearningEuropean Conference on Computer Vision (ECCV), 2022

Ting Yao

Yingwei Pan

Yehao Li

Chong-Wah Ngo

Tao Mei

ViT

462

192

11 Jul 2022

Dual Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Yingwei Pan

Tao Mei

358

112

11 Jul 2022

Self-attention on Multi-Shifted Windows for Scene Segmentation

155

10 Jul 2022

CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse TransformersConference on Robot Learning (CoRL), 2022

Jiaqi Ma

416

307

05 Jul 2022

Improving Semantic Segmentation in Transformers using Hierarchical Inter-Level Attention

Gary Leung

Jun Gao

Fangyin Wei

Sanja Fidler

190

05 Jul 2022

Polarized Color Image Denoising using Pocoformer

Zhuoxiao Li

Hai-bo Jiang

Yinqiang Zheng

219

01 Jul 2022

Rethinking Query-Key Pairwise Interactions in Vision Transformers

Cheng-rong Li

Yangxin Liu

210

01 Jul 2022

Deformable Graph TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

244

29 Jun 2022

LargeKernel3D: Scaling up Kernels in 3D Sparse CNNsComputer Vision and Pattern Recognition (CVPR), 2022

Xiaojuan Qi

244

121

21 Jun 2022

Vicinity Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Zhen Qin

Lingpeng Kong

206

21 Jun 2022

Learning Multiscale Transformer Models for Sequence GenerationInternational Conference on Machine Learning (ICML), 2022

Jingbo Zhu

202

19 Jun 2022

Efficient Decoder-free Object Detection with TransformersEuropean Conference on Computer Vision (ECCV), 2022

Chunhua Shen

273

14 Jun 2022

Peripheral Vision TransformerNeural Information Processing Systems (NeurIPS), 2022

238

14 Jun 2022

Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

Jun Chen

Ming Hu

Boyang Albert Li

Mohamed Elhoseiny

338

01 Jun 2022

Self-Supervised Pre-training of Vision Transformers for Dense Prediction Tasks

115

30 May 2022

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

249

30 May 2022

Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence LearningNeural Information Processing Systems (NeurIPS), 2022

Aniket Didolkar

Kshitij Gupta

Anirudh Goyal

Nitesh B. Gundavarapu

450

30 May 2022

Fast Vision Transformers with HiLo AttentionNeural Information Processing Systems (NeurIPS), 2022

Zizheng Pan

Jianfei Cai

Bohan Zhuang

444

242

26 May 2022

Inception TransformerNeural Information Processing Systems (NeurIPS), 2022

Weihao Yu

337

256

25 May 2022

ASSET: Autoregressive Semantic Scene Editing with Transformers at High ResolutionsACM Transactions on Graphics (TOG), 2022

193

24 May 2022

BolT: Fused Window Transformers for fMRI Time Series Analysis

353

23 May 2022

Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality

Xiang Li

Wenhai Wang

Lingfeng Yang

Jian Yang

299

20 May 2022

Vision Transformer Adapter for Dense PredictionsInternational Conference on Learning Representations (ICLR), 2022

Yu Qiao

878

755

17 May 2022

MulT: An End-to-End Multitask Learning TransformerComputer Vision and Pattern Recognition (CVPR), 2022

Deblina Bhattacharjee

Tong Zhang

Sabine Süsstrunk

Mathieu Salzmann

ViT

230

17 May 2022

Transformers in 3D Point Clouds: A Survey

Mingqiang Wei

Jonathan Li

323

16 May 2022