v1v2 (latest)

Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding

IEEE International Conference on Computer Vision (ICCV), 2021

29 March 2021

Pengchuan Zhang

Xiyang Dai

Jianwei Yang

Bin Xiao

Lu Yuan

Lei Zhang

Jianfeng Gao

ViT

ArXiv (abs)PDF HTML Github (246★)

Papers citing "Multi-Scale Vision Longformer: A New Vision Transformer for High-Resolution Image Encoding"

50 / 197 papers shown

Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Xiao Luo

259

03 Oct 2022

MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

S. Wadekar

Abhishek Chaurasia

ViT

313

143

30 Sep 2022

MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual RecognitionNeurocomputing (Neurocomputing), 2022

Errui Ding

162

31 Aug 2022

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Qi Wu

186

28 Aug 2022

gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted WindowIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

Mocho Go

Hideyuki Tachibana

ViT

166

24 Aug 2022

Local Perception-Aware Transformer for Aerial TrackingIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2022

238

01 Aug 2022

Global-Local Self-Distillation for Visual Representation LearningIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Tim Lebailly

Tinne Tuytelaars

SSL

138

29 Jul 2022

Convolutional Embedding Makes Hierarchical Vision Transformer StrongerEuropean Conference on Computer Vision (ECCV), 2022

111

27 Jul 2022

Efficient High-Resolution Deep Learning: A SurveyACM Computing Surveys (ACM CSUR), 2022

Arian Bakhtiarnia

Qi Zhang

Alexandros Iosifidis

MedIm

363

26 Jul 2022

EleGANt: Exquisite and Locally Editable GAN for Makeup TransferEuropean Conference on Computer Vision (ECCV), 2022

174

20 Jul 2022

Vision Transformers: From Semantic Segmentation to Dense PredictionInternational Journal of Computer Vision (IJCV), 2022

Li Zhang

281

19 Jul 2022

Efficient Representation Learning via Adaptive Context PoolingInternational Conference on Machine Learning (ICML), 2022

201

05 Jul 2022

Softmax-free Linear TransformersInternational Journal of Computer Vision (IJCV), 2022

Jiachen Lu

Junge Zhang

Xiatian Zhu

Jianfeng Feng

Tao Xiang

Li Zhang

ViT

219

05 Jul 2022

SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention Mechanisms for Long SequencesDesign Automation Conference (DAC), 2022

Jieru Zhao

Jingwen Leng

277

29 Jun 2022

Vicinity Vision TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Zhen Qin

Lingpeng Kong

225

21 Jun 2022

SimA: Simple Softmax-free Attention for Vision TransformersIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

Soroush Abbasi Koohpayegani

Hamed Pirsiavash

306

17 Jun 2022

Patch-level Representation Learning for Self-supervised Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2022

293

16 Jun 2022

Scaleformer: Iterative Multi-scale Refining Transformers for Time Series ForecastingInternational Conference on Learning Representations (ICLR), 2022

306

08 Jun 2022

Scaling Vision Transformers to Gigapixel Images via Hierarchical Self-Supervised LearningComputer Vision and Pattern Recognition (CVPR), 2022

343

594

06 Jun 2022

Universal Photometric Stereo Network using Global Lighting ContextsComputer Vision and Pattern Recognition (CVPR), 2022

Satoshi Ikehata

3DV

130

06 Jun 2022

EAANet: Efficient Attention Augmented Convolutional Networks

Runqing Zhang

Tianshu Zhu

03 Jun 2022

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

255

30 May 2022

Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence LearningNeural Information Processing Systems (NeurIPS), 2022

Aniket Didolkar

Kshitij Gupta

Anirudh Goyal

Nitesh B. Gundavarapu

492

30 May 2022

Fast Vision Transformers with HiLo AttentionNeural Information Processing Systems (NeurIPS), 2022

Zizheng Pan

Jianfei Cai

Bohan Zhuang

448

249

26 May 2022

Inception TransformerNeural Information Processing Systems (NeurIPS), 2022

Weihao Yu

354

257

25 May 2022

ASSET: Autoregressive Semantic Scene Editing with Transformers at High ResolutionsACM Transactions on Graphics (TOG), 2022

193

24 May 2022

SCVRL: Shuffled Contrastive Video Representation Learning

171

24 May 2022

The Wisdom of Crowds: Temporal Progressive Attention for Early Action PredictionComputer Vision and Pattern Recognition (CVPR), 2022

Alexandros Stergiou

Dima Damen

AI4TS EgoV EDL

180

28 Apr 2022

Transformation Invariant Cancerous Tissue Classification Using Spatially Transformed DenseNet

Omar Mahdi

Ali Bou Nassif

MedIm

23 Apr 2022

VSA: Learning Varied-Size Window Attention in Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Qiming Zhang

Yufei Xu

Jing Zhang

Dacheng Tao

234

18 Apr 2022

Safe Self-Refinement for Transformer-based Domain AdaptationComputer Vision and Pattern Recognition (CVPR), 2022

194

119

16 Apr 2022

Neighborhood Attention TransformerComputer Vision and Pattern Recognition (CVPR), 2022

414

403

14 Apr 2022

Linear Complexity Randomized Self-attention MechanismInternational Conference on Machine Learning (ICML), 2022

Lin Zheng

Chong-Jun Wang

Lingpeng Kong

206

10 Apr 2022

DaViT: Dual Attention Vision TransformersEuropean Conference on Computer Vision (ECCV), 2022

Mingyu Ding

Bin Xiao

Noel Codella

Ping Luo

Jingdong Wang

Lu Yuan

ViT

382

344

07 Apr 2022

Unified Contrastive Learning in Image-Text-Label SpaceComputer Vision and Pattern Recognition (CVPR), 2022

Jianwei Yang

Lu Yuan

311

273

07 Apr 2022

Multi-scale Context-aware Network with Transformer for Gait Recognition

288

07 Apr 2022

End-to-End Instance Edge Detection

Xueyan Zou

Haotian Liu

Yong Jae Lee

147

06 Apr 2022

VPTR: Efficient Transformers for Video PredictionInternational Conference on Pattern Recognition (ICPR), 2022

Xi Ye

Guillaume-Alexandre Bilodeau

ViT

242

29 Mar 2022

Towards Spatio-Temporal Aware Traffic Time Series Forecasting--Full VersionIEEE International Conference on Data Engineering (ICDE), 2022

Razvan-Gabriel Cirstea

327

117

29 Mar 2022

MatteFormer: Transformer-Based Image Matting via Prior-TokensComputer Vision and Pattern Recognition (CVPR), 2022

240

29 Mar 2022

Transformers Meet Visual Learning Understanding: A Comprehensive Review

Shuyuan Yang

218

24 Mar 2022

Beyond Fixation: Dynamic Window Visual TransformerComputer Vision and Pattern Recognition (CVPR), 2022

Xiaodan Liang

Qing Du Xiaodan Liang Xiaojun Chang

ViT

195

24 Mar 2022

Focal Modulation NetworksNeural Information Processing Systems (NeurIPS), 2022

Jianwei Yang

Lu Yuan

352

384

22 Mar 2022

EDTER: Edge Detection with TransformerComputer Vision and Pattern Recognition (CVPR), 2022

280

131

16 Mar 2022

Dynamic Group Transformer: A General Vision Transformer Backbone with Dynamic Group AttentionInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

296

08 Mar 2022

Boosting Crowd Counting via Multifaceted AttentionComputer Vision and Pattern Recognition (CVPR), 2022

Yaowei Wang

214

200

05 Mar 2022

Auto-scaling Vision Transformers without TrainingInternational Conference on Learning Representations (ICLR), 2022

Xianzhi Du

150

24 Feb 2022

GroupViT: Semantic Segmentation Emerges from Text SupervisionComputer Vision and Pattern Recognition (CVPR), 2022

760

633

22 Feb 2022

Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method for Visual Discrimination

Yu Qiao

245

21 Feb 2022

ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and BeyondInternational Journal of Computer Vision (IJCV), 2022

Qiming Zhang

287

274

21 Feb 2022