v1v2 (latest)

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

IEEE International Conference on Computer Vision (ICCV), 2021

25 March 2021

ArXiv (abs)PDF HTML HuggingFace (5 upvotes)Github (14835★)

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 8,525 papers shown

Learning Efficient Vision Transformers via Fine-Grained Manifold Distillation

442

03 Jul 2021

1st Place Solutions for UG2+ Challenge 2021 -- (Semi-)supervised Face detection in the low light condition

Yuan Gao

106

02 Jul 2021

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows

Jianmin Bao

Lu Yuan

803

1,244

01 Jul 2021

Global Filter Networks for Image Classification

Wenliang Zhao

Jie Zhou

304

611

01 Jul 2021

Focal Self-attention for Local-Global Interactions in Vision Transformers

Jianwei Yang

Lu Yuan

353

502

01 Jul 2021

CBNet: A Composite Backbone Network Architecture for Object Detection

Zhi Tang

Jingdong Chen

555

206

01 Jul 2021

Simple Training Strategies and Model Scaling for Object Detection

Xianzhi Du

239

30 Jun 2021

Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing ImagesIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2021

547

130

29 Jun 2021

Rethinking Token-Mixing MLP for MLP-based Vision BackboneBritish Machine Vision Conference (BMVC), 2021

197

28 Jun 2021

Early Convolutions Help Transformers See BetterNeural Information Processing Systems (NeurIPS), 2021

Piotr Dollár

377

887

28 Jun 2021

K-Net: Towards Unified Image SegmentationNeural Information Processing Systems (NeurIPS), 2021

334

442

28 Jun 2021

R-Drop: Regularized Dropout for Neural NetworksNeural Information Processing Systems (NeurIPS), 2021

303

518

28 Jun 2021

Can An Image Classifier Suffice For Action Recognition?International Conference on Learning Representations (ICLR), 2021

291

26 Jun 2021

PVT v2: Improved Baselines with Pyramid Vision TransformerComputational Visual Media (CVM), 2021

Xiang Li

Ping Luo

791

2,143

25 Jun 2021

ViTAS: Vision Transformer Architecture SearchEuropean Conference on Computer Vision (ECCV), 2021

459

25 Jun 2021

Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training

414

25 Jun 2021

Video Swin Transformer

495

1,884

24 Jun 2021

Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers

176

24 Jun 2021

VOLO: Vision Outlooker for Visual Recognition

424

378

24 Jun 2021

Advancing biological super-resolution microscopy through deep learning: a brief review

Ge Yang

175

24 Jun 2021

Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting

518

3,779

24 Jun 2021

IA-RED

^2

: Interpretability-Aware Redundancy Reduction for Vision Transformers

329

191

23 Jun 2021

Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding

Tianle Cai

211

23 Jun 2021

Transformer Meets Convolution: A Bilateral Awareness Network for Semantic Segmentation of Very Fine Resolution Urban Scene Images

259

208

23 Jun 2021

Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition

306

236

23 Jun 2021

P2T: Pyramid Pooling Transformer for Scene UnderstandingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

613

289

22 Jun 2021

Tracking Instances as Queries

Shusheng Yang

Ying Shan

175

22 Jun 2021

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?

649

155

21 Jun 2021

SODA10M: A Large-Scale 2D Self/Semi-Supervised Object Detection Dataset for Autonomous Driving

Jianhua Han

Xiwen Liang

Hang Xu

Kai Chen

Lanqing Hong

...

224

103

21 Jun 2021

More than Encoder: Introducing Transformer Decoder to UpsampleIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2021

Xiping Hu

254

20 Jun 2021

MSN: Efficient Online Mask Selection Network for Video Instance Segmentation

231

19 Jun 2021

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers

345

776

18 Jun 2021

Efficient Self-supervised Vision Transformers for Representation LearningInternational Conference on Learning Representations (ICLR), 2021

Jianwei Yang

Lu Yuan

306

224

17 Jun 2021

XCiT: Cross-Covariance Image TransformersNeural Information Processing Systems (NeurIPS), 2021

...

Natalia Neverova

446

614

17 Jun 2021

Long-Short Temporal Contrastive Learning of Video Transformers

Gedas Bertasius

348

17 Jun 2021

End-to-End Semi-Supervised Object Detection with Soft Teacher

Zicheng Liu

350

586

16 Jun 2021

Shuffle Transformer with Feature Alignment for Video Face Parsing

181

16 Jun 2021

Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation

146

16 Jun 2021

ICDAR 2021 Competition on Components Segmentation Task of Document Photos

Alejandro H. Toselli

155

16 Jun 2021

Dynamic Head: Unifying Object Detection Heads with Attentions

Lu Yuan

Lei Zhang

232

803

15 Jun 2021

BEiT: BERT Pre-Training of Image Transformers

856

3,424

15 Jun 2021

Improved Transformer for High-Resolution GANsNeural Information Processing Systems (NeurIPS), 2021

352

109

14 Jun 2021

S$^2$-MLP: Spatial-Shift MLP Architecture for Vision

^2

-MLP: Spatial-Shift MLP Architecture for VisionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2021

261

219

14 Jun 2021

3rd Place Solution for Short-video Face Parsing Challenge

135

14 Jun 2021

Pre-Trained Models: Past, Present and FutureAI Open (AO), 2021

Xu Han

Zhengyan Zhang

Ning Ding

Yuxian Gu

Xiao Liu

...

Jun Zhu

390

995

14 Jun 2021

Styleformer: Transformer based Generative Adversarial Networks with Style VectorComputer Vision and Pattern Recognition (CVPR), 2021

Jeeseung Park

Younggeun Kim

ViT

314

13 Jun 2021

DS-TransUNet:Dual Swin Transformer U-Net for Medical Image SegmentationIEEE Transactions on Instrumentation and Measurement (IEEE Trans. Instrum. Meas.), 2021

287

820

12 Jun 2021

1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation

156

12 Jun 2021

MlTr: Multi-label Classification with TransformerIEEE International Conference on Multimedia and Expo (ICME), 2021

Fan Yang

176

11 Jun 2021

Rethinking Architecture Design for Tackling Data Heterogeneity in Federated LearningComputer Vision and Pattern Recognition (CVPR), 2021

414

216

10 Jun 2021