Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,186 papers shown

Title
TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation Jinyu Yang Jingjing Liu N. Xu Junzhou Huang 17 125 0 12 Aug 2021
Mobile-Former: Bridging MobileNet and Transformer Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Xiaoyi Dong Lu Yuan Zicheng Liu ViT 172 475 0 12 Aug 2021
Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer Yifan Xu Zhijie Zhang Mengdan Zhang Kekai Sheng Ke Li Weiming Dong Liqing Zhang Changsheng Xu Xing Sun ViT 18 201 0 03 Aug 2021
I3CL:Intra- and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection Bo Du Jian Ye Jing Zhang Juhua Liu Dacheng Tao VLM 26 29 0 03 Aug 2021
Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer Junyuan Gao Maoguo Gong Xuelong Li ViT 19 46 0 02 Aug 2021
CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Lulian Yao Long Chen Binbin Lin Deng Cai Xiaofei He Wei Liu 32 256 0 31 Jul 2021
Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning Faisal Alamri Anjan Dutta ViT 22 23 0 30 Jul 2021
DPT: Deformable Patch-based Transformer for Visual Recognition Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang ViT 14 98 0 30 Jul 2021
Real-time Streaming Perception System for Autonomous Driving Yongxiang Gu Qianlei Wang Xiaolin Qin 9 6 0 30 Jul 2021
Open-World Entity Segmentation Lu Qi Jason Kuen Yi Wang Jiuxiang Gu Hengshuang Zhao Zhe-nan Lin Philip H. S. Torr Jiaya Jia OCL SSeg VLM 27 80 0 29 Jul 2021
Rethinking and Improving Relative Position Encoding for Vision Transformer Kan Wu Houwen Peng Minghao Chen Jianlong Fu Hongyang Chao ViT 28 328 0 29 Jul 2021
A Unified Efficient Pyramid Transformer for Semantic Segmentation Fangrui Zhu Yi Zhu Li Zhang Chongruo Wu Yanwei Fu Mu Li ViT 21 29 0 29 Jul 2021
Visual Parser: Representing Part-whole Hierarchies with Transformers Shuyang Sun Xiaoyu Yue S. Bai Philip H. S. Torr 50 27 0 13 Jul 2021
TransClaw U-Net: Claw U-Net with Transformers for Medical Image Segmentation Yao Chang Menghan Hu Zhai Guangtao Xiao-Ping Zhang MedIm ViT 68 96 0 12 Jul 2021
Modality specific U-Net variants for biomedical image segmentation: A survey Narinder Singh Punn Sonali Agarwal SSeg 24 144 0 09 Jul 2021
Trans4Trans: Efficient Transformer for Transparent Object Segmentation to Help Visually Impaired People Navigate in the Real World Jiaming Zhang Kailun Yang Angela Constantinescu Kunyu Peng Karin Muller Rainer Stiefelhagen ViT 31 61 0 07 Jul 2021
SSPNet: Scale Selection Pyramid Network for Tiny Person Detection from UAV Images Ming Hong Shuiwang Li Yuchao Yang Feiyu Zhu Qijun Zhao Li Lu ObjD 14 85 0 04 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 39 428 0 01 Jul 2021
CBNet: A Composite Backbone Network Architecture for Object Detection Tingting Liang Xiao Chu Yudong Liu Yongtao Wang Zhi Tang Wei Chu Jingdong Chen Haibin Ling ObjD 13 161 0 01 Jul 2021
Simple Training Strategies and Model Scaling for Object Detection Xianzhi Du Barret Zoph Wei-Chih Hung Tsung-Yi Lin ObjD 31 40 0 30 Jun 2021
Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images L. Ding Dong Lin Shaofu Lin Jing Zhang Xiaojie Cui Yuebin Wang H. Tang Lorenzo Bruzzone ViT 21 97 0 29 Jun 2021
Rethinking Token-Mixing MLP for MLP-based Vision Backbone Tan Yu Xu Li Yunfeng Cai Mingming Sun Ping Li 40 26 0 28 Jun 2021
K-Net: Towards Unified Image Segmentation Wenwei Zhang Jiangmiao Pang Kai-xiang Chen Chen Change Loy ISeg 15 356 0 28 Jun 2021
PVT v2: Improved Baselines with Pyramid Vision Transformer Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT AI4TS 13 1,606 0 25 Jun 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 22 88 0 25 Jun 2021
Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting Haixu Wu Jiehui Xu Jianmin Wang Mingsheng Long AI4TS 12 2,082 0 24 Jun 2021
IA-RED $^2$ : Interpretability-Aware Redundancy Reduction for Vision Transformers Bowen Pan Rameswar Panda Yifan Jiang Zhangyang Wang Rogerio Feris A. Oliva VLM ViT 39 153 0 23 Jun 2021
Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition Qibin Hou Zihang Jiang Li-xin Yuan Mingg-Ming Cheng Shuicheng Yan Jiashi Feng ViT MLLM 24 205 0 23 Jun 2021
P2T: Pyramid Pooling Transformer for Scene Understanding Yu-Huan Wu Yun-Hai Liu Xin Zhan Mingg-Ming Cheng ViT 24 218 0 22 Jun 2021
Tracking Instances as Queries Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Ying Shan Bin Feng Wenyu Liu 22 10 0 22 Jun 2021
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? Michael S. Ryoo A. Piergiovanni Anurag Arnab Mostafa Dehghani A. Angelova ViT 21 127 0 21 Jun 2021
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation Vidit Goel Jiachen Li Shubhika Garg Harsh Maheshwari Humphrey Shi 17 7 0 19 Jun 2021
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers Andreas Steiner Alexander Kolesnikov Xiaohua Zhai Ross Wightman Jakob Uszkoreit Lucas Beyer ViT 34 613 0 18 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 30 208 0 17 Jun 2021
End-to-End Semi-Supervised Object Detection with Soft Teacher Mengde Xu Zheng-Wei Zhang Han Hu Jianfeng Wang Lijuan Wang Fangyun Wei X. Bai Zicheng Liu 11 487 0 16 Jun 2021
Shuffle Transformer with Feature Alignment for Video Face Parsing Rui Zhang Yang Han Zilong Huang Pei Cheng Guozhong Luo Gang Yu Bin-Bin Fu CVBM ViT 19 1 0 16 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 12 2,742 0 15 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 24 811 0 14 Jun 2021
Styleformer: Transformer based Generative Adversarial Networks with Style Vector Jeeseung Park Younggeun Kim ViT 18 48 0 13 Jun 2021
Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning Liangqiong Qu Yuyin Zhou Paul Pu Liang Yingda Xia Feifei Wang Ehsan Adeli L. Fei-Fei D. Rubin FedML AI4CE 19 173 0 10 Jun 2021
CAT: Cross Attention in Vision Transformer Hezheng Lin Xingyi Cheng Xiangyu Wu Fan Yang Dong Shen Zhongyuan Wang Qing Song Wei Yuan ViT 27 149 0 10 Jun 2021
MST: Masked Self-Supervised Transformer for Visual Representation Zhaowen Li Zhiyang Chen Fan Yang Wei Li Yousong Zhu ... Rui Deng Liwei Wu Rui Zhao Ming Tang Jinqiao Wang ViT 30 161 0 10 Jun 2021
Knowledge distillation: A good teacher is patient and consistent Lucas Beyer Xiaohua Zhai Amelie Royer L. Markeeva Rohan Anil Alexander Kolesnikov VLM 13 287 0 09 Jun 2021
Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying Tianle Cai Shengjie Luo Shuxin Zheng Guolin Ke Di He Yanming Shen Tie-Yan Liu GNN 23 432 0 09 Jun 2021
CoAtNet: Marrying Convolution and Attention for All Data Sizes Zihang Dai Hanxiao Liu Quoc V. Le Mingxing Tan ViT 22 1,167 0 09 Jun 2021
A Survey of Transformers Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 27 1,084 0 08 Jun 2021
Self-supervised Depth Estimation Leveraging Global Perception and Geometric Smoothness Using On-board Videos Shaocheng Jia Xin Pei W. Yao S. Wong 3DPC MDE 33 19 0 07 Jun 2021
ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias Yufei Xu Qiming Zhang Jing Zhang Dacheng Tao ViT 27 329 0 07 Jun 2021
Large-scale Unsupervised Semantic Segmentation Shangqi Gao Zhong-Yu Li Ming-Hsuan Yang Mingg-Ming Cheng Junwei Han Philip H. S. Torr UQCV 25 84 0 06 Jun 2021
Rethinking Training from Scratch for Object Detection Yang Li Hong Zhang Yu Zhang VLM OnRL ObjD 11 5 0 06 Jun 2021