Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,555 papers shown

Title
I3CL:Intra- and Inter-Instance Collaborative Learning for Arbitrary-shaped Scene Text Detection Bo Du Jian Ye Jing Zhang Juhua Liu Dacheng Tao VLM 26 29 0 03 Aug 2021
Congested Crowd Instance Localization with Dilated Convolutional Swin Transformer Junyuan Gao Maoguo Gong Xuelong Li ViT 19 46 0 02 Aug 2021
CrossFormer: A Versatile Vision Transformer Hinging on Cross-scale Attention Wenxiao Wang Lulian Yao Long Chen Binbin Lin Deng Cai Xiaofei He Wei Liu 32 256 0 31 Jul 2021
Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning Faisal Alamri Anjan Dutta ViT 24 23 0 30 Jul 2021
DPT: Deformable Patch-based Transformer for Visual Recognition Zhiyang Chen Yousong Zhu Chaoyang Zhao Guosheng Hu Wei Zeng Jinqiao Wang Ming Tang ViT 16 98 0 30 Jul 2021
Real-time Streaming Perception System for Autonomous Driving Yongxiang Gu Qianlei Wang Xiaolin Qin 11 6 0 30 Jul 2021
Open-World Entity Segmentation Lu Qi Jason Kuen Yi Wang Jiuxiang Gu Hengshuang Zhao Zhe-nan Lin Philip H. S. Torr Jiaya Jia OCL SSeg VLM 37 80 0 29 Jul 2021
Rethinking and Improving Relative Position Encoding for Vision Transformer Kan Wu Houwen Peng Minghao Chen Jianlong Fu Hongyang Chao ViT 42 329 0 29 Jul 2021
A Unified Efficient Pyramid Transformer for Semantic Segmentation Fangrui Zhu Yi Zhu Li Zhang Chongruo Wu Yanwei Fu Mu Li ViT 29 29 0 29 Jul 2021
Query2Label: A Simple Transformer Way to Multi-Label Classification Shilong Liu Lei Zhang Xiao Yang Hang Su Jun Zhu 18 187 0 22 Jul 2021
A Deep Learning-based Quality Assessment and Segmentation System with a Large-scale Benchmark Dataset for Optical Coherence Tomographic Angiography Image Yu-Fang Wang Yiqing Shen Meng Yuan Jing Xu B. Yang Chicheng Liu Wenjia Cai Weijing Cheng Wei Wang 25 18 0 22 Jul 2021
CycleMLP: A MLP-like Architecture for Dense Prediction Shoufa Chen Enze Xie Chongjian Ge Runjian Chen Ding Liang Ping Luo 19 231 0 21 Jul 2021
Visual Parser: Representing Part-whole Hierarchies with Transformers Shuyang Sun Xiaoyu Yue S. Bai Philip H. S. Torr 50 27 0 13 Jul 2021
TransClaw U-Net: Claw U-Net with Transformers for Medical Image Segmentation Yao Chang Menghan Hu Zhai Guangtao Xiao-Ping Zhang MedIm ViT 74 96 0 12 Jul 2021
Modality specific U-Net variants for biomedical image segmentation: A survey Narinder Singh Punn Sonali Agarwal SSeg 24 144 0 09 Jul 2021
Trans4Trans: Efficient Transformer for Transparent Object Segmentation to Help Visually Impaired People Navigate in the Real World Jiaming Zhang Kailun Yang Angela Constantinescu Kunyu Peng Karin Muller Rainer Stiefelhagen ViT 36 61 0 07 Jul 2021
SSPNet: Scale Selection Pyramid Network for Tiny Person Detection from UAV Images Ming Hong Shuiwang Li Yuchao Yang Feiyu Zhu Qijun Zhao Li Lu ObjD 19 86 0 04 Jul 2021
Learning Efficient Vision Transformers via Fine-Grained Manifold Distillation Zhiwei Hao Jianyuan Guo Ding Jia Kai Han Yehui Tang Chao Zhang Dacheng Tao Yunhe Wang ViT 33 68 0 03 Jul 2021
Global Filter Networks for Image Classification Yongming Rao Wenliang Zhao Zheng Zhu Jiwen Lu Jie Zhou ViT 16 450 0 01 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 42 428 0 01 Jul 2021
CBNet: A Composite Backbone Network Architecture for Object Detection Tingting Liang Xiao Chu Yudong Liu Yongtao Wang Zhi Tang Wei Chu Jingdong Chen Haibin Ling ObjD 13 161 0 01 Jul 2021
Simple Training Strategies and Model Scaling for Object Detection Xianzhi Du Barret Zoph Wei-Chih Hung Tsung-Yi Lin ObjD 31 40 0 30 Jun 2021
Looking Outside the Window: Wide-Context Transformer for the Semantic Segmentation of High-Resolution Remote Sensing Images L. Ding Dong Lin Shaofu Lin Jing Zhang Xiaojie Cui Yuebin Wang H. Tang Lorenzo Bruzzone ViT 23 97 0 29 Jun 2021
Rethinking Token-Mixing MLP for MLP-based Vision Backbone Tan Yu Xu Li Yunfeng Cai Mingming Sun Ping Li 45 26 0 28 Jun 2021
K-Net: Towards Unified Image Segmentation Wenwei Zhang Jiangmiao Pang Kai-xiang Chen Chen Change Loy ISeg 32 356 0 28 Jun 2021
R-Drop: Regularized Dropout for Neural Networks Xiaobo Liang Lijun Wu Juntao Li Yue Wang Qi Meng Tao Qin Wei Chen M. Zhang Tie-Yan Liu 41 424 0 28 Jun 2021
PVT v2: Improved Baselines with Pyramid Vision Transformer Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT AI4TS 29 1,607 0 25 Jun 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 22 88 0 25 Jun 2021
Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers Katelyn Morrison B. Gilby Colton Lipchak Adam Mattioli Adriana Kovashka ViT 25 17 0 24 Jun 2021
Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting Haixu Wu Jiehui Xu Jianmin Wang Mingsheng Long AI4TS 17 2,096 0 24 Jun 2021
IA-RED $^2$ : Interpretability-Aware Redundancy Reduction for Vision Transformers Bowen Pan Rameswar Panda Yifan Jiang Zhangyang Wang Rogerio Feris A. Oliva VLM ViT 39 153 0 23 Jun 2021
Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition Qibin Hou Zihang Jiang Li-xin Yuan Mingg-Ming Cheng Shuicheng Yan Jiashi Feng ViT MLLM 24 205 0 23 Jun 2021
P2T: Pyramid Pooling Transformer for Scene Understanding Yu-Huan Wu Yun-Hai Liu Xin Zhan Mingg-Ming Cheng ViT 29 219 0 22 Jun 2021
Tracking Instances as Queries Shusheng Yang Yuxin Fang Xinggang Wang Yu Li Ying Shan Bin Feng Wenyu Liu 24 10 0 22 Jun 2021
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? Michael S. Ryoo A. Piergiovanni Anurag Arnab Mostafa Dehghani A. Angelova ViT 32 127 0 21 Jun 2021
MSN: Efficient Online Mask Selection Network for Video Instance Segmentation Vidit Goel Jiachen Li Shubhika Garg Harsh Maheshwari Humphrey Shi 19 7 0 19 Jun 2021
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers Andreas Steiner Alexander Kolesnikov Xiaohua Zhai Ross Wightman Jakob Uszkoreit Lucas Beyer ViT 36 614 0 18 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 32 209 0 17 Jun 2021
XCiT: Cross-Covariance Image Transformers Alaaeldin El-Nouby Hugo Touvron Mathilde Caron Piotr Bojanowski Matthijs Douze ... Ivan Laptev Natalia Neverova Gabriel Synnaeve Jakob Verbeek Hervé Jégou ViT 28 497 0 17 Jun 2021
End-to-End Semi-Supervised Object Detection with Soft Teacher Mengde Xu Zheng-Wei Zhang Han Hu Jianfeng Wang Lijuan Wang Fangyun Wei X. Bai Zicheng Liu 28 488 0 16 Jun 2021
Shuffle Transformer with Feature Alignment for Video Face Parsing Rui Zhang Yang Han Zilong Huang Pei Cheng Guozhong Luo Gang Yu Bin-Bin Fu CVBM ViT 27 1 0 16 Jun 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 51 2,747 0 15 Jun 2021
Improved Transformer for High-Resolution GANs Long Zhao Zizhao Zhang Ting Chen Dimitris N. Metaxas Han Zhang ViT 26 95 0 14 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 37 815 0 14 Jun 2021
Styleformer: Transformer based Generative Adversarial Networks with Style Vector Jeeseung Park Younggeun Kim ViT 23 48 0 13 Jun 2021
Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning Liangqiong Qu Yuyin Zhou Paul Pu Liang Yingda Xia Feifei Wang Ehsan Adeli L. Fei-Fei D. Rubin FedML AI4CE 19 174 0 10 Jun 2021
CAT: Cross Attention in Vision Transformer Hezheng Lin Xingyi Cheng Xiangyu Wu Fan Yang Dong Shen Zhongyuan Wang Qing Song Wei Yuan ViT 27 149 0 10 Jun 2021
MST: Masked Self-Supervised Transformer for Visual Representation Zhaowen Li Zhiyang Chen Fan Yang Wei Li Yousong Zhu ... Rui Deng Liwei Wu Rui Zhao Ming Tang Jinqiao Wang ViT 37 161 0 10 Jun 2021
Knowledge distillation: A good teacher is patient and consistent Lucas Beyer Xiaohua Zhai Amelie Royer L. Markeeva Rohan Anil Alexander Kolesnikov VLM 35 287 0 09 Jun 2021
Do Transformers Really Perform Bad for Graph Representation? Chengxuan Ying Tianle Cai Shengjie Luo Shuxin Zheng Guolin Ke Di He Yanming Shen Tie-Yan Liu GNN 28 433 0 09 Jun 2021