Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,046 papers shown

Title
Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation Approach Peng Mi Li Shen Tianhe Ren Yiyi Zhou Xiaoshuai Sun Rongrong Ji Dacheng Tao AAML 12 69 0 11 Oct 2022
BoxTeacher: Exploring High-Quality Pseudo Labels for Weakly Supervised Instance Segmentation Tianheng Cheng Xinggang Wang Shaoyu Chen Qian Zhang Wenyu Liu ISeg 30 41 0 11 Oct 2022
Masked Autoencoders for Low dose CT denoising Dayang Wang Yongshun Xu Shuo Han Hengyong Yu MedIm 19 12 0 10 Oct 2022
FS-DETR: Few-Shot DEtection TRansformer with prompting and without re-training Adrian Bulat Ricardo Guerrero Brais Martínez Georgios Tzimiropoulos 34 30 0 10 Oct 2022
Scaling Up Probabilistic Circuits by Latent Variable Distillation Anji Liu Honghua Zhang Guy Van den Broeck TPM 15 24 0 10 Oct 2022
Coded Residual Transform for Generalizable Deep Metric Learning Shichao Kan Yixiong Liang Min Li Yigang Cen Jianxin Wang Z. He 29 3 0 09 Oct 2022
Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP Feng Liang Bichen Wu Xiaoliang Dai Kunpeng Li Yinan Zhao Hang Zhang Peizhao Zhang Peter Vajda Diana Marculescu CLIP VLM 32 432 0 09 Oct 2022
ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints Yinpeng Dong Shouwei Ruan Hang Su Cai Kang Xingxing Wei Junyi Zhu AAML 17 50 0 08 Oct 2022
Game-Theoretic Understanding of Misclassification Kosuke Sumiyasu K. Kawamoto Hiroshi Kera 13 1 0 07 Oct 2022
The Lie Derivative for Measuring Learned Equivariance Nate Gruver Marc Finzi Micah Goldblum A. Wilson 14 34 0 06 Oct 2022
Focal and Global Spatial-Temporal Transformer for Skeleton-based Action Recognition Zhimin Gao Peitao Wang Pei Lv Xiaoheng Jiang Qi-dong Liu Pichao Wang Mingliang Xu Wanqing Li ViT 42 27 0 06 Oct 2022
Learning Across Domains and Devices: Style-Driven Source-Free Domain Adaptation in Clustered Federated Learning Donald Shenaj Eros Fani Marco Toldo Debora Caldarola A. Tavera Umberto Michieli Marco Ciccone Pietro Zanuttigh Barbara Caputo FedML 21 39 0 05 Oct 2022
TimesNet: Temporal 2D-Variation Modeling for General Time Series Analysis Haixu Wu Teng Hu Yong Liu Hang Zhou Jianmin Wang Mingsheng Long AI4TS AIFin 43 693 0 05 Oct 2022
Centralized Feature Pyramid for Object Detection Yu Quan Dong Zhang Liyan Zhang Jinhui Tang ObjD 19 143 0 05 Oct 2022
On the Learning Mechanisms in Physical Reasoning Shiqian Li Ke Wu Chi Zhang Yixin Zhu AI4CE 39 13 0 05 Oct 2022
Natural Color Fool: Towards Boosting Black-box Unrestricted Attacks Shengming Yuan Qilong Zhang Lianli Gao Yaya Cheng Jingkuan Song AAML 20 42 0 05 Oct 2022
GMMSeg: Gaussian Mixture based Generative Semantic Segmentation Models Chen Liang Wenguan Wang Jiaxu Miao Yi Yang VLM 28 117 0 05 Oct 2022
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen ViT MoE 24 58 0 04 Oct 2022
Implicit Warping for Animation with Image Sets Arun Mallya Ting-Chun Wang Ming-Yu Liu VGen 114 41 0 04 Oct 2022
Bridged Transformer for Vision and Point Cloud 3D Object Detection Yikai Wang Tengqi Ye Lele Cao Wen-bing Huang Fuchun Sun Fengxiang He Dacheng Tao ViT 27 34 0 04 Oct 2022
Introducing Vision Transformer for Alzheimer's Disease classification task with 3D input Zilun Zhang Farzad Khalvati MedIm ViT 12 9 0 03 Oct 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng-Wei Zhang Chao Zhang Hanhua Hu 17 25 0 03 Oct 2022
Learning Equivariant Segmentation with Instance-Unique Querying Wenguan Wang James Liang Dongfang Liu ISeg 35 48 0 03 Oct 2022
Early or Late Fusion Matters: Efficient RGB-D Fusion in Vision Transformers for 3D Object Recognition Georgios Tziafas H. Kasaei ViT 30 10 0 03 Oct 2022
Siamese-NAS: Using Trained Samples Efficiently to Find Lightweight Neural Architecture by Prior Knowledge Yumeng Zhang J. Hsieh Chun-Chieh Lee Kuo-Chin Fan 25 0 0 02 Oct 2022
OCD: Learning to Overfit with Conditional Diffusion Models Shahar Lutati Lior Wolf DiffM 13 8 0 02 Oct 2022
Learning Hierarchical Image Segmentation For Recognition and By Recognition Tsung-Wei Ke Sangwoo Mo Stella X. Yu VLM 22 9 0 01 Oct 2022
An In-depth Study of Stochastic Backpropagation J. Fang Ming Xu Hao Chen Bing Shuai Z. Tu Joseph Tighe BDL 22 1 0 30 Sep 2022
Rethinking skip connection model as a learnable Markov chain Dengsheng Chen Jie Hu Wenwen Qiang Xiaoming Wei Enhua Wu BDL 6 1 0 30 Sep 2022
Dual Progressive Transformations for Weakly Supervised Semantic Segmentation Dong Huo Yukun Su Qingyao Wu ViT 21 4 0 30 Sep 2022
Effective Vision Transformer Training: A Data-Centric Perspective Benjia Zhou Pichao Wang Jun Wan Yan-Ni Liang Fan Wang 24 5 0 29 Sep 2022
Dilated Neighborhood Attention Transformer Ali Hassani Humphrey Shi ViT MedIm 23 67 0 29 Sep 2022
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding Fengyuan Shi Ruopeng Gao Weilin Huang Limin Wang 17 23 0 28 Sep 2022
SEMICON: A Learning-to-hash Solution for Large-scale Fine-grained Image Retrieval Yang Shen Xuhao Sun Xiu-Shen Wei Qing-Yuan Jiang Jian Yang 26 18 0 28 Sep 2022
From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera Fusion Rui Wan Shuangjie Xu Wei Wu Xiaoyi Zou Tongyi Cao 3DPC 12 4 0 25 Sep 2022
Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection Neelu Madan Nicolae-Cătălin Ristea Radu Tudor Ionescu Kamal Nasrollahi F. Khan T. Moeslund M. Shah ViT MedIm 248 60 0 25 Sep 2022
BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video A. Athar Jonathon Luiten P. Voigtlaender Tarasha Khurana Achal Dave Bastian Leibe Deva Ramanan VOS VLM 11 57 0 25 Sep 2022
Modular Degradation Simulation and Restoration for Under-Display Camera Yang Zhou Yuda Song Xin Du 27 11 0 23 Sep 2022
Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration Marcos V. Conde Ui-Jin Choi Maxime Burchi Radu Timofte ViT 46 134 0 22 Sep 2022
MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image Translation Junyoung Seo Gyuseong Lee Seokju Cho Jiyoung Lee Seung Wook Kim DiffM 21 27 0 22 Sep 2022
Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond Algorithms Huijuan Pang Zhongang Cai Lei Yang Tianwei Zhang Ziwei Liu 3DH 36 28 0 21 Sep 2022
IoU-Enhanced Attention for End-to-End Task Specific Object Detection Jing Zhao Shengjian Wu Li Sun Qingli Li 31 6 0 21 Sep 2022
3DGTN: 3D Dual-Attention GLocal Transformer Network for Point Cloud Classification and Segmentation Dening Lu K. Gao Qian Xie Linlin Xu Jonathan Li 3DPC ViT 27 4 0 21 Sep 2022
Position-Aware Relation Learning for RGB-Thermal Salient Object Detection Heng Zhou Chunna Tian Zhenxi Zhang Chengyang Li Yuxuan Ding Yongqiang Xie Zhongbo Li ViT 17 27 0 21 Sep 2022
Dynamic Graph Message Passing Networks for Visual Recognition Li Zhang Mohan Chen Anurag Arnab Xiangyang Xue Philip H. S. Torr GNN 18 1 0 20 Sep 2022
Relaxed Attention for Transformer Models Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt KELM 19 11 0 20 Sep 2022
Integrative Feature and Cost Aggregation with Transformers for Dense Correspondence Sunghwan Hong Seokju Cho Seung Wook Kim Stephen Lin 3DV 42 4 0 19 Sep 2022
TODE-Trans: Transparent Object Depth Estimation with Transformer Kan Chen Shaochen Wang Beihao Xia Dongxu Li Zheng Kan Bin Li ViT 8 15 0 18 Sep 2022
PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation Haoyu Ma Zhe Wang Yifei Chen Deying Kong Liangjian Chen Xingwei Liu Xiangyi Yan Hao Tang Xiaohui Xie ViT 35 47 0 16 Sep 2022
Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention Jingwei Zhao Gus Xia Ye Wang 11 18 0 15 Sep 2022