Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,186 papers shown

Title
GateHUB: Gated History Unit with Background Suppression for Online Action Detection Junwen Chen Gaurav Mittal Ye Yu Yu Kong Mei Chen 33 33 0 09 Jun 2022
Meet You Halfway: Explaining Deep Learning Mysteries Oriel BenShmuel AAML FedML FAtt OOD 19 0 0 09 Jun 2022
VITA: Video Instance Segmentation via Object Token Association Miran Heo Sukjun Hwang Seoung Wug Oh Joon-Young Lee Seon Joo Kim VOS 21 88 0 09 Jun 2022
SimVP: Simpler yet Better Video Prediction Zhangyang Gao Cheng Tan Lirong Wu Stan Z. Li 23 210 0 09 Jun 2022
Hub-Pathway: Transfer Learning from A Hub of Pre-trained Models Yang Shu Zhangjie Cao Ziyang Zhang Jianmin Wang Mingsheng Long 15 4 0 08 Jun 2022
Tutel: Adaptive Mixture-of-Experts at Scale Changho Hwang Wei Cui Yifan Xiong Ziyue Yang Ze Liu ... Joe Chau Peng Cheng Fan Yang Mao Yang Y. Xiong MoE 92 109 0 07 Jun 2022
Parotid Gland MRI Segmentation Based on Swin-Unet and Multimodal Images Zián Xu Yin Dai Fayu Liu Siqi Li Shengmei Liu Li-Li Shi Jun Fu ViT MedIm 16 3 0 07 Jun 2022
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection Chao Zeng Sam Kwong ViT 19 25 0 07 Jun 2022
Recent Advances for Quantum Neural Networks in Generative Learning Jinkai Tian Xiaoyun Sun Yuxuan Du Shanshan Zhao Qing Liu ... Xingyao Wu Min-hsiu Hsieh Tongliang Liu Wen-Bin Yang Dacheng Tao AI4CE 24 80 0 07 Jun 2022
Mask DINO: Towards A Unified Transformer-based Framework for Object Detection and Segmentation Feng Li Hao Zhang Hu-Sheng Xu Siyi Liu Lei Zhang L. Ni H. Shum ISeg 42 364 0 06 Jun 2022
U(1) Symmetry-breaking Observed in Generic CNN Bottleneck Layers Louis-Franccois Bouchard Mohsen Ben Lazreg Matthew Toews 19 0 0 05 Jun 2022
Which models are innately best at uncertainty estimation? Ido Galil Mohammed Dabbah Ran El-Yaniv UQCV 24 5 0 05 Jun 2022
Prefix Conditioning Unifies Language and Label Supervision Kuniaki Saito Kihyuk Sohn X. Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister VLM CLIP 28 16 0 02 Jun 2022
XBound-Former: Toward Cross-scale Boundary Modeling in Transformers Jiacheng Wang Fei Chen Yuxi Ma Liansheng Wang Zhaodong Fei Jia Shuai Xiangdong Tang Qichao Zhou Jing Qin ViT MedIm 15 63 0 02 Jun 2022
Dog nose print matching with dual global descriptor based on Contrastive Learning Bin Li Zhong Wang Nan Wu Shuai Shi Qijun Ma SSL 13 4 0 01 Jun 2022
A Survey on Deep Learning for Skin Lesion Segmentation Z. Mirikharaji Kumar Abhishek Alceu Bissoto Catarina Barata Sandra Avila Eduardo Valle M. Celebi Ghassan Hamarneh 29 82 0 01 Jun 2022
Visual Transformer for Object Detection M. Yang ViT 19 6 0 01 Jun 2022
Fair Comparison between Efficient Attentions Jiuk Hong Chaehyeon Lee Soyoun Bang Heechul Jung 17 1 0 01 Jun 2022
Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction Jun Chen Ming Hu Boyang Albert Li Mohamed Elhoseiny 37 36 0 01 Jun 2022
Few-Shot Diffusion Models Giorgio Giannone Didrik Nielsen Ole Winther DiffM 174 49 0 30 May 2022
Self-Supervised Pre-training of Vision Transformers for Dense Prediction Tasks Jaonary Rabarisoa Velentin Belissen Florian Chabot Q. C. Pham VLM ViT SSL MDE 13 2 0 30 May 2022
Task-Prior Conditional Variational Auto-Encoder for Few-Shot Image Classification Zaiyun Yang VLM DRL 11 1 0 30 May 2022
GMML is All you Need Sara Atito Muhammad Awais J. Kittler ViT VLM 38 18 0 30 May 2022
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling Xiaosong Zhang Yunjie Tian Wei Huang QiXiang Ye Qi Dai Lingxi Xie Qi Tian 52 26 0 30 May 2022
Temporal Latent Bottleneck: Synthesis of Fast and Slow Processing Mechanisms in Sequence Learning Aniket Didolkar Kshitij Gupta Anirudh Goyal Nitesh B. Gundavarapu Alex Lamb Nan Rosemary Ke Yoshua Bengio AI4CE 110 17 0 30 May 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 243 565 0 29 May 2022
SupMAE: Supervised Masked Autoencoders Are Efficient Vision Learners Feng Liang Yangguang Li Diana Marculescu SSL TPM ViT 40 22 0 28 May 2022
A Closer Look at Self-Supervised Lightweight Vision Transformers Shaoru Wang Jin Gao Zeming Li Jian-jun Sun Weiming Hu ViT 62 41 0 28 May 2022
Multi-Task Learning with Multi-Query Transformer for Dense Prediction Yangyang Xu Xiangtai Li Haobo Yuan Yibo Yang Lefei Zhang ViT 15 45 0 28 May 2022
Object-wise Masked Autoencoders for Fast Pre-training Jiantao Wu Shentong Mo ViT OCL 17 15 0 28 May 2022
Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN Siyuan Li Di Wu Fang Wu Lei Shang Stan.Z.Li 32 47 0 27 May 2022
Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images Zhi Tian Xiangxiang Chu Xiaoming Wang Xiaolin K. Wei Chunhua Shen 3DPC 13 95 0 27 May 2022
BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation Zhijian Liu Haotian Tang Alexander Amini Xinyu Yang Huizi Mao Daniela Rus Song Han 50 871 0 26 May 2022
Green Hierarchical Vision Transformer for Masked Image Modeling Lang Huang Shan You Mingkai Zheng Fei Wang Chao Qian T. Yamasaki 22 68 0 26 May 2022
Are Transformers Effective for Time Series Forecasting? Ailing Zeng Mu-Hwa Chen L. Zhang Qiang Xu AI4TS 44 1,600 0 26 May 2022
TransBoost: Improving the Best ImageNet Performance using Deep Transduction Omer Belhasin Guy Bar-Shalom Ran El-Yaniv ViT 19 3 0 26 May 2022
SwinVRNN: A Data-Driven Ensemble Forecasting Model via Learned Distribution Perturbation Yuan Hu Lei Chen Zhibin Wang Hao Li OOD 21 47 0 26 May 2022
Wireless Deep Video Semantic Transmission Sixian Wang Jincheng Dai Zijian Liang K. Niu Zhongwei Si Chao Dong Xiaoqi Qin Ping Zhang 3DV DiffM 38 141 0 26 May 2022
Inception Transformer Chenyang Si Weihao Yu Pan Zhou Yichen Zhou Xinchao Wang Shuicheng Yan ViT 26 187 0 25 May 2022
NTIRE 2022 Challenge on High Dynamic Range Imaging: Methods and Results Eduardo Pérez-Pellitero Sibi Catley-Chandar Richard Shaw Alevs Leonardis Radu Timofte ... H. Yoon T. Vo Alexander M. Holston S. Zaheer Chan-Young Park 95 36 0 25 May 2022
VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose Estimation Yuxing Chen Renshu Gu Ouhan Huang Gangyong Jia 3DH 30 11 0 25 May 2022
UMSNet: An Universal Multi-sensor Network for Human Activity Recognition Jialiang Wang Hao Wei Yi Wang Shujia Yang Chi Li HAI 20 1 0 24 May 2022
Decoder Denoising Pretraining for Semantic Segmentation Emmanuel B. Asiedu Simon Kornblith Ting Chen Niki Parmar Matthias Minderer Mohammad Norouzi AI4CE 191 26 0 23 May 2022
Dynamic Query Selection for Fast Visual Perceiver Corentin Dancette Matthieu Cord 25 1 0 22 May 2022
Knowledge Distillation via the Target-aware Transformer Sihao Lin Hongwei Xie Bing Wang Kaicheng Yu Xiaojun Chang Xiaodan Liang G. Wang ViT 20 104 0 22 May 2022
Vision Transformers in 2022: An Update on Tiny ImageNet Ethan Huynh ViT 26 11 0 21 May 2022
Boosting Camouflaged Object Detection with Dual-Task Interactive Transformer Zheng Liu Zhili Zhang Wei Yu Wu 25 46 0 21 May 2022
Improvements to Self-Supervised Representation Learning for Masked Image Modeling Jia-ju Mao Xuesong Yin Yuan Chang Honggu Zhou SSL 19 1 0 21 May 2022
Self-supervised 3D anatomy segmentation using self-distilled masked image transformer (SMIT) Jue Jiang N. Tyagi K. Tringale C. Crane H. Veeraraghavan MedIm 20 34 0 20 May 2022
Degradation-Aware Unfolding Half-Shuffle Transformer for Spectral Compressive Imaging Yuanhao Cai Jing Lin Haoqian Wang Xin Yuan Henghui Ding Yulun Zhang Radu Timofte Luc Van Gool 70 116 0 20 May 2022