Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,115 papers shown

Title
ParCNetV2: Oversized Kernel with Enhanced Attention Ruihan Xu Haokui Zhang Wenze Hu Shiliang Zhang Xiaoyu Wang ViT 17 6 0 14 Nov 2022
BiViT: Extremely Compressed Binary Vision Transformer Yefei He Zhenyu Lou Luoming Zhang Jing Liu Weijia Wu Hong Zhou Bohan Zhuang ViT MQ 18 28 0 14 Nov 2022
Deep Learning-enabled Virtual Histological Staining of Biological Samples Bijie Bai Xilin Yang Yuzhu Li Yijie Zhang N. Pillar Aydogan Ozcan 16 149 0 13 Nov 2022
Long-Range Zero-Shot Generative Deep Network Quantization Yan Luo Yangcheng Gao Zhao Zhang Haijun Zhang Mingliang Xu Meng Wang MQ 23 9 0 13 Nov 2022
Perceptual Video Coding for Machines via Satisfied Machine Ratio Modeling Qi Zhang Shanshe Wang Xinfeng Zhang Chuanmin Jia Jingshan Pan Siwei Ma Wen Gao 19 3 0 13 Nov 2022
Multistep feature aggregation framework for salient object detection Xiaogang Liu 25 0 0 12 Nov 2022
Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation Yusong Wu K. Chen Tianyu Zhang Yuchen Hui Marianna Nezhurina Taylor Berg-Kirkpatrick Shlomo Dubnov CLIP 37 480 0 12 Nov 2022
AU-Aware Vision Transformers for Biased Facial Expression Recognition Shuyi Mao Xinpeng Li Q. Wu Xiaojiang Peng ViT 28 2 0 12 Nov 2022
End-to-End Machine Learning Framework for Facial AU Detection in Intensive Care Units Subhash Nerella Kia Khezeli Andrea Davidson P. Tighe A. Bihorac Parisa Rashidi CVBM 10 4 0 12 Nov 2022
Unifying Flow, Stereo and Depth Estimation Haofei Xu Jing Zhang Jianfei Cai Hamid Rezatofighi F. I. F. Richard Yu Dacheng Tao Andreas Geiger MDE 17 191 0 10 Nov 2022
OneFormer: One Transformer to Rule Universal Image Segmentation Jitesh Jain Jiacheng Li M. Chiu Ali Hassani Nikita Orlov Humphrey Shi ViT 24 326 0 10 Nov 2022
Learning Cross-view Geo-localization Embeddings via Dynamic Weighted Decorrelation Regularization Ting Wang Zhedong Zheng Zunjie Zhu Yuhan Gao Yi Yang Chenggang Yan 23 34 0 10 Nov 2022
Training a Vision Transformer from scratch in less than 24 hours with 1 GPU Saghar Irandoust Thibaut Durand Yunduz Rakhmangulova Wenjie Zi Hossein Hajimirsadeghi ViT 25 6 0 09 Nov 2022
ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision Transformer Acceleration with a Linear Taylor Attention Jyotikrishna Dass Shang Wu Huihong Shi Chaojian Li Zhifan Ye Zhongfeng Wang Yingyan Lin 15 49 0 09 Nov 2022
Group DETR v2: Strong Object Detector with Encoder-Decoder Pretraining Qiang Chen Jian Wang Chuchu Han Shangang Zhang Zexian Li ... Haocheng Feng Kun Yao Junyu Han Errui Ding Jingdong Wang ViT VLM 29 44 0 07 Nov 2022
ViT-CX: Causal Explanation of Vision Transformers Weiyan Xie Xiao-hui Li Caleb Chen Cao Nevin L.Zhang ViT 16 17 0 06 Nov 2022
Large Scale Radio Frequency Wideband Signal Detection & Recognition Luke Boegner Garrett M. Vanhoy Phillip Vallance Manbir Gulati Dresden Feitzinger B. Comar Rob Miller AI4TS 8 6 0 04 Nov 2022
Rethinking Hierarchies in Pre-trained Plain Vision Transformer Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao 13 1 0 03 Nov 2022
MALUNet: A Multi-Attention and Light-weight UNet for Skin Lesion Segmentation Jiacheng Ruan Suncheng Xiang Mingye Xie Ting Liu Yuzhuo Fu 19 132 0 03 Nov 2022
MPCFormer: fast, performant and private Transformer inference with MPC Dacheng Li Rulin Shao Hongyi Wang Han Guo Eric P. Xing Haotong Zhang 11 79 0 02 Nov 2022
Attention-based Neural Cellular Automata Mattie Tesfaldet Derek Nowrouzezahrai C. Pal ViT 29 17 0 02 Nov 2022
Siamese Transition Masked Autoencoders as Uniform Unsupervised Visual Anomaly Detector Haiming Yao Xue Wang Wenyong Yu 20 9 0 01 Nov 2022
Training Vision-Language Models with Less Bimodal Supervision Elad Segal Ben Bogin Jonathan Berant VLM 19 2 0 01 Nov 2022
FusionFormer: Fusing Operations in Transformer for Efficient Streaming Speech Recognition Xingcheng Song Di Wu Binbin Zhang Zhiyong Wu Wenpeng Li ... Peng Zhang Zhendong Peng Fuping Pan Changbao Zhu Zhongqin Wu 19 2 0 31 Oct 2022
Attention Swin U-Net: Cross-Contextual Attention Mechanism for Skin Lesion Segmentation Ehsan Khodapanah Aghdam Reza Azad Maral Zarvani Dorit Merhof ViT SSeg MedIm 29 47 0 30 Oct 2022
Time-rEversed diffusioN tEnsor Transformer: A new TENET of Few-Shot Object Detection Shan Zhang Naila Murray Lei Wang Piotr Koniusz ViT 27 16 0 30 Oct 2022
Interpretable CNN-Multilevel Attention Transformer for Rapid Recognition of Pneumonia from Chest X-Ray Images Shengchao Chen Sufen Ren Guanjun Wang Mengxing Huang Chenyang Xue ViT MedIm 47 16 0 29 Oct 2022
A Survey on Causal Representation Learning and Future Work for Medical Image Analysis Chang-Tien Lu OOD BDL CML MedIm 24 0 0 28 Oct 2022
Towards Generalized Few-Shot Open-Set Object Detection Binyi Su Hua Zhang Jingzhi Li Zhongjun Zhou 43 9 0 28 Oct 2022
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images Yan Zhang Xiyuan Gao Qingyan Duan Jiaxu Leng Xiao Pu Xinbo Gao ViT 16 1 0 28 Oct 2022
Grafting Vision Transformers Jong Sung Park Kumara Kahatapitiya Donghyun Kim Shivchander Sudalairaj Quanfu Fan Michael S. Ryoo ViT 21 2 0 28 Oct 2022
Spatio-Temporal Hybrid Fusion of CAE and SWIn Transformers for Lung Cancer Malignancy Prediction Sadaf Khademi Shahin Heidarian Parnian Afshar F. Naderkhani A. Oikonomou Konstantinos Plataniotis Arash Mohammadi ViT MedIm 19 7 0 27 Oct 2022
Deep Learning Object Detection Approaches to Signal Identification Luke Wood K. Anderson Peter Gerstoft Richard Bell Raghab Subbaraman Dinesh Bharadia 13 2 0 27 Oct 2022
Masked Vision-Language Transformer in Fashion Ge-Peng Ji Mingchen Zhuge D. Gao Deng-Ping Fan Christos Sakaridis Luc Van Gool 17 25 0 27 Oct 2022
Synthetic Tumors Make AI Segment Tumors Better Qixing Hu Junfei Xiao Yixiong Chen Shuwen Sun Jieneng Chen Alan Yuille Zongwei Zhou MedIm 25 11 0 26 Oct 2022
M $^3$ ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design Hanxue Liang Zhiwen Fan Rishov Sarkar Ziyu Jiang Tianlong Chen Kai Zou Yu Cheng Cong Hao Zhangyang Wang MoE 24 80 0 26 Oct 2022
SemFormer: Semantic Guided Activation Transformer for Weakly Supervised Semantic Segmentation Junliang Chen Xiaodong Zhao Cheng Luo Linlin Shen ViT 19 3 0 26 Oct 2022
Automatic Diagnosis of Myocarditis Disease in Cardiac MRI Modality using Deep Transformers and Explainable Artificial Intelligence M. Jafari A. Shoeibi Navid Ghassemi Jónathan Heras Saiguang Ling ... Shuihua Wang R. Alizadehsani Juan M Gorriz U. Acharya Hamid Alinejad-Rokny MedIm 11 10 0 26 Oct 2022
TPFNet: A Novel Text In-painting Transformer for Text Removal Onkar Susladkar Dhruv Makwana Gayatri S Deshmukh Sparsh Mittal R. S. Teja Rekha Singhal ViT 14 3 0 26 Oct 2022
Adversarially Robust Medical Classification via Attentive Convolutional Neural Networks I. Wasserman OOD MedIm AAML 27 0 0 26 Oct 2022
Explicitly Increasing Input Information Density for Vision Transformers on Small Datasets Xiangyu Chen Ying Qin Wenju Xu A. Bur Cuncong Zhong Guanghui Wang ViT 38 3 0 25 Oct 2022
Pointly-Supervised Panoptic Segmentation Junsong Fan Zhaoxiang Zhang T. Tan 22 23 0 25 Oct 2022
End-to-end Transformer for Compressed Video Quality Enhancement Li Yu Wenshuai Chang Shiyu Wu M. Gabbouj ViT 19 8 0 25 Oct 2022
MetaFormer Baselines for Vision Weihao Yu Chenyang Si Pan Zhou Mi Luo Yichen Zhou Jiashi Feng Shuicheng Yan Xinchao Wang MoE 23 156 0 24 Oct 2022
Deep Model Reassembly Xingyi Yang Zhou Daquan Songhua Liu Jingwen Ye Xinchao Wang MoMe 20 120 0 24 Oct 2022
mm-Wave Radar Hand Shape Classification Using Deformable Transformers Athma Narayanan Asma Beevi K. T. Haoyang Wu Jingyi Ma W. Huang 10 2 0 24 Oct 2022
Gallery Filter Network for Person Search Lucas Jaffe A. Zakhor 10 12 0 24 Oct 2022
Delving into Masked Autoencoders for Multi-Label Thorax Disease Classification Junfei Xiao Yutong Bai Alan Yuille Zongwei Zhou MedIm ViT 30 59 0 23 Oct 2022
LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context Propagation in Transformers Zhuo Huang Zhiyou Zhao Banghuai Li Jungong Han 3DPC ViT 23 55 0 23 Oct 2022
S2WAT: Image Style Transfer via Hierarchical Vision Transformer using Strips Window Attention Chi Zhang Xiaogang Xu Lei Wang Zaiyan Dai Jun Yang ViT 22 23 0 22 Oct 2022