Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,555 papers shown

Title
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 13 89 0 31 Jan 2022
Aggregating Global Features into Local Vision Transformer Krushi Patel A. Bur Fengju Li Guanghui Wang ViT 25 34 0 30 Jan 2022
The KFIoU Loss for Rotated Object Detection Xue Yang Yue Zhou Gefan Zhang Jitui Yang Wentao Wang Junchi Yan Xiaopeng Zhang Q. Tian 68 163 0 29 Jan 2022
VRT: A Video Restoration Transformer Jingyun Liang Jiezhang Cao Yuchen Fan K. Zhang Rakesh Ranjan Yawei Li Radu Timofte Luc Van Gool ViT 31 251 0 28 Jan 2022
Can Wikipedia Help Offline Reinforcement Learning? Machel Reid Yutaro Yamada S. Gu 3DV RALM OffRL 137 95 0 28 Jan 2022
DynaMixer: A Vision MLP Architecture with Dynamic Mixing Ziyu Wang Wenhao Jiang Yiming Zhu Li Yuan Yibing Song Wei Liu 40 43 0 28 Jan 2022
You Only Cut Once: Boosting Data Augmentation with a Single Cut Junlin Han Pengfei Fang Weihong Li Jie Hong M. Armin Ian Reid L. Petersson Hongdong Li 30 27 0 28 Jan 2022
Joint Liver and Hepatic Lesion Segmentation in MRI using a Hybrid CNN with Transformer Layers Georg Hille Shubham Agrawal Pavan Tummala C. Wybranski M. Pech A. Surov S. Saalfeld ViT MedIm 19 26 0 26 Jan 2022
Dual-Tasks Siamese Transformer Framework for Building Damage Assessment Hongruixuan Chen Edoardo Nemni S. Vallecorsa Xi Li Chen Wu Lars Bromley ViT 31 40 0 26 Jan 2022
DSFormer: A Dual-domain Self-supervised Transformer for Accelerated Multi-contrast MRI Reconstruction Bo Zhou Neel Dey Jo Schlemper S. Salehi Chi Liu James S. Duncan M. Sofka MedIm 30 56 0 26 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 150 361 0 24 Jan 2022
Good Classification Measures and How to Find Them Martijn Gösgens A. Zhiyanov Alexey Tikhonov Liudmila Prokhorenkova 97 30 0 22 Jan 2022
VAQF: Fully Automatic Software-Hardware Co-Design Framework for Low-Bit Vision Transformer Mengshu Sun Haoyu Ma Guoliang Kang Yifan Jiang Tianlong Chen Xiaolong Ma Zhangyang Wang Yanzhi Wang ViT 25 45 0 17 Jan 2022
PETS-SWINF: A regression method that considers images with metadata based Neural Network for pawpularity prediction on 2021 Kaggle Competition "PetFinder.my" Yizheng Wang Yinghua Liu 18 2 0 16 Jan 2022
Video Transformers: A Survey Javier Selva A. S. Johansen Sergio Escalera Kamal Nasrollahi T. Moeslund Albert Clapés ViT 22 103 0 16 Jan 2022
Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet? Nenad Tomašev Ioana Bica Brian McWilliams Lars Buesing Razvan Pascanu Charles Blundell Jovana Mitrović SSL 76 81 0 13 Jan 2022
Technical Report for ICCV 2021 Challenge SSLAD-Track3B: Transformers Are Better Continual Learners Duo Li Guimei Cao Yunlu Xu Zhanzhan Cheng Yi Niu CLL 22 21 0 13 Jan 2022
Trusted Media Challenge Dataset and User Study Weiling Chen Sheng Lun Benjamin Chua Stefan Winkler See-Kiong Ng 21 8 0 13 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 38 238 0 12 Jan 2022
Knee Cartilage Defect Assessment by Graph Representation and Surface Convolution Zixu Zhuang Liping Si Sheng Wang Kai Xuan Xi Ouyang ... Zhong Xue Lichi Zhang D. Shen Weiwu Yao Qian Wang 35 5 0 12 Jan 2022
Multiview Transformers for Video Recognition Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid ViT 26 212 0 12 Jan 2022
A ConvNet for the 2020s Zhuang Liu Hanzi Mao Chaozheng Wu Christoph Feichtenhofer Trevor Darrell Saining Xie ViT 42 4,972 0 10 Jan 2022
QuadTree Attention for Vision Transformers Shitao Tang Jiahui Zhang Siyu Zhu Ping Tan ViT 163 156 0 08 Jan 2022
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images Ali Hatamizadeh V. Nath Yucheng Tang Dong Yang H. Roth Daguang Xu ViT MedIm 17 1,058 0 04 Jan 2022
PyramidTNT: Improved Transformer-in-Transformer Baselines with Pyramid Architecture Kai Han Jianyuan Guo Yehui Tang Yunhe Wang ViT 26 22 0 04 Jan 2022
Language as Queries for Referring Video Object Segmentation Jiannan Wu Yi-Xin Jiang Pei Sun Zehuan Yuan Ping Luo 23 141 0 03 Jan 2022
RFormer: Transformer-based Generative Adversarial Network for Real Fundus Image Restoration on A New Clinical Benchmark Zhuo Deng Yuanhao Cai Lu Chen Zheng Gong Qiqi Bao Xue Yao D. Fang Shaochong Zhang Lan Ma ViT MedIm 30 53 0 03 Jan 2022
Robust Region Feature Synthesizer for Zero-Shot Object Detection Peiliang Huang Junwei Han De-Chun Cheng Dingwen Zhang ObjD 26 39 0 01 Jan 2022
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention Sitong Wu Tianyi Wu Hao Hao Tan G. Guo ViT 25 70 0 28 Dec 2021
Siamese Network with Interactive Transformer for Video Object Segmentation Meng Lan Jing Zhang Fengxiang He Lefei Zhang ViT 21 36 0 28 Dec 2021
Augmenting Convolutional networks with attention-based aggregation Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Piotr Bojanowski Armand Joulin Gabriel Synnaeve Hervé Jégou ViT 35 47 0 27 Dec 2021
Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction Jing Zhang Jianwen Xie Nick Barnes Ping Li ViT 40 90 0 27 Dec 2021
Vision Transformer for Small-Size Datasets Seung Hoon Lee Seunghyun Lee B. Song ViT 10 222 0 27 Dec 2021
Learning Cross-Scale Weighted Prediction for Efficient Neural Video Compression Zongyu Guo Runsen Feng Zhizheng Zhang Xin Jin Zhibo Chen 19 15 0 26 Dec 2021
Raw Produce Quality Detection with Shifted Window Self-Attention Oh Joon Kwon Byungsoo Kim Youngduck Choi ViT 22 0 0 24 Dec 2021
ELSA: Enhanced Local Self-Attention for Vision Transformer Jingkai Zhou Pichao Wang Fan Wang Qiong Liu Hao Li Rong Jin ViT 34 37 0 23 Dec 2021
SeMask: Semantically Masked Transformers for Semantic Segmentation Jitesh Jain Anukriti Singh Nikita Orlov Zilong Huang Jiachen Li Steven Walton Humphrey Shi ViT 29 92 0 23 Dec 2021
iSegFormer: Interactive Segmentation via Transformers with Application to 3D Knee MR Images Qin Liu Zhenlin Xu Yining Jiao Marc Niethammer ViT MedIm 43 37 0 21 Dec 2021
RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality Xiaohan Ding Honghao Chen X. Zhang Jungong Han Guiguang Ding 17 71 0 21 Dec 2021
MPViT: Multi-Path Vision Transformer for Dense Prediction Youngwan Lee Jonghee Kim Jeffrey Willette Sung Ju Hwang ViT 29 244 0 21 Dec 2021
Are Large-scale Datasets Necessary for Self-Supervised Pre-training? Alaaeldin El-Nouby Gautier Izacard Hugo Touvron Ivan Laptev Hervé Jégou Edouard Grave SSL 27 148 0 20 Dec 2021
On Efficient Transformer-Based Image Pre-training for Low-Level Vision Wenbo Li Xin Lu Shengju Qian Jiangbo Lu X. Zhang Jiaya Jia ViT 32 83 0 19 Dec 2021
3D Instance Segmentation of MVS Buildings Jiazhou Chen Yanghui Xu Shufang Lu Ronghua Liang Liangliang Nan ISeg 3DV 21 23 0 18 Dec 2021
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation Wuyang Chen Xianzhi Du Fan Yang Lucas Beyer Xiaohua Zhai ... Huizhong Chen Jing Li Xiaodan Song Zhangyang Wang Denny Zhou ViT 23 20 0 17 Dec 2021
Efficient Visual Tracking with Exemplar Transformers Philippe Blatter Menelaos Kanakis Martin Danelljan Luc Van Gool ViT 21 79 0 17 Dec 2021
Towards End-to-End Image Compression and Analysis with Transformers Yuanchao Bai Xu Yang Xianming Liu Junjun Jiang Yaowei Wang Xiangyang Ji Wen Gao ViT 29 51 0 17 Dec 2021
HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images A. Athar Jonathon Luiten Alexander Hermans Deva Ramanan Bastian Leibe VOS 24 25 0 16 Dec 2021
Ensembling Off-the-shelf Models for GAN Training Nupur Kumari Richard Y. Zhang Eli Shechtman Jun-Yan Zhu 23 86 0 16 Dec 2021
CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic Data Qi Yan Jianhao Zheng Simon Reding Shanci Li I. Doytchinov 38 20 0 16 Dec 2021
Slot-VPS: Object-centric Representation Learning for Video Panoptic Segmentation Yi Zhou Hui Zhang Hana Lee Shuyang Sun Pingjun Li Yangguang Zhu ByungIn Yoo Xiaojuan Qi Jae-Joon Han VOS 27 26 0 16 Dec 2021