Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

25 March 2021

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 2,059 papers shown

Title
MSI: Maximize Support-Set Information for Few-Shot Segmentation Seonghyeon Moon Samuel S. Sohn Honglu Zhou Sejong Yoon Vladimir Pavlovic Muhammad Haris Khan Mubbasir Kapadia 19 17 0 09 Dec 2022
A Computer Vision Method for Estimating Velocity from Jumps Soumyadip Roy Chaitanya Roygaga Nathaniel Blanchard Aparna Bharati 11 0 0 09 Dec 2022
MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction Shuliang Ning Mengcheng Lan Yanran Li Chaofeng Chen Qian Chen Xunlai Chen Xiaoguang Han Shuguang Cui 25 20 0 09 Dec 2022
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation Abdelrahman M. Shaker Muhammad Maaz H. Rasheed Salman Khan Ming Yang F. Khan MedIm 24 128 0 08 Dec 2022
Progressive Multi-resolution Loss for Crowd Counting Ziheng Yan Yuankai Qi Guorong Li Xinyan Liu Weigang Zhang Qingming Huang Ming-Hsuan Yang 26 10 0 08 Dec 2022
GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds Honghui Yang Tong He Jiaheng Liu Huaguan Chen Boxi Wu Binbin Lin Xiaofei He Wanli Ouyang 36 58 0 06 Dec 2022
Video Object of Interest Segmentation Siyuan Zhou Chunru Zhan Biao Wang T. Ge Yuning Jiang Li Niu VOS 18 0 0 06 Dec 2022
Event-based Monocular Dense Depth Estimation with Recurrent Transformers Xu Liu Jianing Li Xiaopeng Fan Yonghong Tian ViT MDE 59 16 0 06 Dec 2022
Vision Transformer Computation and Resilience for Dynamic Inference Kavya Sreedhar Jason Clemons Rangharajan Venkatesan S. Keckler M. Horowitz 21 2 0 06 Dec 2022
Images Speak in Images: A Generalist Painter for In-Context Visual Learning Xinlong Wang Wen Wang Yue Cao Chunhua Shen Tiejun Huang VLM MLLM 45 244 0 05 Dec 2022
CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection Xi Zhao Wei Feng Zheng Zhang Jing Lv Xin Zhu Zhangang Lin Jin Hu Jingping Shao 25 5 0 05 Dec 2022
Day2Dark: Pseudo-Supervised Activity Recognition beyond Silent Daylight Yunhua Zhang Hazel Doughty Cees G. M. Snoek VLM 31 0 0 05 Dec 2022
Learning Imbalanced Data with Vision Transformers Zhengzhuo Xu R. Liu Shuo Yang Zenghao Chai Chun Yuan 19 31 0 05 Dec 2022
Box2Mask: Box-supervised Instance Segmentation via Level-set Evolution Wentong Li Wenyu Liu Jianke Zhu Miaomiao Cui Risheng Yu Xia Hua Lei Zhang ISeg 24 30 0 03 Dec 2022
Learning Disentangled Label Representations for Multi-label Classification Jian Jia Fei He Naiyu Gao Xiaotang Chen Kaiqi Huang 24 2 0 02 Dec 2022
BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks Xiaowei Chi Jiaming Liu Ming Lu Rongyu Zhang Zhaoqing Wang Yandong Guo Shanghang Zhang 3DPC 38 18 0 02 Dec 2022
Masked Contrastive Pre-Training for Efficient Video-Text Retrieval Fangxun Shu Biaolong Chen Yue Liao Shuwen Xiao Wenyu Sun Xiaobo Li Yousong Zhu Jinqiao Wang Si Liu CLIP 25 11 0 02 Dec 2022
Ghost-free High Dynamic Range Imaging via Hybrid CNN-Transformer and Structure Tensor Yu Yuan Jiaqi Wu Zhongliang Jing H. Leung Han Pan ViT 9 0 0 01 Dec 2022
Reliable Joint Segmentation of Retinal Edema Lesions in OCT Images Meng Wang Kai-An Yu Chun-Mei Feng K. Zou Yanyu Xu Qingquan Meng Rick Siow Mong Goh Yong Liu H. Fu MedIm 14 3 0 01 Dec 2022
Concealed Object Detection for Passive Millimeter-Wave Security Imaging Based on Task-Aligned Detection Transformer Cheng Guo Fei-hu Hu Yan Hu ViT 13 15 0 01 Dec 2022
Rethinking Causality-driven Robot Tool Segmentation with Temporal Constraints Hao Ding J. Wu Zhaoshuo Li Mathias Unberath CML 25 10 0 30 Nov 2022
Part-based Face Recognition with Vision Transformers Zhonglin Sun Georgios Tzimiropoulos ViT 15 14 0 30 Nov 2022
Rethinking Out-of-Distribution Detection From a Human-Centric Perspective Yao Zhu YueFeng Chen Xiaodan Li Rong Zhang Hui Xue Xiang Tian Rongxin Jiang Bo Zheng Yao-wu Chen OODD 19 7 0 30 Nov 2022
Hierarchical Transformer for Survival Prediction Using Multimodality Whole Slide Images and Genomics Chunyuan Li Xinliang Zhu Jiawen Yao Junzhou Huang MedIm 24 11 0 29 Nov 2022
Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing Nataniel Ruiz Sarah Adel Bargal Cihang Xie Kate Saenko Stan Sclaroff ViT 21 5 0 29 Nov 2022
Lightweight Structure-Aware Attention for Visual Understanding Heeseung Kwon F. M. Castro M. Marín-Jiménez N. Guil Alahari Karteek 21 2 0 29 Nov 2022
QuadFormer: Quadruple Transformer for Unsupervised Domain Adaptation in Power Line Segmentation of Aerial Images P. Rao Feng Qiao Weide Zhang Yiliang Xu Yong Deng Guangbin Wu Qiang Zhang 24 8 0 29 Nov 2022
LUMix: Improving Mixup by Better Modelling Label Uncertainty Shuyang Sun Jieneng Chen Ruifei He Alan Yuille Philip H. S. Torr Song Bai UQCV NoLa 8 5 0 29 Nov 2022
Superpoint Transformer for 3D Scene Instance Segmentation Jiahao Sun Chunmei Qing Junpeng Tan Xiangmin Xu 3DPC 34 103 0 28 Nov 2022
Perceive, Ground, Reason, and Act: A Benchmark for General-purpose Visual Representation Jiangyong Huang William Zhu Baoxiong Jia Zan Wang Xiaojian Ma Qing Li Siyuan Huang 29 5 0 28 Nov 2022
Prototype as Query for Few Shot Semantic Segmentation Leilei Cao Yibo Guo Ye Yuan Qiangguo Jin ViT 20 10 0 27 Nov 2022
Dynamic Feature Pruning and Consolidation for Occluded Person Re-Identification Yuteng Ye Hang Zhou Jiale Cai Chenxing Gao Youjia Zhang Junle Wang Qiang Hu Junqing Yu Wei Yang 23 5 0 27 Nov 2022
Semantic-Aware Local-Global Vision Transformer Jiatong Zhang Zengwei Yao Fanglin Chen Guangming Lu Wenjie Pei ViT 13 0 0 27 Nov 2022
Exploring Consistency in Cross-Domain Transformer for Domain Adaptive Semantic Segmentation Kaihong Wang Donghyun Kim Regerio Feris Kate Saenko Margrit Betke ViT 20 4 0 27 Nov 2022
CMC v2: Towards More Accurate COVID-19 Detection with Discriminative Video Priors Junlin Hou Jilan Xu Nan Zhang Yi Wang Yuejie Zhang X. Zhang Rui Feng 16 2 0 26 Nov 2022
Meta Architecture for Point Cloud Analysis Haojia Lin Xiawu Zheng Lijiang Li Fei Chao Sha Wang Yan Wang Yonghong Tian Rongrong Ji 3DPC 25 45 0 26 Nov 2022
CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion Zixiang Zhao Hao Bai Jiangshe Zhang Yulun Zhang Shuang Xu Zudi Lin Radu Timofte Luc Van Gool 29 308 0 26 Nov 2022
Degenerate Swin to Win: Plain Window-based Transformer without Sophisticated Operations Tan Yu Ping Li ViT 36 5 0 25 Nov 2022
Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism Xupeng Miao Yujie Wang Youhe Jiang Chunan Shi Xiaonan Nie Hailin Zhang Bin Cui GNN MoE 19 60 0 25 Nov 2022
Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimation Seungcheol Park Young-Su Moon N. Cho 17 32 0 24 Nov 2022
Collaborative Training of Medical Artificial Intelligence Models with non-uniform Labels Soroosh Tayebi Arasteh P. Isfort Marwin Saehn Gustav Mueller-Franzes Firas Khader Jakob Nikolas Kather Christiane Kuhl S. Nebelung Daniel Truhn FedML 9 15 0 24 Nov 2022
Video Test-Time Adaptation for Action Recognition Wei Lin M. Jehanzeb Mirza Mateusz Koziñski Horst Possegger Hilde Kuehne Horst Bischof TTA 37 31 0 24 Nov 2022
1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results Benjamin Kiefer Matej Kristan Janez Pervs Lojze vZust Fabio Poiesi ... Chih-Chung Hsu X. Hou Yu-An Jhang Simon X. Yang Mau-Tsuen Yang 31 21 0 24 Nov 2022
Spatial Mixture-of-Experts Nikoli Dryden Torsten Hoefler MoE 24 9 0 24 Nov 2022
SVFormer: Semi-supervised Video Transformer for Action Recognition Zhen Xing Qi Dai Hang-Rui Hu Jingjing Chen Zuxuan Wu Yu-Gang Jiang ViT 22 68 0 23 Nov 2022
Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation Siddharth Agrawal Keyur D. Joshi 9 4 0 23 Nov 2022
Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket Nianhui Guo Joseph Bethge Christoph Meinel Haojin Yang MQ 24 19 0 23 Nov 2022
GhostNetV2: Enhance Cheap Operation with Long-Range Attention Yehui Tang Kai Han Jianyuan Guo Chang Xu Chaoting Xu Yunhe Wang 11 270 0 23 Nov 2022
RNTrajRec: Road Network Enhanced Trajectory Recovery with Spatial-Temporal Transformer Yuqi Chen Hanyuan Zhang Weiwei Sun B. Zheng 25 37 0 23 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 30 37 0 23 Nov 2022