v1v2 (latest)

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

IEEE International Conference on Computer Vision (ICCV), 2021

25 March 2021

ArXiv (abs)PDF HTML HuggingFace (5 upvotes)Github (14835★)

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 8,524 papers shown

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution PerspectiveIEEE Transactions on Neural Networks and Learning Systems (IEEE TNNLS), 2025

Bowen Zheng

Ran Cheng

106

04 Dec 2025

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object DetectionIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

04 Dec 2025

Self-Supervised Learning for Transparent Object Depth Completion Using Depth from Non-Transparent ObjectsIEEE International Conference on Multimedia and Expo (ICME), 2025

109

04 Dec 2025

GeoPE:A Unified Geometric Positional Embedding for Structured Tensors

Yupu Yao

Bowen Yang

MDE

294

04 Dec 2025

Shift-Window Meets Dual Attention: A Multi-Model Architecture for Specular Highlight Removal

04 Dec 2025

Stable Single-Pixel Contrastive Learning for Semantic and Geometric Tasks

281

04 Dec 2025

HBFormer: A Hybrid-Bridge Transformer for Microtumor and Miniature Organ Segmentation

264

03 Dec 2025

Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching

03 Dec 2025

MKSNet: Advanced Small Object Detection in Remote Sensing Imagery with Multi-Kernel and Dual Attention MechanismsConference on Multimedia Modeling (MMM), 2025

Jiahao Zhang

Xiao Zhao

Guangyu Gao

03 Dec 2025

Dual Cross-Attention Siamese Transformer for Rectal Tumor Regrowth Assessment in Watch-and-Wait Endoscopy

03 Dec 2025

DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision

104

03 Dec 2025

ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity

162

02 Dec 2025

BEVDilation: LiDAR-Centric Multi-Modal Fusion for 3D Object Detection

02 Dec 2025

Layout Anything: One Transformer for Universal Room Layout Estimation

Md Sohag Mia

Muhammad Abdullah Adnan

ViT 3DV

132

02 Dec 2025

Unrolled Networks are Conditional Probability Flows in MRI Reconstruction

271

02 Dec 2025

DF-Mamba: Deformable State Space Modeling for 3D Hand Pose Estimation in Interactions

445

02 Dec 2025

GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection

Md Sohag Mia

Md Nahid Hasan

Tawhid Ahmed

Muhammad Abdullah Adnan

3DPC ViT

216

02 Dec 2025

Boosting Medical Vision-Language Pretraining via Momentum Self-Distillation under Limited Computing Resources

170

02 Dec 2025

Data-Centric Visual Development for Self-Driving Labs

139

01 Dec 2025

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

100

01 Dec 2025

OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

Songyan Zhang

Wenhui Huang

Zhan Chen

Chua Jiahao Collister

Qihang Huang

Chen Lv

OffRL LRM

217

01 Dec 2025

ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark

Nantheera Anantrasirichai

166

01 Dec 2025

Robust Rigid and Non-Rigid Medical Image Registration Using Learnable Edge Kernels

129

01 Dec 2025

Toward Content-based Indexing and Retrieval of Head and Neck CT with Abscess Segmentation

Tan-Cong Nguyen

...

112

01 Dec 2025

PointNet4D: A Lightweight 4D Point Cloud Video Backbone for Online and Offline Perception in Robotic Applications

153

01 Dec 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

136

01 Dec 2025

nnMobileNet++: Towards Efficient Hybrid Networks for Retinal Image Analysis

157

01 Dec 2025

ViT$^3$: Unlocking Test-Time Training in Vision

ViT

^3

: Unlocking Test-Time Training in Vision

01 Dec 2025

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Architectures towards Domain-Specific Strategies

196

01 Dec 2025

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

Zipeng Wang

Dan Xu

ViT

121

01 Dec 2025

Joint Multi-scale Gated Transformer and Prior-guided Convolutional Network for Learned Image Compression

30 Nov 2025

LAHNet: Local Attentive Hashing Network for Point Cloud Registration

132

30 Nov 2025

OmniFD: A Unified Model for Versatile Face Forgery Detection

322

30 Nov 2025

Parameter Reduction Improves Vision Transformers: A Comparative Study of Sharing and Width Reduction

Anantha Padmanaban Krishna Kumar

ViT

30 Nov 2025

SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding

Keita Otani

Tatsuya Harada

30 Nov 2025

Cross-Domain Federated Semantic Communication with Global Representation Alignment and Domain-Aware Aggregation

166

30 Nov 2025

Silhouette-based Gait Foundation Model

30 Nov 2025

Structured Context Learning for Generic Event Boundary Detection

29 Nov 2025

HIMOSA: Efficient Remote Sensing Image Super-Resolution with Hierarchical Mixture of Sparse Attention

29 Nov 2025

Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation

237

29 Nov 2025

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

224

28 Nov 2025

Learning to Predict Aboveground Biomass from RGB Images with 3D Synthetic Scenes

Silvia Zuffi

123

28 Nov 2025

TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantization For Dummies

192

28 Nov 2025

Transformer-Driven Triple Fusion Framework for Enhanced Multimodal Author Intent Classification in Low-Resource Bangla

181

28 Nov 2025

Stable-Drift: A Patient-Aware Latent Drift Replay Method for Stabilizing Representations in Continual Learning

314

27 Nov 2025

UMind-VL: A Generalist Ultrasound Vision-Language Model for Unified Grounded Perception and Comprehensive Interpretation

...

125

27 Nov 2025

Small Object Detection for Birds with Swin Transformer

154

27 Nov 2025

IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer

100

27 Nov 2025

Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressing the Over-Segmentation Paradox in Deep Attention Networks

Rowzatul Zannath Prerona

101

27 Nov 2025

Rethinking Cross-Generator Image Forgery Detection through DINOv3

27 Nov 2025