v1v2 (latest)

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

IEEE International Conference on Computer Vision (ICCV), 2021

25 March 2021

ArXiv (abs)PDF HTML HuggingFace (5 upvotes)Github (14835★)

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 8,669 papers shown

Flemme: A Flexible and Modular Learning Platform for Medical ImagesIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2024

417

10 Apr 2026

Hierarchical Feature Learning for Medical Point Clouds via State Space ModelInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Guoqing Zhang

Jingyun Yang

Yang Li

397

10 Apr 2026

QPT V2: Masked Image Modeling Advances Visual Scoring

285

30 Mar 2026

BeetleFlow: An Integrative Deep Learning Pipeline for Beetle Image Processing

...

100

30 Mar 2026

SSeg: Active Sparse Point-Label Augmentation for Semantic Segmentation

Cesar Borja

Carlos Plou

Ruben Martinez-Cantin

Ana C. Murillo

181

30 Mar 2026

Performance Evaluation of Deep Learning for Tree Branch Segmentation in Autonomous Forestry SystemsImage and Vision Computing New Zealand (IVCNZ), 2025

192

05 Dec 2025

DistillFSS: Synthesizing Few-Shot Knowledge into a Lightweight Segmentation Model

05 Dec 2025

Decoding with Structured Awareness: Integrating Directional, Frequency-Spatial, and Structural Attention for Medical Image Segmentation

119

05 Dec 2025

3D Path Planning for Robot-assisted Vertebroplasty from Arbitrary Bi-plane X-ray via Differentiable Rendering

307

05 Dec 2025

GeoPE:A Unified Geometric Positional Embedding for Structured Tensors

Yupu Yao

Bowen Yang

MDE

348

04 Dec 2025

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution PerspectiveIEEE Transactions on Neural Networks and Learning Systems (IEEE TNNLS), 2025

Bowen Zheng

Ran Cheng

149

04 Dec 2025

Stable Single-Pixel Contrastive Learning for Semantic and Geometric Tasks

362

04 Dec 2025

Self-Supervised Learning for Transparent Object Depth Completion Using Depth from Non-Transparent ObjectsIEEE International Conference on Multimedia and Expo (ICME), 2025

232

04 Dec 2025

Shift-Window Meets Dual Attention: A Multi-Model Architecture for Specular Highlight Removal

143

04 Dec 2025

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object DetectionIEEE Transactions on Geoscience and Remote Sensing (IEEE TGRS), 2025

122

04 Dec 2025

MKSNet: Advanced Small Object Detection in Remote Sensing Imagery with Multi-Kernel and Dual Attention MechanismsConference on Multimedia Modeling (MMM), 2025

Jiahao Zhang

Xiao Zhao

Guangyu Gao

124

03 Dec 2025

HBFormer: A Hybrid-Bridge Transformer for Microtumor and Miniature Organ SegmentationIEEE International Conference on Bioinformatics and Biomedicine (BIBM), 2025

296

03 Dec 2025

Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching

123

03 Dec 2025

DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision

166

03 Dec 2025

Dual Cross-Attention Siamese Transformer for Rectal Tumor Regrowth Assessment in Watch-and-Wait Endoscopy

03 Dec 2025

ESACT: An End-to-End Sparse Accelerator for Compute-Intensive Transformers via Local Similarity

251

02 Dec 2025

GraphFusion3D: Dynamic Graph Attention Convolution with Adaptive Cross-Modal Transformer for 3D Object Detection

Md Sohag Mia

Md Nahid Hasan

Tawhid Ahmed

Muhammad Abdullah Adnan

3DPC ViT

281

02 Dec 2025

Unrolled Networks are Conditional Probability Flows in MRI Reconstruction

359

02 Dec 2025

DF-Mamba: Deformable State Space Modeling for 3D Hand Pose Estimation in Interactions

503

02 Dec 2025

Layout Anything: One Transformer for Universal Room Layout Estimation

Md Sohag Mia

Muhammad Abdullah Adnan

ViT 3DV

185

02 Dec 2025

BEVDilation: LiDAR-Centric Multi-Modal Fusion for 3D Object Detection

122

02 Dec 2025

Boosting Medical Vision-Language Pretraining via Momentum Self-Distillation under Limited Computing Resources

199

02 Dec 2025

FlashVGGT: Efficient and Scalable Visual Geometry Transformers with Compressed Descriptor Attention

Zipeng Wang

Dan Xu

ViT

177

01 Dec 2025

ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark

Nantheera Anantrasirichai

VOS

238

01 Dec 2025

PointNet4D: A Lightweight 4D Point Cloud Video Backbone for Online and Offline Perception in Robotic Applications

223

01 Dec 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

190

01 Dec 2025

ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers

137

01 Dec 2025

Toward Content-based Indexing and Retrieval of Head and Neck CT with Abscess SegmentationInternational Conference on Content-Based Multimedia Indexing (CBMI), 2025

Tan-Cong Nguyen

...

173

01 Dec 2025

nnMobileNet++: Towards Efficient Hybrid Networks for Retinal Image Analysis

194

01 Dec 2025

Robust Rigid and Non-Rigid Medical Image Registration Using Learnable Edge Kernels

174

01 Dec 2025

OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

Songyan Zhang

Wenhui Huang

Zhan Chen

Chua Jiahao Collister

Qihang Huang

Chen Lv

OffRL LRM

283

01 Dec 2025

Data-Centric Visual Development for Self-Driving Labs

222

01 Dec 2025

ViT$^3$: Unlocking Test-Time Training in Vision

ViT

^3

: Unlocking Test-Time Training in Vision

137

01 Dec 2025

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Architectures towards Domain-Specific Strategies

245

01 Dec 2025

Parameter Reduction Improves Vision Transformers: A Comparative Study of Sharing and Width Reduction

Anantha Padmanaban Krishna Kumar

ViT

111

30 Nov 2025

Joint Multi-scale Gated Transformer and Prior-guided Convolutional Network for Learned Image Compression

30 Nov 2025

LAHNet: Local Attentive Hashing Network for Point Cloud Registration

179

30 Nov 2025

OmniFD: A Unified Model for Versatile Face Forgery Detection

359

30 Nov 2025

SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding

Keita Otani

Tatsuya Harada

108

30 Nov 2025

Cross-Domain Federated Semantic Communication with Global Representation Alignment and Domain-Aware Aggregation

221

30 Nov 2025

Silhouette-based Gait Foundation Model

104

30 Nov 2025

HIMOSA: Efficient Remote Sensing Image Super-Resolution with Hierarchical Mixture of Sparse Attention

149

29 Nov 2025

Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation

290

29 Nov 2025

Structured Context Learning for Generic Event Boundary Detection

125

29 Nov 2025

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

280

28 Nov 2025