v1v2 (latest)

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

IEEE International Conference on Computer Vision (ICCV), 2021

25 March 2021

ArXiv (abs)PDF HTML HuggingFace (5 upvotes)Github (14835★)

Papers citing "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows"

50 / 8,519 papers shown

Dual Degradation-Inspired Deep Unfolding Network for Low-Light Image Enhancement

519

03 Jan 2025

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024

...

850

119

03 Jan 2025

Boosting Adversarial Transferability with Spatial Adversarial Alignment

361

02 Jan 2025

STARFormer: A Novel Spatio-Temporal Aggregation Reorganization Transformer of FMRI for Brain Disorder DiagnosisNeural Networks (NN), 2024

282

31 Dec 2024

From Generalist to Specialist: A Survey of Large Language Models for ChemistryInternational Conference on Computational Linguistics (COLING), 2024

268

31 Dec 2024

RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion MambaAAAI Conference on Artificial Intelligence (AAAI), 2024

300

31 Dec 2024

RobustBlack: Challenging Black-Box Adversarial Attacks on State-of-the-Art Defenses

Mohamed Djilani

Salah Ghamizi

Maxime Cordy

415

31 Dec 2024

Unlocking adaptive digital pathology through dynamic feature learning

...

210

31 Dec 2024

Two Heads Are Better Than One: Averaging along Fine-Tuning to Improve Targeted TransferabilityIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

322

31 Dec 2024

VMamba: Visual State Space ModelNeural Information Processing Systems (NeurIPS), 2024

1.1K

1,554

31 Dec 2024

A Contrastive Pretrain Model with Prompt Tuning for Multi-center Medication Recommendation

424

31 Dec 2024

Combating Label Noise With A General Surrogate Model For Sample SelectionInternational Journal of Computer Vision (IJCV), 2023

285

31 Dec 2024

MetricDepth: Enhancing Monocular Depth Estimation with Deep Metric Learning

343

31 Dec 2024

PSDiff: Diffusion Model for Person Search with Iterative and Collaborative Refinement

453

31 Dec 2024

Open-Set Object Detection By Aligning Known Class RepresentationsIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Vineeth N. Balasubramanian

ObjD

208

31 Dec 2024

SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection

533

30 Dec 2024

PTQ4VM: Post-Training Quantization for Visual MambaIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

334

29 Dec 2024

UniRestorer: Universal Image Restoration via Adaptively Estimating Image Degradation at Proper Granularity

618

28 Dec 2024

Towards Visual Grounding: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

985

28 Dec 2024

Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation

180

27 Dec 2024

RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations

Mingshu Zhao

Yi Luo

Yong Ouyang

352

27 Dec 2024

Data-driven tool wear prediction in milling, based on a process-integrated single-sensor approach

Eric Hirsch

Christian Friedrich

428

27 Dec 2024

"I've Heard of You!": Generate Spoken Named Entity Recognition Data for Unseen Entities

...

216

26 Dec 2024

DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images

195

25 Dec 2024

Advancing Deformable Medical Image Registration with Multi-axis Cross-covariance Attention

188

24 Dec 2024

Cross-View Referring Multi-Object TrackingAAAI Conference on Artificial Intelligence (AAAI), 2024

342

23 Dec 2024

Detail-Preserving Latent Diffusion for Stable Shadow RemovalComputer Vision and Pattern Recognition (CVPR), 2024

157

23 Dec 2024

Personalized Large Vision-Language Models

325

23 Dec 2024

SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

180

23 Dec 2024

PointVoxelFormer -- Reviving point cloud networks for 3D medical imaging

Mattias Paul Heinrich

3DPC

250

23 Dec 2024

A Conditional Diffusion Model for Electrical Impedance Tomography Image ReconstructionIEEE Transactions on Instrumentation and Measurement (IEEE Trans. Instrum. Meas.), 2024

294

22 Dec 2024

ImagineMap: Enhanced HD Map Construction with SD Maps

Yishen Ji

Zhiqi Li

Tong Lu

321

22 Dec 2024

Adaptive Dataset QuantizationAAAI Conference on Artificial Intelligence (AAAI), 2024

382

22 Dec 2024

MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection

332

22 Dec 2024

V"Mean"ba: Visual State Space Models only need 1 hidden dimension

254

21 Dec 2024

ImagePiece: Content-aware Re-tokenization for Efficient Image RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2024

219

21 Dec 2024

Sensitive Image Classification by Vision TransformersIEEE International Conference on Systems, Man and Cybernetics (SMC), 2024

323

21 Dec 2024

Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers

841

21 Dec 2024

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

562

21 Dec 2024

Segmentation of arbitrary features in very high resolution remote sensing imagery

Henry Cording

Yves Plancherel

Pablo Brito-Parada

312

20 Dec 2024

Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data

384

19 Dec 2024

TRecViT: A Recurrent Video Transformer

...

177

18 Dec 2024

Evidential Deep Learning for Probabilistic Modelling of Extreme Storm Events

332

18 Dec 2024

InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models

293

18 Dec 2024

Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model

419

18 Dec 2024

Navigating limitations with precision: A fine-grained ensemble approach to wrist pathology recognition on a limited x-ray datasetInternational Conference on Information Photonics (ICIP), 2024

Sher Muhammad Daudpota

322

18 Dec 2024

Distilled Pooling Transformer Encoder for Efficient Realistic Image Dehazing

Le-Anh Tran

Dong-Chul Park

ViT

238

18 Dec 2024

Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation LocalizationAAAI Conference on Artificial Intelligence (AAAI), 2024

289

18 Dec 2024

Robust Tracking via Mamba-based Context-aware Token LearningAAAI Conference on Artificial Intelligence (AAAI), 2024

249

18 Dec 2024

Marigold-DC: Zero-Shot Monocular Depth Completion with Guided Diffusion

773

18 Dec 2024