v1v2 (latest)

Swin Transformer V2: Scaling Up Capacity and Resolution

18 November 2021

ArXiv (abs)PDF HTML Github (14834★)

Papers citing "Swin Transformer V2: Scaling Up Capacity and Resolution"

50 / 932 papers shown

FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression

390

09 Mar 2025

Dynamic Dictionary Learning for Remote Sensing Image Segmentation

312

09 Mar 2025

Viewport-Unaware Blind Omnidirectional Image Quality Assessment: A Flexible and Effective Paradigm

277

08 Mar 2025

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

...

311

08 Mar 2025

EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images

Rohit Menon

Nils Dengler

Sicong Pan

Gokul Krishna Chenchani

Maren Bennewitz

EDL

464

06 Mar 2025

Computational Analysis of Degradation Modeling in Blind Panoramic Image Quality Assessment

288

05 Mar 2025

Task-Agnostic Attacks Against Vision Foundation Models

230

05 Mar 2025

Adaptive Camera Sensor for Vision ModelsInternational Conference on Learning Representations (ICLR), 2025

418

04 Mar 2025

Enhancing Retinal Vessel Segmentation Generalization via Layout-Aware Generative Modelling

443

03 Mar 2025

SAR-W-MixMAE: SAR Foundation Model Training Using Backscatter Power Weighting

Ali Caglayan

Nevrez Imamoglu

T. Kouyama

432

03 Mar 2025

FLStore: Efficient Federated Learning Storage for non-training workloads

318

01 Mar 2025

Investigating the use of terrain-following coordinates in AI-driven precipitation forecastsGeophysical Research Letters (GRL), 2025

324

01 Mar 2025

Robust and Efficient Writer-Independent IMU-Based Handwriting Recognition

160

28 Feb 2025

Explainable, Multi-modal Wound Infection Classification from Images Augmented with Generated Captions

315

27 Feb 2025

GONet: A Generalizable Deep Learning Model for Glaucoma Detection

...

190

26 Feb 2025

MaxGlaViT: A novel lightweight vision transformer-based approach for early diagnosis of glaucoma stages from fundus images

Mustafa Yurdakul

Kubra Uyar

Şakir Tasdemir

306

24 Feb 2025

MVIP -- A Dataset and Methods for Application Oriented Multi-View and Multi-Modal Industrial Part Recognition

Paul Koch

Marian Schluter

Jörg Krüger

305

24 Feb 2025

MEX: Memory-efficient Approach to Referring Multi-Object TrackingInternational Conference on Autonomic and Trusted Computing (ATC), 2024

382

20 Feb 2025

Precise GPS-Denied UAV Self-Positioning via Context-Enhanced Cross-View Geo-Localization

253

17 Feb 2025

Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization

557

17 Feb 2025

Learning Musical Representations for Music Performance Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

282

10 Feb 2025

Integrating Sequence and Image Modeling in Irregular Medical Time Series Through Self-Supervised LearningAAAI Conference on Artificial Intelligence (AAAI), 2025

308

10 Feb 2025

Amnesia as a Catalyst for Enhancing Black Box Pixel Attacks in Image Classification and Object DetectionNeural Information Processing Systems (NeurIPS), 2025

480

10 Feb 2025

Invizo: Arabic Handwritten Document Optical Character Recognition Solution

363

07 Feb 2025

Addressing Out-of-Label Hazard Detection in Dashcam Videos: Insights from the COOOL Challenge

Anh-Kiet Duong

Petra Gomez-Krämer

387

27 Jan 2025

A margin-based replacement for cross-entropy loss

Michael W. Spratling

Heiko H. Schütt

318

21 Jan 2025

A Survey on Memory-Efficient Transformer-Based Model Training in AI for Science

374

21 Jan 2025

DLEN: Dual Branch of Transformer for Low-Light Image Enhancement in Dual Domains

618

21 Jan 2025

A Remote Sensing Image Change Detection Method Integrating Layer Exchange and Channel-Spatial DifferencesIEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing (IEEE J-STARS), 2025

344

19 Jan 2025

Towards Iris Presentation Attack Detection with Foundation ModelsIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2025

Juan E. Tapia

Lázaro J. González Soler

Christoph Busch

AAML VLM

148

10 Jan 2025

Keypoint Aware Masked Image ModellingIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Madhava Krishna

Convin.AI

454

03 Jan 2025

VMamba: Visual State Space ModelNeural Information Processing Systems (NeurIPS), 2024

1.1K

1,522

31 Dec 2024

Adaptive Dataset QuantizationAAAI Conference on Artificial Intelligence (AAAI), 2024

382

22 Dec 2024

MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection

332

22 Dec 2024

V"Mean"ba: Visual State Space Models only need 1 hidden dimension

253

21 Dec 2024

Safety Monitoring of Machine Learning Perception Functions: a SurveyInternational Conference on Climate Informatics (ICCI), 2024

338

09 Dec 2024

Gesture Classification in Artworks Using Contextual Image Features

298

04 Dec 2024

Noisy Ostracods: A Fine-Grained, Imbalanced Real-World Dataset for Benchmarking Robust Machine Learning and Label Correction MethodsNeural Information Processing Systems (NeurIPS), 2024

332

03 Dec 2024

GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing

650

03 Dec 2024

MeasureNet: Measurement Based Celiac Disease Identification

246

02 Dec 2024

STATIC : Surface Temporal Affine for TIme Consistency in Video Monocular Depth Estimation

546

02 Dec 2024

FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation ModelsComputer Vision and Pattern Recognition (CVPR), 2024

658

27 Nov 2024

Box for Mask and Mask for Box: weak losses for multi-task partially supervised learningBritish Machine Vision Conference (BMVC), 2024

Hoàng-Ân Lê

P. Berg

Minh Pham

299

26 Nov 2024

GeoFormer: A Multi-Polygon Segmentation TransformerBritish Machine Vision Conference (BMVC), 2024

Maxim Khomiakov

Michael Riis Andersen

J. Frellsen

222

25 Nov 2024

Nd-BiMamba2: A Unified Bidirectional Architecture for Multi-Dimensional Data Processing

Hao Liu

Mamba AI4CE

288

22 Nov 2024

ReXrank: A Public Leaderboard for AI-Powered Radiology Report Generation

394

22 Nov 2024

Can Reasons Help Improve Pedestrian Intent Estimation? A Cross-Modal ApproachIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024

304

20 Nov 2024

Emotional Images: Assessing Emotions in Images and Potential Biases in Generative Models

Maneet Mehta

Cody Buntain

EGVM

111

08 Nov 2024

Confidence Calibration of Classifiers with Many ClassesNeural Information Processing Systems (NeurIPS), 2024

333

05 Nov 2024

AM Flow: Adapters for Temporal Processing in Action Recognition

246

04 Nov 2024