v1v2 (latest)

Swin Transformer V2: Scaling Up Capacity and Resolution

18 November 2021

ArXiv (abs)PDF HTML Github (14834★)

Papers citing "Swin Transformer V2: Scaling Up Capacity and Resolution"

50 / 933 papers shown

LieRE: Lie Rotational Positional Encodings

358

14 Jun 2024

368

1,111

13 Jun 2024

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

...

Baining Guo

291

13 Jun 2024

Unveiling Incomplete Modality Brain Tumor Segmentation: Leveraging Masked Predicted Auto-Encoder and Divergence Learning

262

12 Jun 2024

ProTrain: Efficient LLM Training via Memory-Aware Techniques

235

12 Jun 2024

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

391

12 Jun 2024

A Robust Pipeline for Classification and Detection of Bleeding Frames in Wireless Capsule Endoscopy using Swin Transformer and RT-DETR

12 Jun 2024

Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection

Wenxiao Wang

Weiming Zhuang

Lingjuan Lyu

284

11 Jun 2024

ReduceFormer: Attention with Tensor Reduction by Summation

John Yang

Le An

Su Inn Park

166

11 Jun 2024

A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion

515

11 Jun 2024

Multiplane Prior Guided Few-Shot Aerial Scene RenderingComputer Vision and Pattern Recognition (CVPR), 2024

Licheng Jiao

272

07 Jun 2024

Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path PlanningIEEE Access (IEEE Access), 2024

435

07 Jun 2024

PALM: A Efficient Performance Simulator for Tiled Accelerators with Large-scale Model Training

201

06 Jun 2024

OCCAM: Towards Cost-Efficient and Accuracy-Aware Classification Inference

274

06 Jun 2024

LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery

Samuel Scheele

Katherine Picchione

Jeffrey Liu

139

04 Jun 2024

Generative Active Learning for Long-tailed Instance Segmentation

Weian Mao

196

04 Jun 2024

GrootVL: Tree Topology is All You Need in State Space Model

Xiu Li

237

04 Jun 2024

Prototypical Transformer as Unified Motion Learners

...

318

03 Jun 2024

On the Use of Anchoring for Training Vision Models

Jayaraman J. Thiagarajan

337

01 Jun 2024

You Only Need Less Attention at Each Stage in Vision Transformers

293

01 Jun 2024

DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration

218

01 Jun 2024

CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation

M. Rusanovsky

Or Hirschorn

S. Avidan

229

01 Jun 2024

YotoR-You Only Transform One Representation

José Ignacio Díaz Villa

P. Loncomilla

Javier Ruiz-del-Solar

ViT

226

30 May 2024

FocSAM: Delving Deeply into Focused Objects in Segmenting Anything

Liujuan Cao

Rongrong Ji

219

29 May 2024

Wavelet-Based Image Tokenizer for Vision Transformers

Zhenhai Zhu

Radu Soricut

ViT

235

28 May 2024

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

310

28 May 2024

On Fairness of Low-Rank Adaptation of Large Models

210

27 May 2024

Building Vision Models upon Heat Conduction

Yaowei Wang

277

26 May 2024

ModelLock: Locking Your Model With a Spell

Zuxuan Wu

273

25 May 2024

Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification

243

24 May 2024

ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution

243

23 May 2024

Scalable Visual State Space Model with Fractal Scanning

286

23 May 2024

Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space ModelNeural Information Processing Systems (NeurIPS), 2024

292

23 May 2024

Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision TransformersAAAI Conference on Artificial Intelligence (AAAI), 2024

Bum Jun Kim

Sang Woo Kim

ViT

196

23 May 2024

Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference

Ting Liu

Xuyang Liu

Liangtao Shi

Zunnan Xu

Yue Hu

Yi Xin

Quanjun Yin

Bineng Zhong

Donglin Wang

288

23 May 2024

LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate

336

22 May 2024

Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks

Mohit Prabhushankar

Ghassan AlRegib

UQCV

252

22 May 2024

OpenCarbonEval: A Unified Carbon Emission Estimation Framework in Large-Scale AI Models

217

21 May 2024

Feature-based Federated Transfer Learning: Communication Efficiency, Robustness and PrivacyIEEE Transactions on Machine Learning in Communications and Networking (IEEE TMLCN), 2024

Feng Wang

M. C. Gursoy

Senem Velipasalar

252

15 May 2024

Resource Efficient Perception for Vision Systems

M. I. A V Subramanyam

Niyati Singal

Vinay Kumar Verma

305

12 May 2024

Rethinking Efficient and Effective Point-based Networks for Event Camera Classification and Regression: EventMambaIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

593

09 May 2024

Retinexmamba: Retinex-based Mamba for Low-light Image EnhancementInternational Conference on Neural Information Processing (ICONIP), 2024

240

06 May 2024

Multimodal Sense-Informed Prediction of 3D Human MotionsComputer Vision and Pattern Recognition (CVPR), 2024

Xu Tang

228

05 May 2024

U-DiTs: Downsample Tokens in U-Shaped Diffusion TransformersNeural Information Processing Systems (NeurIPS), 2024

259

04 May 2024

Guided Conditional Diffusion Classifier (ConDiff) for Enhanced Prediction of Infection in Diabetic Foot Ulcers

159

01 May 2024

Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction

278

30 Apr 2024

Large Language Model Informed Patent Image Retrieval

240

30 Apr 2024

Swin2-MoSE: A New Single Image Super-Resolution Model for Remote Sensing

191

29 Apr 2024

A Survey on Diffusion Models for Time Series and Spatio-Temporal Data

...

588

29 Apr 2024

HIPer: A Human-Inspired Scene Perception Model for Multifunctional Mobile Robots

215

27 Apr 2024