v1v2 (latest)

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Computer Vision and Pattern Recognition (CVPR), 2022

14 November 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (2496★)

Papers citing "EVA: Exploring the Limits of Masked Visual Representation Learning at Scale"

50 / 579 papers shown

IVGF: The Fusion-Guided Infrared and Visible General Framework

376

02 Sep 2024

AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

Yonghui Wang

Wengang Zhou

Hao Feng

Houqiang Li

VLM

163

30 Aug 2024

HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics

421

30 Aug 2024

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Subhashree Radhakrishnan

...

403

116

28 Aug 2024

A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models

Nasim Yahya Soltani

426

23 Aug 2024

CathAction: A Benchmark for Endovascular Intervention Understanding

Baoru Huang

Tuan Vo

Chayun Kongtongvattana

G. Dagnino

Dennis Kundrat

...

Francisco Vasconcelos

Danail Stoyanov

Daniel Elson

Ferdinando Rodriguez y Baena

Anh Nguyen

195

23 Aug 2024

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive SurveyInformation Fusion (Inf. Fusion), 2024

Ling Huang

Mengling Feng

287

23 Aug 2024

Semantic Alignment for Multimodal Large Language ModelsACM Multimedia (MM), 2024

Tao Wu

Mengze Li

Jingyuan Chen

Kun Kuang

Fei Wu

211

23 Aug 2024

Sapiens: Foundation for Human Vision ModelsEuropean Conference on Computer Vision (ECCV), 2024

Su Zhaoen

442

167

22 Aug 2024

OE3DIS: Open-Ended 3D Point Cloud Instance Segmentation

286

21 Aug 2024

Pedestrian Attribute Recognition: A New Benchmark Dataset and A Large Language Model Augmented FrameworkAAAI Conference on Artificial Intelligence (AAAI), 2024

Xiao Wang

Chenglong Li

175

19 Aug 2024

5%>100%: Breaking Performance Shackles of Full Fine-Tuning on Visual Recognition TasksComputer Vision and Pattern Recognition (CVPR), 2024

392

15 Aug 2024

Masked Image Modeling: A SurveyInternational Journal of Computer Vision (IJCV), 2024

Vlad Hondru

Florinel-Alin Croitoru

Shervin Minaee

Radu Tudor Ionescu

Andrii Zadaianchuk

481

13 Aug 2024

Multi-scale Contrastive Adaptor Learning for Segmenting Anything in Underperformed Scenes

Ke Zhou

Zhongwei Qiu

Dongmei Fu

VLM

196

12 Aug 2024

Efficient Test-Time Prompt Tuning for Vision-Language Models

Chen Xu

Limin Wang

281

11 Aug 2024

Efficient Diffusion Transformer with Step-wise Dynamic Attention MediatorsEuropean Conference on Computer Vision (ECCV), 2024

...

Shiji Song

Gao Huang

Xiu Li

331

11 Aug 2024

UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond ScalingNeural Information Processing Systems (NeurIPS), 2024

283

09 Aug 2024

How Well Can Vision Language Models See Image Details?

Hamid Rezatofighi

236

07 Aug 2024

A Novel Evaluation Framework for Image2Text Generation

237

03 Aug 2024

Multi-Frame Vision-Language Model for Long-form Reasoning in Driver Behavior Analysis

Hidetaka Kamigaito

258

03 Aug 2024

EZSR: Event-based Zero-Shot Recognition

243

31 Jul 2024

SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving

249

31 Jul 2024

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models

Ali Abdollahi

Mahdi Ghaznavi

Mohammad Reza Karimi Nejad

401

30 Jul 2024

UniProcessor: A Text-induced Unified Low-level Image Processor

Xiongkuo Min

Guangtao Zhai

190

30 Jul 2024

Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation

Wei Ji

291

26 Jul 2024

Cost-effective Instruction Learning for Pathology Vision and Language Analysis

...

336

25 Jul 2024

PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects

229

23 Jul 2024

QPT V2: Masked Image Modeling Advances Visual Scoring

236

23 Jul 2024

SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation

481

23 Jul 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

311

22 Jul 2024

End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling

Jianxin Liang

Xiaojun Meng

Yueqian Wang

Chang Liu

Qun Liu

Dongyan Zhao

197

21 Jul 2024

X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

268

18 Jul 2024

MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models

197

17 Jul 2024

NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models

Qi Wu

312

17 Jul 2024

A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification

402

16 Jul 2024

OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Zehan Wang

Ziang Zhang

Hang Zhang

Luping Liu

Rongjie Huang

Xize Cheng

Hengshuang Zhao

Zhou Zhao

299

16 Jul 2024

Refusing Safe Prompts for Multi-modal Large Language Models

218

12 Jul 2024

Textual Query-Driven Mask Transformer for Domain Generalized Segmentation

420

12 Jul 2024

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

339

11 Jul 2024

Bayesian Detector Combination for Object Detection with Crowdsourced Annotations

197

10 Jul 2024

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Xu Jia

240

10 Jul 2024

A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

Xiaoye Qu

Wei Hu

344

10 Jul 2024

VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving

Jinjun Shan

254

09 Jul 2024

AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation

Limin Wang

321

05 Jul 2024

ArAIEval Shared Task: Propagandistic Techniques Detection in Unimodal and Multimodal Arabic Content

220

05 Jul 2024

Precision at Scale: Domain-Specific Datasets On-Demand

Jesús M. Rodríguez-de-Vera

250

03 Jul 2024

FairMedFM: Fairness Benchmarking for Medical Imaging Foundation Models

Qi Dou

S. Kevin Zhou

Xiaoxiao Li

VLM

395

01 Jul 2024

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models

334

28 Jun 2024

Chrono: A Simple Blueprint for Representing Time in MLLMs

588

26 Jun 2024

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

Gregor Geigle

Radu Timofte

Goran Glavaš

217

20 Jun 2024