v1v2 (latest)

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Computer Vision and Pattern Recognition (CVPR), 2022

14 November 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (2496★)

Papers citing "EVA: Exploring the Limits of Masked Visual Representation Learning at Scale"

50 / 579 papers shown

Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models

368

25 Nov 2024

LibraGrad: Balancing Gradient Flow for Universally Better Vision Transformer AttributionsComputer Vision and Pattern Recognition (CVPR), 2024

Faridoun Mehri

Mahdieh Soleymani Baghshah

Mohammad Taher Pilehvar

296

24 Nov 2024

ReWind: Understanding Long Videos with Instructed Learnable MemoryComputer Vision and Pattern Recognition (CVPR), 2024

384

23 Nov 2024

Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention LensComputer Vision and Pattern Recognition (CVPR), 2024

531

23 Nov 2024

Chanel-Orderer: A Channel-Ordering Predictor for Tri-Channel Natural Images

350

20 Nov 2024

Generative Timelines for Instructed Visual Assembly

283

19 Nov 2024

CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation

666

15 Nov 2024

Classification Done Right for Vision-Language Pre-TrainingNeural Information Processing Systems (NeurIPS), 2024

419

05 Nov 2024

UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models

344

03 Nov 2024

Tracking one-in-a-million: Large-scale benchmark for microbial single-cell tracking with experiment-aware robustness metrics

A. J. Yamachui Sitcheu

221

01 Nov 2024

Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual GroundingIEEE International Symposium on Biomedical Imaging (ISBI), 2024

234

31 Oct 2024

Multilingual Vision-Language Pre-training for the Remote Sensing Domain

239

30 Oct 2024

Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

Chang Huang

311

29 Oct 2024

Your Image is Secretly the Last Frame of a Pseudo Video

379

26 Oct 2024

AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024

458

23 Oct 2024

PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context

253

23 Oct 2024

Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged AnnotationsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

278

22 Oct 2024

Zero-Shot Scene Reconstruction from Single Images with Deep Prior AssemblyNeural Information Processing Systems (NeurIPS), 2024

Junsheng Zhou

Yu-Shen Liu

Zhizhong Han

ViT

293

21 Oct 2024

TIPS: Text-Image Pretraining with Spatial awarenessInternational Conference on Learning Representations (ICLR), 2024

Kevis-Kokitsi Maninis

...

Mojtaba Seyedhosseini

Howard Zhou

Andre Araujo

VLM

443

21 Oct 2024

A Survey of Hallucination in Large Visual Language Models

Qingfeng Chen

316

20 Oct 2024

RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-trainingIEEE transactions on multimedia (IEEE TMM), 2024

Muhe Ding

Liqiang Nie

249

18 Oct 2024

ViCToR: Improving Visual Comprehension via Token Reconstruction for Pretraining LMMs

363

18 Oct 2024

Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond

Jiayi Ma

222

16 Oct 2024

VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models

181

15 Oct 2024

Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models

158

15 Oct 2024

Browsing without Third-Party Cookies: What Do You See?ACM/SIGCOMM Internet Measurement Conference (IMC), 2024

496

14 Oct 2024

Locality Alignment Improves Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

592

14 Oct 2024

Large-Scale 3D Medical Image Pre-training with Geometric Context Priors

Linshan Wu

Jiaxin Zhuang

Hao Chen

222

13 Oct 2024

Large Model for Small Data: Foundation Model for Cross-Modal RF Human Activity RecognitionACM International Conference on Embedded Networked Sensor Systems (SenSys), 2024

265

13 Oct 2024

Conjugated Semantic Pool Improves OOD Detection with Pre-trained Vision-Language ModelsNeural Information Processing Systems (NeurIPS), 2024

332

11 Oct 2024

OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring ModelingNeural Information Processing Systems (NeurIPS), 2024

Fang Peng

440

10 Oct 2024

SPA: 3D Spatial-Awareness Enables Effective Embodied RepresentationInternational Conference on Learning Representations (ICLR), 2024

Haoyi Zhu

Honghui Yang

Yating Wang

Jiange Yang

Limin Wang

Tong He

3DH

384

10 Oct 2024

Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language ModelsACM Multimedia (MM), 2024

Haoyu Cao

155

09 Oct 2024

From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models

818

09 Oct 2024

Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

Chenliang Xu

256

08 Oct 2024

AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Jiaming Zhang

Junhong Ye

Xingjun Ma

Yige Li

311

07 Oct 2024

From Pixels to Tokens: Byte-Pair Encoding on Quantized Visual ModalitiesInternational Conference on Learning Representations (ICLR), 2024

359

03 Oct 2024

UlcerGPT: A Multimodal Approach Leveraging Large Language and Vision Models for Diabetic Foot Ulcer Image TranscriptionInternational Conference on Pattern Recognition (ICPR), 2024

Reza Basiri

Ali Abedi

Chau Nguyen

Milos R. Popovic

Shehroz S. Khan

LM&MA MedIm

02 Oct 2024

EMMA: Efficient Visual Alignment in Multi-Modal LLMs

Sara Ghazanfari

Alexandre Araujo

Prashanth Krishnamurthy

Siddharth Garg

Farshad Khorrami

VLM

303

02 Oct 2024

HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty DecodingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

162

30 Sep 2024

E.T. Bench: Towards Open-Ended Event-Level Video-Language UnderstandingNeural Information Processing Systems (NeurIPS), 2024

Ye Liu

Zongyang Ma

Chen Ma

Yang Wu

Ying Shan

Chang Wen Chen

273

26 Sep 2024

VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models

258

23 Sep 2024

Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization

Minyi Zhao

Jiyuan Zhang

Shuigeng Zhou

319

22 Sep 2024

NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training

340

15 Sep 2024

Enhancing Long Video Understanding via Hierarchical Event-Based Memory

Jingyu Liu

Xi Chen

272

10 Sep 2024

Revisiting Prompt Pretraining of Vision-Language Models

Zhaowei Chen

Xiang Li

364

10 Sep 2024

Seeing Through the Mask: Rethinking Adversarial Examples for CAPTCHAs

Roger Wattenhofer

195

09 Sep 2024

Top-GAP: Integrating Size Priors in CNNs for more Interpretability, Robustness, and Bias Mitigation

Lars Nieradzik

Henrike Stephani

Janis Keuper

FAtt AAML

256

07 Sep 2024

Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding AlignmentSimilarity Search and Applications (SISAP), 2024

292

03 Sep 2024

Understanding Multimodal Hallucination with Parameter-Free Representation Alignment

Yueqian Wang

Jianxin Liang

Yuxuan Wang

Huishuai Zhang

Dongyan Zhao

240

02 Sep 2024