v1v2v3 (latest)

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

31 May 2024

ArXiv (abs)PDF HTML HuggingFace (25 upvotes)

Papers citing "Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis"

50 / 550 papers shown

FindingDory: A Benchmark to Evaluate Memory in Embodied Agents

258

18 Jun 2025

video-SALMONN 2: Caption-Enhanced Audio-Visual Large Language Models

384

18 Jun 2025

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

264

16 Jun 2025

AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding

371

16 Jun 2025

MambaMia: A State-Space-Model-Based Compression for Efficient Video Understanding in Large Multimodal Models

Geewook Kim

Minjoon Seo

239

16 Jun 2025

SmartHome-Bench: A Comprehensive Benchmark for Video Anomaly Detection in Smart Homes Using Multi-Modal Large Language Models

192

15 Jun 2025

Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding

...

364

14 Jun 2025

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

...

458

12 Jun 2025

Beyond Attention or Similarity: Maximizing Conditional Diversity for Token Pruning in MLLMs

399

12 Jun 2025

Think With Videos For Agentic Long-Video Understanding

539

12 Jun 2025

Vision Generalist Model: A SurveyInternational Journal of Computer Vision (IJCV), 2025

...

293

11 Jun 2025

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

358

09 Jun 2025

ARGUS: Hallucination and Omission Evaluation in Video-LLMs

280

09 Jun 2025

MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks

361

08 Jun 2025

A Culturally-diverse Multilingual Multimodal Video Benchmark & Model

Bhuiyan Sanjid Shafique

...

316

08 Jun 2025

Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images

259

08 Jun 2025

How Important are Videos for Training Video LLMs?

164

07 Jun 2025

CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval

227

06 Jun 2025

ExAct: A Video-Language Benchmark for Expert Action Analysis

Oluwatumininu Oguntola

Gedas Bertasius

201

06 Jun 2025

VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos

H. Rasheed

Abdelrahman M. Shaker

498

05 Jun 2025

APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval

334

05 Jun 2025

MMR-V: What's Left Unsaid? A Benchmark for Multimodal Deep Reasoning in Videos

210

04 Jun 2025

MiMo-VL Technical Report

...

255

04 Jun 2025

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

331

03 Jun 2025

VideoCap-R1: Enhancing MLLMs for Video Captioning via Structured Thinking

...

270

02 Jun 2025

Is Extending Modality The Right Path Towards Omni-Modality?

281

02 Jun 2025

NavBench: Probing Multimodal Large Language Models for Embodied Navigation

250

01 Jun 2025

Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

244

01 Jun 2025

FlexSelect: Flexible Token Selection for Efficient Long Video Understanding

231

01 Jun 2025

Deep Temporal Reasoning in Video Language Models: A Cross-Linguistic Evaluation of Action Duration and Completion through Perfect TimesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

Olga Loginova

Sofía Ortega Loguinova

LRM

160

01 Jun 2025

Vid2Coach: Transforming How-To Videos into Task AssistantsACM Symposium on User Interface Software and Technology (UIST), 2025

246

31 May 2025

Chain-of-Frames: Advancing Video Understanding in Multimodal LLMs via Frame-Aware Reasoning

Sara Ghazanfari

Francesco Croce

Nicolas Flammarion

Prashanth Krishnamurthy

Farshad Khorrami

S. Garg

LRM

189

31 May 2025

DisTime: Distribution-based Time Representation for Video Large Language Models

254

30 May 2025

Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors

383

30 May 2025

SiLVR: A Simple Language-based Video Reasoning Framework

188

30 May 2025

Reinforcing Video Reasoning with Focused Thinking

340

30 May 2025

VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

275

29 May 2025

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

264

29 May 2025

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

378

29 May 2025

VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation

275

29 May 2025

VidText: Towards Comprehensive Evaluation for Video Text Understanding

...

350

28 May 2025

Fostering Video Reasoning via Next-Event Prediction

206

28 May 2025

HoliTom: Holistic Token Merging for Fast Video Large Language Models

648

27 May 2025

AdaTP: Attention-Debiased Token Pruning for Video Large Language Models

200

26 May 2025

TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

292

26 May 2025

Two Causally Related Needles in a Video Haystack

301

26 May 2025

VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization

398

25 May 2025

RTime-QA: A Benchmark for Atomic Temporal Event Understanding in Large Multi-modal Models

397

25 May 2025

Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

232

25 May 2025

ToDRE: Effective Visual Token Pruning via Token Diversity and Task Relevance

494

24 May 2025