v1v2 (latest)

A Survey of Multimodal Large Language Model from A Data-centric Perspective

26 May 2024

Conghui He

ArXiv (abs)PDF HTML Github

Papers citing "A Survey of Multimodal Large Language Model from A Data-centric Perspective"

41 / 41 papers shown

VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction

236

24 Nov 2025

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models

525

17 Nov 2025

An item is worth one token in Multimodal Large Language Models-based Sequential Recommendation

316

08 Nov 2025

Agentic AI Security: Threats, Defenses, Evaluation, and Open Challenges

444

27 Oct 2025

Res-Bench: Benchmarking the Robustness of Multimodal Large Language Models to Dynamic Resolution Input

273

19 Oct 2025

Towards Multimodal Active Learning: Efficient Learning with Limited Paired Data

Jiancheng Zhang

Yinglun Zhu

232

25 Sep 2025

TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

199

25 Aug 2025

SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

241

02 Jun 2025

ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

Bozhou Li

Wentao Zhang

VLM

212

27 May 2025

Flex-Judge: Text-Only Reasoning Unleashes Zero-Shot Multimodal Evaluators

644

24 May 2025

Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning

573

23 May 2025

Multimodal Agricultural Agent Architecture (MA3): A New Paradigm for Intelligent Agricultural Decision-Making

419

07 Apr 2025

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

323

28 Mar 2025

Do Multimodal Large Language Models Understand Welding?Information Fusion (Inf. Fusion), 2025

330

18 Mar 2025

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

550

13 Mar 2025

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual ContextsComputer Vision and Pattern Recognition (CVPR), 2025

638

28 Feb 2025

MathClean: A Benchmark for Synthetic Mathematical Data Cleaning

310

26 Feb 2025

MaZO: Masked Zeroth-Order Optimization for Multi-Task Fine-Tuning of Large Language Models

Athanasios Mouchtaris

Siegfried Kunzmann

Zheng Zhang

505

17 Feb 2025

Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning

636

05 Feb 2025

A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future

476

18 Dec 2024

MC-LLaVA: Multi-Concept Personalized Vision-Language Model

...

Shanghang Zhang

Wentao Zhang

805

18 Nov 2024

EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation

Hao Liang

Zirong Chen

Feiyu Xiong

Wentao Zhang

397

11 Nov 2024

Sample then Identify: A General Framework for Risk Control and Assessment in Multimodal Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024

595

10 Oct 2024

Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models

Bozhou Li

Hao Liang

Yang Li

Fangcheng Fu

Hongzhi Yin

Conghui He

Wentao Zhang

KELM CLL

239

08 Oct 2024

Recent Advances in Speech Language Models: A SurveyAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

717

01 Oct 2024

Data Proportion Detection for Optimized Data Management for Large Language Models

Hao Liang

Keshi Zhao

Yajie Yang

Bin Cui

Guosheng Dong

Wentao Zhang

211

26 Sep 2024

Surveying the MLLM Landscape: A Meta-Review of Current Surveys

Ming Li

Keyu Chen

Ziqian Bi

Ming Liu

Xinyuan Song

...

Jinlang Wang

Sen Zhang

Xuanhe Pan

Jiawei Xu

Pohsun Feng

OffRL

322

17 Sep 2024

Advancing Cyber Incident Timeline Analysis Through Rule Based AI and Large Language ModelsDe Computis (DC), 2024

Fatma Yasmine Loumachi

Mohamed Chahine Ghanem

AI4CE

538

04 Sep 2024

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

394

14 Aug 2024

Are Bigger Encoders Always Better in Vision Large Models?

Wentao Zhang

319

01 Aug 2024

Synth-Empathy: Towards High-Quality Synthetic Empathy Data

Hao Liang

Linzhuang Sun

Jingxuan Wei

Xijie Huang

Linkun Sun

Bihui Yu

Conghui He

Wentao Zhang

SyDa

296

31 Jul 2024

SynthVLM: Towards High-Quality and Efficient Synthesis of Image-Caption Datasets for Vision-Language Models

575

30 Jul 2024

Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development

363

16 Jul 2024

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Bolin Ding

Yaliang Li

Shuiguang Deng

394

11 Jul 2024

PAS: Data-Efficient Plug-and-Play Prompt Augmentation System

...

Bin Cui

Wentao Zhang

Guosheng Dong

RALM

337

08 Jul 2024

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

...

Chelsea Finn

Huaxiu Yao

EGVM MLLM

400

05 Jul 2024

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

Hao Liang

Jiapeng Li

Conghui He

Bin Cui

Chong Chen

Wentao Zhang

VGen

388

03 Jul 2024

Efficient-Empathy: Towards Efficient and Effective Selection of Empathy Data

Hao Liang

Bin Cui

Wentao Zhang

224

02 Jul 2024

RegMix: Data Mixture as Regression for Language Model Pre-training

Qian Liu

Niklas Muennighoff

481

113

01 Jul 2024

Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance

Jiasheng Ye

Peiju Liu

Tianxiang Sun

Yunhua Zhou

Jun Zhan

Xipeng Qiu

511

127

25 Mar 2024

Valley: Video Assistant with Large Language model Enhanced abilitY

703

260

12 Jun 2023