Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2407.15838
Cited By

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with
Extensive Diversity

v1v2 (latest)

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

22 July 2024

Yu Qiao

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (52★)

Papers citing "MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity"

30 / 30 papers shown

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

121

0

0

25 Nov 2025

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

129

0

0

04 Nov 2025

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Suresh Damodaran

135

9

0

07 Oct 2025

PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models

PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models

142

0

0

14 Sep 2025

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning

Jianghangfan Zhang

274

4

0

06 Aug 2025

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

279

2

0

14 Jun 2025

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

...

203

19

0

30 May 2025

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

478

1

0

20 May 2025

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

352

1

0

13 May 2025

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

...

381

11

0

14 Apr 2025

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?Computer Vision and Pattern Recognition (CVPR), 2025

369

5

0

14 Apr 2025

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

385

2

0

10 Apr 2025

MM-IFEngine: Towards Multimodal Instruction Following

MM-IFEngine: Towards Multimodal Instruction Following

520

19

0

10 Apr 2025

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models

302

1

0

10 Apr 2025

OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance

OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance

257

0

0

07 Apr 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

345

8

0

17 Mar 2025

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Lawrence Yunliang Chen

...

346

87

0

13 Mar 2025

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

196

0

0

12 Mar 2025

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

464

6

0

11 Mar 2025

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

460

2

0

06 Mar 2025

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

360

6

0

22 Feb 2025

Megrez-Omni Technical Report

...

235

1

0

19 Feb 2025

Baichuan-Omni-1.5 Technical Report

Tao Zhang

...

329

66

0

28 Jan 2025

Mirage in the Eyes: Hallucination Attack on Multi-modal Large Language Models with Only Attention Sink

246

6

0

28 Jan 2025

Audio-Language Models for Audio-Centric Tasks: A survey

341

15

0

28 Jan 2025

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024

...

849

119

0

03 Jan 2025

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

...

532

184

1

15 Nov 2024

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5%
Parameters and 90% Performance

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Zhe Chen

...

403

88

0

21 Oct 2024

From Generalist to Specialist: Adapting Vision Language Models via
Task-Specific Visual Instruction Tuning

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Yang Zhou

Rick Siow Mong Goh

231

2

0

09 Oct 2024

Valley: Video Assistant with Large Language model Enhanced abilitY

Valley: Video Assistant with Large Language model Enhanced abilitY

524

253

0

12 Jun 2023

Page 1 of 1