Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2407.15838
Cited By

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with
Extensive Diversity

v1v2 (latest)

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

22 July 2024

Yu Qiao

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (52★)

Papers citing "MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity"

30 / 30 papers shown

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

121

0

0

25 Nov 2025

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

116

0

0

04 Nov 2025

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Suresh Damodaran

132

9

0

07 Oct 2025

PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models

PATIMT-Bench: A Multi-Scenario Benchmark for Position-Aware Text Image Machine Translation in Large Vision-Language Models

132

0

0

14 Sep 2025

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning

Jianghangfan Zhang

264

3

0

06 Aug 2025

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety

273

2

0

14 Jun 2025

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

...

203

19

0

30 May 2025

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

PlanGPT-VL: Enhancing Urban Planning with Domain-Specific Vision-Language Models

459

1

0

20 May 2025

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

Prioritizing Image-Related Tokens Enhances Vision-Language Pre-Training

347

1

0

13 May 2025

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

...

379

11

0

14 Apr 2025

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?

Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models?Computer Vision and Pattern Recognition (CVPR), 2025

365

4

0

14 Apr 2025

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

381

2

0

10 Apr 2025

MM-IFEngine: Towards Multimodal Instruction Following

MM-IFEngine: Towards Multimodal Instruction Following

506

18

0

10 Apr 2025

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models

Capybara-OMNI: An Efficient Paradigm for Building Omni-Modal Language Models

302

1

0

10 Apr 2025

OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance

OCC-MLLM-CoT-Alpha: Towards Multi-stage Occlusion Recognition Based on Large Language Models via 3D-Aware Supervision and Chain-of-Thoughts Guidance

242

0

0

07 Apr 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

329

8

0

17 Mar 2025

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

Lawrence Yunliang Chen

...

342

86

0

13 Mar 2025

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning?

178

0

0

12 Mar 2025

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

438

5

0

11 Mar 2025

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

448

2

0

06 Mar 2025

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

350

6

0

22 Feb 2025

Megrez-Omni Technical Report

...

231

1

0

19 Feb 2025

Baichuan-Omni-1.5 Technical Report

Tao Zhang

...

328

63

0

28 Jan 2025

Mirage in the Eyes: Hallucination Attack on Multi-modal Large Language Models with Only Attention Sink

233

6

0

28 Jan 2025

Audio-Language Models for Audio-Centric Tasks: A survey

336

14

0

28 Jan 2025

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024

...

787

118

0

03 Jan 2025

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

...

514

179

1

15 Nov 2024

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5%
Parameters and 90% Performance

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Zhe Chen

...

395

87

0

21 Oct 2024

From Generalist to Specialist: Adapting Vision Language Models via
Task-Specific Visual Instruction Tuning

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Yang Zhou

Rick Siow Mong Goh

227

2

0

09 Oct 2024

Valley: Video Assistant with Large Language model Enhanced abilitY

Valley: Video Assistant with Large Language model Enhanced abilitY

515

252

0

12 Jun 2023