mDPO: Conditional Preference Optimization for Multimodal Large Language Models

17 June 2024

Sheng Zhang

Muhao Chen

ArXiv (abs)PDF HTML HuggingFace (40 upvotes)Github

Papers citing "mDPO: Conditional Preference Optimization for Multimodal Large Language Models"

31 / 31 papers shown

Optimizing LVLMs with On-Policy Data for Effective Hallucination Mitigation

336

30 Nov 2025

What Color Is It? A Text-Interference Multimodal Hallucination Benchmark

286

17 Nov 2025

MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning

...

207

24 Oct 2025

RL makes MLLMs see better than SFT

244

18 Oct 2025

COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability

115

05 Oct 2025

Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs

182

04 Oct 2025

Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization

145

30 Sep 2025

Mitigating Visual Hallucinations via Semantic Curriculum Preference Optimization in MLLMs

178

29 Sep 2025

OmniDPO: A Preference Optimization Framework to Address Omni-Modal Hallucination

225

31 Aug 2025

Directed-Tokens: A Robust Multi-Modality Alignment Approach to Large Language-Vision Models

373

19 Aug 2025

Controlling Multimodal LLMs via Reward-guided Decoding

Oscar Manas

Pierluca DÓro

Koustuv Sinha

Adriana Romero Soriano

M. Drozdzal

Aishwarya Agrawal

MLLM

196

15 Aug 2025

TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

370

29 Jul 2025

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

...

285

07 Jul 2025

Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

239

26 Jun 2025

LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning

334

11 Jun 2025

MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

529

30 May 2025

Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models

293

26 May 2025

Co-Reinforcement Learning for Unified Multimodal Understanding and Generation

939

23 May 2025

OViP: Online Vision-Language Preference Learning for VLM Hallucination

366

21 May 2025

VideoPASTA: 7K Preference Pairs That Matter for Video-LLM Alignment

Yogesh Kulkarni

Pooyan Fazli

617

18 Apr 2025

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

...

431

10 Apr 2025

PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning

1.2K

08 Apr 2025

Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models

436

02 Apr 2025

Aligning Multimodal LLM with Human Preference: A Survey

...

888

18 Mar 2025

Octopus: Alleviating Hallucination via Dynamic Contrastive DecodingComputer Vision and Pattern Recognition (CVPR), 2025

338

01 Mar 2025

MMedPO: Aligning Medical Vision-Language Models with Clinical-Aware Multimodal Preference Optimization

714

09 Dec 2024

Modality-Fair Preference Optimization for Trustworthy MLLM AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

395

20 Oct 2024

From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning

Nan Xu

Fei Wang

Sheng Zhang

Hoifung Poon

Muhao Chen

408

01 Jul 2024

Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback

Wanggui He

409

22 Apr 2024

FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

Liqiang Jing

Xinya Du

453

07 Apr 2024

Self-Rewarding Language Models

Xian Li

Jason Weston

988

540

18 Jan 2024