2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision

25 October 2024

Yancheng He

Bo Zheng

Papers citing "2D-DPO: Scaling Direct Preference Optimization with 2-Dimensional Supervision"

2 / 2 papers shown

Title
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models J. Liu Hangyu Guo Ranjie Duan Xingyuan Bu Yancheng He ... Yingshui Tan Yanan Wu Jihao Gu Y. Li J. Zhu MLLM 58 0 0 25 Apr 2025
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning? Yancheng He Shilong Li J. Liu Weixun Wang Xingyuan Bu ... Zhongyuan Peng Z. Zhang Zhicheng Zheng Wenbo Su Bo Zheng ELM LRM 60 6 0 26 Feb 2025