Self-Training with Direct Preference Optimization Improves
Chain-of-Thought Reasoning

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

25 July 2024

Wei Lu

ArXiv (abs)PDF HTML HuggingFace (34 upvotes)

Papers citing "Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning"

14 / 14 papers shown

Title
AdaSwitch: Adaptive Switching Generation for Knowledge Distillation Jingyu Peng Xinjian Zhao Hengyi Cai Yuchen Li Kai Zhang Shuaiqiang Wang D. Yin Xiangyu Zhao 60 0 0 09 Oct 2025
Pruning Weights but Not Truth: Safeguarding Truthfulness While Pruning LLMs Y. Fu Runchao Li Xianxuan Long Haotian Yu Xiaotian Han Yu Yin Pan Li 140 3 0 27 Aug 2025
Can Large Models Teach Student Models to Solve Mathematical Problems Like Human Beings? A Reasoning Distillation Method via Multi-LoRA InteractionInternational Joint Conference on Artificial Intelligence (IJCAI), 2025 Xinhe Li Jiajun Liu Peng Wang LRM 80 1 0 18 Aug 2025
Efficient Learning for Product Attributes with Compact Multimodal Models Mandar Kulkarni VLM 73 0 0 25 Jul 2025
Mathesis: Towards Formal Theorem Proving from Natural Languages Yu Xuejun Jianyuan Zhong Zijin Feng Pengyi Zhai Roozbeh Yousefzadeh ... Dongcai Lu Jiacheng Sun Q. Xu Shen Xin Zhenguo Li AIMat OffRL LRM 193 8 0 08 Jun 2025
RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models Qihang Yan Xinyu Zhang Luming Guo Tao Gui Feifan Liu AI4TS LRM 138 0 0 03 Jun 2025
KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation Jiabin Fan Guoqing Luo Michael Bowling Lili Mou OffRL 379 0 0 26 Apr 2025
Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision Dawei Zhu Xiyu Wei Guangxiang Zhao Wenhao Wu Haosheng Zou Junfeng Ran Xun Wang Lin Sun Xiangzheng Zhang Sujian Li LRM 279 11 0 28 Feb 2025
BPO: Towards Balanced Preference Optimization between Knowledge Breadth and Depth in AlignmentNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024 Sizhe Wang Yongqi Tong Hengyuan Zhang Dawei Li Xin Zhang Tianlong Chen 423 14 0 21 Feb 2025
Preference Optimization for Reasoning with Pseudo FeedbackInternational Conference on Learning Representations (ICLR), 2024 Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Shafiq Joty Furu Wei LRM 396 32 0 17 Feb 2025
Self-Training Large Language Models for Tool-Use Without DemonstrationsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2025 Ne Luo Aryo Pradipta Gema Xuanli He Emile van Krieken Pietro Lesci Pasquale Minervini LLMAG 262 8 0 09 Feb 2025
VideoSAVi: Self-Aligned Video Language Models without Human Supervision Yogesh Kulkarni Pooyan Fazli VLM 558 5 0 01 Dec 2024
On Extending Direct Preference Optimization to Accommodate Ties Jinghong Chen Guangyu Yang Weizhe Lin Jingbiao Mei Bill Byrne 161 4 0 25 Sep 2024
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-InstructInternational Conference on Learning Representations (ICLR), 2023 Haipeng Luo Qingfeng Sun Can Xu Lu Wang Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang LRM OSLM 748 607 0 18 Aug 2023