Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation

Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation

17 March 2025

Papers citing "Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation"

1 / 1 papers shown

Title
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility Andreas Hochlehnert Hardik Bhatnagar Vishaal Udandarao Samuel Albanie Ameya Prabhu Matthias Bethge ReLM ALM LRM 58 4 0 09 Apr 2025