Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

10 October 2024

Papers citing "Reward-Augmented Data Enhances Direct Preference Alignment of LLMs"

1 / 1 papers shown

Title
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs Zhihan Liu Shenao Zhang Yongfei Liu Boyi Liu Yingxiang Yang Zhaoran Wang 92 2 0 20 Nov 2024