Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment

17 January 2025

Papers citing "Beyond Reward Hacking: Causal Rewards for Large Language Model Alignment"

1 / 1 papers shown

Title
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 35 1 0 12 Apr 2025