Quantile Regression for Distributional Reward Models in RLHF

Quantile Regression for Distributional Reward Models in RLHF

16 September 2024

Nicolai Dorka

Papers citing "Quantile Regression for Distributional Reward Models in RLHF"

4 / 4 papers shown

Title
Energy-Based Reward Models for Robust Language Model Alignment Anamika Lochab Ruqi Zhang 53 0 0 17 Apr 2025
Reinforcement Learning Enhanced LLMs: A Survey Shuhe Wang Shengyu Zhang J. Zhang Runyi Hu Xiaoya Li Tianwei Zhang Jiwei Li Fei Wu G. Wang Eduard H. Hovy OffRL 121 6 0 05 Dec 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 45 21 0 01 Oct 2024
Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation Chengzhi Lin Shuchang Liu Chuyuan Wang Yongqi Liu 19 3 0 17 Jul 2024