Quantile Regression for Distributional Reward Models in RLHF

Quantile Regression for Distributional Reward Models in RLHF

16 September 2024

Nicolai Dorka

Papers citing "Quantile Regression for Distributional Reward Models in RLHF"

5 / 5 papers shown

Title
Energy-Based Reward Models for Robust Language Model Alignment Anamika Lochab Ruqi Zhang 59 0 0 17 Apr 2025
OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses Angela Lopez-Cardona Sebastian Idesis Miguel Barreda-Ángeles Sergi Abadal Ioannis Arapakis 46 0 0 13 Mar 2025
Reinforcement Learning Enhanced LLMs: A Survey Shuhe Wang Shengyu Zhang J. Zhang Runyi Hu Xiaoya Li Tianwei Zhang Jiwei Li Fei Wu G. Wang Eduard H. Hovy OffRL 123 7 0 05 Dec 2024
Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown Xingzhou Lou Dong Yan Wei Shen Yuzi Yan Jian Xie Junge Zhang 45 21 0 01 Oct 2024
Conditional Quantile Estimation for Uncertain Watch Time in Short-Video Recommendation Chengzhi Lin Shuchang Liu Chuyuan Wang Yongqi Liu 21 3 0 17 Jul 2024