Papers citing 'Scalable Ensembling For Mitigating Reward Overoptimisation'

Title
Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis Leitian Tao Xuefeng Du Shouqing Yang SyDa 116 0 0 30 Sep 2025
Inference-Time Reward Hacking in Large Language Models Hadi Khalaf C. M. Verdun Alex Oesterling Himabindu Lakkaraju Flavio du Pin Calmon 34 1 0 24 Jun 2025
Ensemble Learning for Large Language Models in Text and Code Generation: A Survey Mari Ashiga Wei Jie Fan Wu Vardan K. Voskanyan Fateme Dinmohammadi P. Brookes Jingzhi Gong Zheng Wang 214 5 0 13 Mar 2025
Reward Shaping to Mitigate Reward Hacking in RLHF Jiayi Fu Xuandong Zhao Chengyuan Yao Han Wang Qi Han Yanghua Xiao 308 38 0 26 Feb 2025
Rethinking Diverse Human Preference Learning through Principal Component AnalysisAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Feng Luo Rui Yang Hao Sun Chunyuan Deng Jiarui Yao Jingyan Shen Huan Zhang Hanjie Chen 227 4 0 18 Feb 2025
Ensembles of Low-Rank Expert AdaptersInternational Conference on Learning Representations (ICLR), 2025 Yinghao Li Vianne Gao Chao Zhang MohamadAli Torkamani 269 1 0 31 Jan 2025