BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback

4 February 2024

Papers citing "BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback"

7 / 7 papers shown

Title
PIPA: Preference Alignment as Prior-Informed Statistical Estimation Junbo Li Zhangyang Wang Qiang Liu OffRL 97 0 0 09 Feb 2025
Nemotron-4 340B Technical Report Nvidia : Bo Adler Niket Agarwal Ashwath Aithal ... Jimmy Zhang Jing Zhang Vivienne Zhang Yian Zhang Chen Zhu 36 54 0 17 Jun 2024
HelpSteer2: Open-source dataset for training top-performing reward models Zhilin Wang Yi Dong Olivier Delalleau Jiaqi Zeng Gerald Shen Daniel Egert Jimmy J. Zhang Makesh Narsimhan Sreedhar Oleksii Kuchaiev AI4TS 44 82 0 12 Jun 2024
KTO: Model Alignment as Prospect Theoretic Optimization Kawin Ethayarajh Winnie Xu Niklas Muennighoff Dan Jurafsky Douwe Kiela 159 437 0 02 Feb 2024
Defining and Characterizing Reward Hacking Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David M. Krueger 57 53 0 27 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,561 0 18 Sep 2019