Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing

24 November 2023

Papers citing "Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing"

5 / 5 papers shown

Title
Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse Jianwei Sun Chaoyang Mei Linlin Wei Kaiyu Zheng Na Liu Ming Cui Tianyi Li ALM 35 4 0 14 Mar 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
A Survey of Community Detection Approaches: From Statistical Modeling to Deep Learning Di Jin Zhizhi Yu Pengfei Jiao Shirui Pan Dongxiao He Jia Wu Philip S. Yu Weixiong Zhang GNN 111 266 0 03 Jan 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019
Customer Lifetime Value in Video Games Using Deep Learning and Parametric Models Pei Pei Chen Anna Guitart Ana Fernández del Río África Periánez 15 45 0 28 Nov 2018