Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems

24 July 2023

Mengdi Wang

Papers citing "Provable Benefits of Policy Learning from Human Preferences in Contextual Bandit Problems"

2 / 2 papers shown

Title
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation Xiaoyu Chen Han Zhong Zhuoran Yang Zhaoran Wang Liwei Wang 118 60 0 23 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 308 11,915 0 04 Mar 2022