Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation

23 May 2022

Papers citing "Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation"

7 / 7 papers shown

Title
Contextual Online Uncertainty-Aware Preference Learning for Human Feedback Nan Lu Ethan X. Fang Junwei Lu 38 0 0 27 Apr 2025
Reinforcement Learning from Multi-level and Episodic Human Feedback Muhammad Qasim Elahi Somtochukwu Oguchienti Maheed H. Ahmed Mahsa Ghasemi OffRL 39 0 0 20 Apr 2025
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective Jiawei Huang Bingcong Li Christoph Dann Niao He OffRL 54 0 0 26 Feb 2025
RL-STaR: Theoretical Analysis of Reinforcement Learning Frameworks for Self-Taught Reasoner Fu-Chieh Chang Yu-Ting Lee Hui-Ying Shih Pei-Yuan Wu Pei-Yuan Wu OffRL LRM 59 0 0 31 Oct 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 23 1 0 26 Jun 2024
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis Qining Zhang Honghao Wei Lei Ying OffRL 18 1 0 11 Jun 2024
The Power of Active Multi-Task Learning in Reinforcement Learning from Human Feedback Ruitao Chen Liwei Wang 39 1 0 18 May 2024