Preference-based Reinforcement Learning with Finite-Time Guarantees

Preference-based Reinforcement Learning with Finite-Time Guarantees

16 June 2020

Aarti Singh

Papers citing "Preference-based Reinforcement Learning with Finite-Time Guarantees"

12 / 12 papers shown

Title
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective Jiawei Huang Bingcong Li Christoph Dann Niao He OffRL 85 0 0 26 Feb 2025
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference Qining Zhang Lei Ying OffRL 40 2 0 25 Sep 2024
Advances in Preference-based Reinforcement Learning: A Review Youssef Abdelkareem Shady Shehata Fakhri Karray OffRL 51 9 0 21 Aug 2024
Preference-Guided Reinforcement Learning for Efficient Exploration Guojian Wang Faguo Wu Xiao Zhang Tianyuan Chen Xuyang Chen Lin Zhao 45 0 0 09 Jul 2024
Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis Qining Zhang Honghao Wei Lei Ying OffRL 67 1 0 11 Jun 2024
Comparisons Are All You Need for Optimizing Smooth Functions Chenyi Zhang Tongyang Li AAML 37 1 0 19 May 2024
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF Banghua Zhu Michael I. Jordan Jiantao Jiao 31 25 0 29 Jan 2024
Rating-based Reinforcement Learning Devin White Mingkang Wu Ellen R. Novoseller Vernon J. Lawhern Nicholas R. Waytowich Yongcan Cao ALM 19 6 0 30 Jul 2023
Principled Reinforcement Learning with Human Feedback from Pairwise or $K$ -wise Comparisons Banghua Zhu Jiantao Jiao Michael I. Jordan OffRL 42 184 0 26 Jan 2023
Dueling RL: Reinforcement Learning with Trajectory Preferences Aldo Pacchiano Aadirupa Saha Jonathan Lee 33 82 0 08 Nov 2021
On the Expressivity of Markov Reward David Abel Will Dabney Anna Harutyunyan Mark K. Ho Michael L. Littman Doina Precup Satinder Singh 29 82 0 01 Nov 2021
Reward-Free Exploration for Reinforcement Learning Chi Jin A. Krishnamurthy Max Simchowitz Tiancheng Yu OffRL 112 194 0 07 Feb 2020