Inverse Preference Learning: Preference-based RL without a Reward
Function

Inverse Preference Learning: Preference-based RL without a Reward Function

24 May 2023

Dorsa Sadigh

Papers citing "Inverse Preference Learning: Preference-based RL without a Reward Function"

13 / 13 papers shown

Title
Aligning Crowd-sourced Human Feedback for Reinforcement Learning on Code Generation by Large Language Models M. Wong C. Tan ALM 80 3 0 19 Mar 2025
DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning Teng Pang Bingzheng Wang Guoqiang Wu Yilong Yin OffRL 65 0 0 03 Mar 2025
Towards a Reward-Free Reinforcement Learning Framework for Vehicle Control Jielong Yang Daoyuan Huang 33 0 0 21 Feb 2025
Constraint Back-translation Improves Complex Instruction Following of Large Language Models Y. Qi Hao Peng X. Wang Bin Xu Lei Hou Juanzi Li 56 0 0 31 Oct 2024
Aligning Human Motion Generation with Human Perceptions Haoru Wang Wentao Zhu Luyi Miao Yishu Xu Feng Gao Qi Tian Yizhou Wang EGVM 36 1 0 02 Jul 2024
Preference Elicitation for Offline Reinforcement Learning Alizée Pace Bernhard Schölkopf Gunnar Rätsch Giorgia Ramponi OffRL 52 1 0 26 Jun 2024
Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity Calarina Muslimani Bram Grooten Deepak Ranganatha Sastry Mamillapalli Mykola Pechenizkiy D. Mocanu M. E. Taylor 43 0 0 10 Jun 2024
Direct Preference-Based Evolutionary Multi-Objective Optimization with Dueling Bandit Tian Huang Ke Li Ke Li 16 1 0 23 Nov 2023
LLQL: Logistic Likelihood Q-Learning for Reinforcement Learning Outongyi Lv Bingxin Zhou OffRL 21 0 0 05 Jul 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 206 832 0 12 Oct 2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation Ajay Mandlekar Danfei Xu J. Wong Soroush Nasiriany Chen Wang Rohun Kulkarni Li Fei-Fei Silvio Savarese Yuke Zhu Roberto Martín-Martín OffRL 139 461 0 06 Aug 2021
Early Detection of Combustion Instabilities using Deep Convolutional Selective Autoencoders on Hi-speed Flame Video Chandrayee Basu Qian Yang M. Singhal Anca Dragan 49 174 0 25 Mar 2016