Papers citing 'Few-Shot Preference Learning for Human-in-the-Loop RL'

Title
PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning Simon Holk Daniel Marta Iolanda Leite 191 17 0 23 Feb 2024
A Dense Reward View on Aligning Text-to-Image Diffusion with Preference Shentao Yang Tianqi Chen Mingyuan Zhou EGVM 314 42 0 13 Feb 2024
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual ContextsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Lingfeng Shen Weiting Tan Sihao Chen Yunmo Chen Jingyu Zhang Haoran Xu Boyuan Zheng Philipp Koehn Daniel Khashabi 167 63 0 23 Jan 2024
Integrating Human Expertise in Continuous Spaces: A Novel Interactive Bayesian Optimization Framework with Preference Expected Improvement Nikolaus Feith Elmar Rueckert 278 1 0 23 Jan 2024
Learning Human-like Representations to Enable Learning Human Values Andrea Wynn Ilia Sucholutsky Thomas Griffiths 235 7 0 21 Dec 2023
Explore 3D Dance Generation via Reward Model from Automatically-Ranked Demonstrations Zilin Wang Hao-Wen Zhuang Lu Li Yinmin Zhang Junjie Zhong Jun Chen Yu Yang Boshi Tang Zhiyong Wu 160 5 0 18 Dec 2023
Promptable Behaviors: Personalizing Multi-Objective Rewards from Human PreferencesComputer Vision and Pattern Recognition (CVPR), 2023 Minyoung Hwang Luca Weihs Chanwoo Park Kimin Lee Aniruddha Kembhavi Kiana Ehsani 185 23 0 14 Dec 2023
A Review of Communicating Robot Learning during Human-Robot Interaction Soheil Habibian Antonio Alvarez Valdivia Laura H. Blumenschein Dylan P. Losey 277 7 0 01 Dec 2023
Contrastive Preference Learning: Learning from Human Feedback without RL Joey Hejna Rafael Rafailov Harshit S. Sikchi Chelsea Finn S. Niekum W. B. Knox Dorsa Sadigh OffRL 492 71 0 20 Oct 2023
RoboCLIP: One Demonstration is Enough to Learn Robot PoliciesNeural Information Processing Systems (NeurIPS), 2023 Sumedh Anand Sontakke Jesse Zhang Sébastien M. R. Arnold Karl Pertsch Erdem Biyik Dorsa Sadigh Chelsea Finn Laurent Itti OffRL 194 112 0 11 Oct 2023
What can knowledge graph alignment gain with Neuro-Symbolic learning approaches? P. Cotovio Ernesto Jiménez-Ruiz Catia Pesquita 151 1 0 11 Oct 2023
The Trickle-down Impact of Reward (In-)consistency on RLHF Lingfeng Shen Sihao Chen Linfeng Song Lifeng Jin Baolin Peng Haitao Mi Daniel Khashabi Dong Yu 223 28 0 28 Sep 2023
Text2Reward: Reward Shaping with Language Models for Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2023 Tianbao Xie Siheng Zhao Chen Henry Wu Yitao Liu Qian Luo Victor Zhong Yanchao Yang Tao Yu LM&Ro 355 96 0 20 Sep 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 353 701 0 27 Jul 2023
Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? Basavasagar Patil Daniel S. Brown 395 0 0 22 Jun 2023
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic ManipulationInternational Conference on Machine Learning (ICML), 2023 Runze Liu Yali Du Fengshuo Bai Jiafei Lyu Xiu Li 322 9 0 06 Jun 2023
Inverse Preference Learning: Preference-based RL without a Reward FunctionNeural Information Processing Systems (NeurIPS), 2023 Joey Hejna Dorsa Sadigh OffRL 265 72 0 24 May 2023
Learning a Universal Human Prior for Dexterous Manipulation from Human Preference Zihan Ding Yuanpei Chen Allen Z. Ren S. Gu Qianxu Wang Hao Dong Chi Jin 184 10 0 10 Apr 2023
Preference Transformer: Modeling Human Preferences using Transformers for RLInternational Conference on Learning Representations (ICLR), 2023 Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 234 93 0 02 Mar 2023
Active Reward Learning from Online PreferencesIEEE International Conference on Robotics and Automation (ICRA), 2023 Vivek Myers Erdem Biyik Dorsa Sadigh OffRL 188 14 0 27 Feb 2023
Reinforcement Learning from Diverse Human PreferencesInternational Joint Conference on Artificial Intelligence (IJCAI), 2023 Wanqi Xue Bo An Shuicheng Yan Zhongwen Xu 191 29 0 27 Jan 2023
Relative Behavioral Attributes: Filling the Gap between Symbolic Goal Specification and Reward Learning from Human PreferencesInternational Conference on Learning Representations (ICLR), 2022 L. Guan Kaya Stechly Subbarao Kambhampati 385 9 0 28 Oct 2022