Reward learning from human preferences and demonstrations in Atari

15 November 2018

Papers citing "Reward learning from human preferences and demonstrations in Atari"

50 / 85 papers shown

Title
ADHMR: Aligning Diffusion-based Human Mesh Recovery via Direct Preference Optimization Wenhao Shen Wanqi Yin Xiaofeng Yang Cheng Chen Chaoyue Song Zhongang Cai Lei Yang Hao Wang Guosheng Lin 36 0 0 15 May 2025
TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations Shuaiyi Huang Mara Levy Anubhav Gupta Daniel Ekpo Ruijie Zheng Abhinav Shrivastava 28 0 0 09 May 2025
Reinforcement Learning from Multi-level and Episodic Human Feedback Muhammad Qasim Elahi Somtochukwu Oguchienti Maheed H. Ahmed Mahsa Ghasemi OffRL 50 0 0 20 Apr 2025
Adversarial Training of Reward Models Alexander Bukharin Haifeng Qian Shengyang Sun Adithya Renduchintala Soumye Singhal Zihan Wang Oleksii Kuchaiev Olivier Delalleau T. Zhao AAML 32 0 0 08 Apr 2025
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model Qiyuan Deng X. Bai Kehai Chen Yaowei Wang Liqiang Nie Min Zhang OffRL 66 0 0 13 Mar 2025
Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm H. Kim Kanghoon Lee J. Park Jiachen Li Jinkyoo Park 62 1 0 05 Mar 2025
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? Xueru Wen Jie Lou Yunfan LU Hongyu Lin Xing Yu Xinyu Lu Xianpei Han Xianpei Han Debing Zhang Le Sun ALM 61 5 0 17 Feb 2025
CREW: Facilitating Human-AI Teaming Research Lingyu Zhang Zhengran Ji Boyuan Chen 44 3 0 03 Jan 2025
DIPPER: Direct Preference Optimization to Accelerate Primitive-Enabled Hierarchical Reinforcement Learning Utsav Singh Souradip Chakraborty Wesley A Suttle Brian M. Sadler Vinay P. Namboodiri Amrit Singh Bedi OffRL 53 0 0 03 Jan 2025
Comprehensive Overview of Reward Engineering and Shaping in Advancing Reinforcement Learning Applications Sinan Ibrahim Mostafa Mostafa Ali Jnadi Hadi Salloum Pavel Osinenko OffRL 52 12 0 31 Dec 2024
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets Zhen Liu Tim Z. Xiao Weiyang Liu Yoshua Bengio Dinghuai Zhang 123 2 0 10 Dec 2024
DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment Wendi Chen Han Xue Fangyuan Zhou Yuan Fang Cewu Lu 41 1 0 15 Oct 2024
Preference-Guided Reinforcement Learning for Efficient Exploration Guojian Wang Faguo Wu Xiao Zhang Tianyuan Chen Xuyang Chen Lin Zhao 40 0 0 09 Jul 2024
Aligning Agents like Large Language Models Adam Jelley Yuhan Cao Dave Bignell Sam Devlin Tabish Rashid LM&Ro 44 1 0 06 Jun 2024
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback Kihyun Kim Jiawei Zhang Asuman Ozdaglar P. Parrilo OffRL 41 1 0 20 May 2024
Enhancing Q-Learning with Large Language Model Heuristics Xiefeng Wu LRM 32 0 0 06 May 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 46 2 0 30 Apr 2024
Align Your Intents: Offline Imitation Learning via Optimal Transport Maksim Bobrin N. Buzun Dmitrii Krylov Dmitry V. Dylov OffRL 51 3 0 20 Feb 2024
A Minimaximalist Approach to Reinforcement Learning from Human Feedback Gokul Swamy Christoph Dann Rahul Kidambi Zhiwei Steven Wu Alekh Agarwal OffRL 41 94 0 08 Jan 2024
HAIM-DRL: Enhanced Human-in-the-loop Reinforcement Learning for Safe and Efficient Autonomous Driving Zilin Huang Zihao Sheng Chengyuan Ma Sikai Chen 22 27 0 06 Jan 2024
Human-AI Collaboration in Real-World Complex Environment with Reinforcement Learning Md Saiful Islam Srijita Das S. Gottipati William Duguay Clodéric Mars Jalal Arabneydi Antoine Fagette Matthew J. Guzdial Matthew E. Taylor 38 1 0 23 Dec 2023
BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for Training and Benchmarking Agents that Solve Fuzzy Tasks Stephanie Milani Anssi Kanervisto Karolis Ramanauskas Sander Schulhoff Brandon Houghton Rohin Shah 23 6 0 05 Dec 2023
Reinforcement Learning from Statistical Feedback: the Journey from AB Testing to ANT Testing Feiyang Han Yimin Wei Zhaofeng Liu Yanxing Qi 32 1 0 24 Nov 2023
A density estimation perspective on learning from pairwise human preferences Vincent Dumoulin Daniel D. Johnson Pablo Samuel Castro Hugo Larochelle Yann Dauphin 31 12 0 23 Nov 2023
From "Thumbs Up" to "10 out of 10": Reconsidering Scalar Feedback in Interactive Reinforcement Learning Hang Yu Reuben M. Aronson Katherine H. Allen E. Short 42 3 0 17 Nov 2023
UniFolding: Towards Sample-efficient, Scalable, and Generalizable Robotic Garment Folding Han Xue Yutong Li Wenqiang Xu Huanyu Li Dongzhe Zheng Cewu Lu 28 14 0 02 Nov 2023
Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Representation Learning Sachit Kuhar Shuo Cheng Shivang Chopra Matthew Bronars Danfei Xu 43 9 0 22 Oct 2023
Quality Diversity through Human Feedback: Towards Open-Ended Diversity-Driven Optimization Lijie Ding Jenny Zhang Jeff Clune Lee Spector Joel Lehman EGVM 37 7 0 18 Oct 2023
Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification Jasmina Gajcin J. McCarthy Rahul Nair Radu Marinescu Elizabeth M. Daly Ivana Dusparic 25 3 0 30 Aug 2023
Rating-based Reinforcement Learning Devin White Mingkang Wu Ellen R. Novoseller Vernon J. Lawhern Nicholas R. Waytowich Yongcan Cao ALM 19 6 0 30 Jul 2023
Designing Fiduciary Artificial Intelligence Sebastian Benthall David Shekman 51 4 0 27 Jul 2023
A Flexible Framework for Incorporating Patient Preferences Into Q-Learning Joshua P. Zitovsky Leslie Wilson Michael R. Kosorok 23 1 0 22 Jul 2023
Of Models and Tin Men: A Behavioural Economics Study of Principal-Agent Problems in AI Alignment using Large-Language Models S. Phelps Rebecca E. Ranson LLMAG 34 1 0 20 Jul 2023
Reward Collapse in Aligning Large Language Models Ziang Song Tianle Cai Jason D. Lee Weijie J. Su ALM 33 22 0 28 May 2023
Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback Tom Bewley J. Lawry Arthur G. Richards 30 1 0 26 May 2023
A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents Sukai Huang N. Lipovetzky Trevor Cohn 32 2 0 26 May 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 38 61 0 02 Mar 2023
Reward Design with Language Models Minae Kwon Sang Michael Xie Kalesha Bullard Dorsa Sadigh LM&Ro 35 201 0 27 Feb 2023
On The Fragility of Learned Reward Functions Lev McKinney Yawen Duan David M. Krueger Adam Gleave 33 20 0 09 Jan 2023
Benchmarks and Algorithms for Offline Preference-Based Reward Learning Daniel Shin Anca Dragan Daniel S. Brown OffRL 17 53 0 03 Jan 2023
Time-Efficient Reward Learning via Visually Assisted Cluster Ranking David Zhang Micah Carroll Andreea Bobu Anca Dragan 24 4 0 30 Nov 2022
Fine-tuning language models to find agreement among humans with diverse preferences Michiel A. Bakker Martin Chadwick Hannah R. Sheahan Michael Henry Tessler Lucy Campbell-Gillingham ... Nat McAleese Amelia Glaese John Aslanides M. Botvinick Christopher Summerfield ALM 46 215 0 28 Nov 2022
Reward Gaming in Conditional Text Generation Richard Yuanzhe Pang Vishakh Padmakumar Thibault Sellam Ankur P. Parikh He He 35 24 0 16 Nov 2022
Rewards Encoding Environment Dynamics Improves Preference-based Reinforcement Learning Katherine Metcalf Miguel Sarabia B. Theobald OffRL 38 4 0 12 Nov 2022
Scaling Laws for Reward Model Overoptimization Leo Gao John Schulman Jacob Hilton ALM 41 481 0 19 Oct 2022
Argumentative Reward Learning: Reasoning About Human Preferences Francis Rhys Ward Francesco Belardinelli Francesca Toni HAI 92 2 0 28 Sep 2022
Defining and Characterizing Reward Hacking Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David M. Krueger 59 56 0 27 Sep 2022
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning Xinran Liang Katherine Shu Kimin Lee Pieter Abbeel 21 58 0 24 May 2022
Graph Neural Networks Designed for Different Graph Types: A Survey J. M. Thomas Alice Moallemy-Oureh Silvia Beddar-Wiesing Clara Holzhuter 26 29 0 06 Apr 2022
Adversarial Motion Priors Make Good Substitutes for Complex Reward Functions Alejandro Escontrela Xue Bin Peng Wenhao Yu Tingnan Zhang Atil Iscen Ken Goldberg Pieter Abbeel 20 112 0 28 Mar 2022