Training Value-Aligned Reinforcement Learning Agents Using a Normative Prior

19 April 2021

Papers citing "Training Value-Aligned Reinforcement Learning Agents Using a Normative Prior"

8 / 8 papers shown

Title
The Odyssey of the Fittest: Can Agents Survive and Still Be Good? Dylan Waldner Risto Miikkulainen 51 0 0 08 Feb 2025
Learning Not to Spoof David Byrd 11 4 0 09 Jun 2023
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark Alexander Pan Chan Jun Shern Andy Zou Nathaniel Li Steven Basart Thomas Woodside Jonathan Ng Hanlin Zhang Scott Emmons Dan Hendrycks 24 126 0 06 Apr 2023
An Analysis of Deep Reinforcement Learning Agents for Text-based Games Chen Chen Yue Dai Josiah Poon Caren Han LLMAG 19 2 0 09 Sep 2022
Forecasting Future World Events with Neural Networks Andy Zou Tristan Xiao Ryan Jia Joe Kwon Mantas Mazeika Richard Li Dawn Song Jacob Steinhardt Owain Evans Dan Hendrycks 15 22 0 30 Jun 2022
Aligning to Social Norms and Values in Interactive Narratives Prithviraj Ammanabrolu Liwei Jiang Maarten Sap Hannaneh Hajishirzi Yejin Choi AI4CE 25 46 0 04 May 2022
What Would Jiminy Cricket Do? Towards Agents That Behave Morally Dan Hendrycks Mantas Mazeika Andy Zou Sahil Patel Christine Zhu Jesus Navarro D. Song Bo-wen Li Jacob Steinhardt 8 58 0 25 Oct 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,587 0 18 Sep 2019