Penalizing side effects using stepwise relative reachability

Penalizing side effects using stepwise relative reachability

4 June 2018

Victoria Krakovna

Papers citing "Penalizing side effects using stepwise relative reachability"

15 / 15 papers shown

Title
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback Siow Meng Low Akshat Kumar 53 0 0 17 Apr 2025
Open-Endedness is Essential for Artificial Superhuman Intelligence Edward Hughes Michael Dennis Jack Parker-Holder Feryal M. P. Behbahani Aditi Mavalankar Yuge Shi Tom Schaul Tim Rocktaschel LRM 45 22 0 06 Jun 2024
Designing Fiduciary Artificial Intelligence Sebastian Benthall David Shekman 51 4 0 27 Jul 2023
Low impact agency: review and discussion D. Naiff Shashwat Goel 30 0 0 06 Mar 2023
Defining and Characterizing Reward Hacking Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David M. Krueger 59 56 0 27 Sep 2022
Formalizing the Problem of Side Effect Regularization Alexander Matt Turner Aseem Saxena Prasad Tadepalli 27 2 0 23 Jun 2022
Estimating and Penalizing Induced Preference Shifts in Recommender Systems Micah Carroll Anca Dragan Stuart J. Russell Dylan Hadfield-Menell OffRL 38 41 0 25 Apr 2022
Is the Rush to Machine Learning Jeopardizing Safety? Results of a Survey M. Askarpour Alan Wassyng M. Lawford R. Paige Z. Diskin 27 0 0 29 Nov 2021
Avoiding Negative Side Effects due to Incomplete Knowledge of AI Systems Sandhya Saisubramanian S. Zilberstein Ece Kamar 20 21 0 24 Aug 2020
AI Research Considerations for Human Existential Safety (ARCHES) Andrew Critch David M. Krueger 30 50 0 30 May 2020
SafeLife 1.0: Exploring Side Effects in Complex Environments Carroll L. Wainwright P. Eckersley 27 12 0 03 Dec 2019
Conservative Agency via Attainable Utility Preservation Alexander Matt Turner Dylan Hadfield-Menell Prasad Tadepalli 30 49 0 26 Feb 2019
Scalable agent alignment via reward modeling: a research direction Jan Leike David M. Krueger Tom Everitt Miljan Martic Vishal Maini Shane Legg 34 397 0 19 Nov 2018
Risk-Sensitive and Robust Decision-Making: a CVaR Optimization Approach Yinlam Chow Aviv Tamar Shie Mannor Marco Pavone 73 314 0 06 Jun 2015
Safe Exploration in Markov Decision Processes T. Moldovan Pieter Abbeel 78 308 0 22 May 2012