v1v2 (latest)

Corrigibility with Utility Preservation

5 August 2019

K. Holtman

KELM

ArXiv (abs)PDF HTML

Papers citing "Corrigibility with Utility Preservation"

9 / 9 papers shown

Password-Activated Shutdown Protocols for Misaligned Frontier Agents

Kai Williams

Rohan Subramani

Francis Rhys Ward

113

29 Nov 2025

Emergent Risk Awareness in Rational Agents under Resource Constraints

441

29 May 2025

Beyond Preferences in AI AlignmentPhilosophical Studies (Philos. Stud.), 2024

Tan Zhi-Xuan

Micah Carroll

Matija Franklin

Hal Ashton

425

30 Aug 2024

Towards shutdownable agents via stochastic choice

564

30 Jun 2024

Human Control: Definitions and AlgorithmsConference on Uncertainty in Artificial Intelligence (UAI), 2023

Ryan Carey

Tom Everitt

355

31 May 2023

Counterfactual Planning in AGI Systems

K. Holtman

161

29 Jan 2021

REALab: An Embedded Perspective on Tampering

292

17 Nov 2020

Achilles Heels for AGI/ASI via Decision Theoretic Adversaries

Stephen L. Casper

573

12 Oct 2020

AGI Agent Safety by Iteratively Improving the Utility FunctionArtificial General Intelligence (AGI), 2020

K. Holtman

AI4CE

147

10 Jul 2020