v1v2 (latest)

Corrigibility with Utility Preservation

5 August 2019

K. Holtman

KELM

ArXiv (abs)PDF HTML

Papers citing "Corrigibility with Utility Preservation"

9 / 9 papers shown

Password-Activated Shutdown Protocols for Misaligned Frontier Agents

Kai Williams

Rohan Subramani

Francis Rhys Ward

29 Nov 2025

Emergent Risk Awareness in Rational Agents under Resource Constraints

335

29 May 2025

Beyond Preferences in AI AlignmentPhilosophical Studies (Philos. Stud.), 2024

Tan Zhi-Xuan

Micah Carroll

Matija Franklin

Hal Ashton

346

30 Aug 2024

Towards shutdownable agents via stochastic choice

459

30 Jun 2024

Human Control: Definitions and AlgorithmsConference on Uncertainty in Artificial Intelligence (UAI), 2023

Ryan Carey

Tom Everitt

216

31 May 2023

Counterfactual Planning in AGI Systems

K. Holtman

113

29 Jan 2021

REALab: An Embedded Perspective on Tampering

159

17 Nov 2020

Achilles Heels for AGI/ASI via Decision Theoretic Adversaries

Stephen L. Casper

378

12 Oct 2020

AGI Agent Safety by Iteratively Improving the Utility FunctionArtificial General Intelligence (AGI), 2020

K. Holtman

AI4CE

106

10 Jul 2020