Scheming AIs: Will AIs fake alignment during training in order to get power?

14 November 2023

Papers citing "Scheming AIs: Will AIs fake alignment during training in order to get power?"

1 / 1 papers shown

Title
AI Sandbagging: Language Models can Strategically Underperform on Evaluations Teun van der Weij Felix Hofstätter Ollie Jaffe Samuel F. Brown Francis Rhys Ward ELM 24 22 0 11 Jun 2024