Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems

Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems

10 April 2025

Mateusz Dziemian

Natalia Pérez-Campanero Antolín

Papers citing "Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems"

Title
No papers