Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities

Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities

3 February 2025

Anirudh Satheesh

Rohit Gandikota

Dylan Hadfield-Menell

Papers citing "Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities"

1 / 1 papers shown

Title
Adaptively evaluating models with task elicitation Davis Brown Prithvi Balehannina Helen Jin Shreya Havaldar Hamed Hassani Eric Wong ALM ELM 82 0 0 03 Mar 2025