Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits

3 June 2024

Andrew Gritsevskiy

Papers citing "Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits"

2 / 2 papers shown

Title
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems David Dalrymple Joar Skalse Yoshua Bengio Stuart J. Russell Max Tegmark ... Clark Barrett Ding Zhao Zhi-Xuan Tan Jeannette Wing Joshua Tenenbaum 44 51 0 10 May 2024
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small Kevin Wang Alexandre Variengien Arthur Conmy Buck Shlegeris Jacob Steinhardt 210 486 0 01 Nov 2022