Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability

8 January 2024

Papers citing "Evaluating Brain-Inspired Modular Training in Automated Circuit Discovery for Mechanistic Interpretability"

4 / 4 papers shown

Title
Knowledge Mechanisms in Large Language Models: A Survey and Perspective Meng Wang Yunzhi Yao Ziwen Xu Shuofei Qiao Shumin Deng ... Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen Ningyu Zhang 47 27 0 22 Jul 2024
Mechanistic Interpretability for AI Safety -- A Review Leonard Bereska E. Gavves AI4CE 38 111 0 22 Apr 2024
The Garden of Forking Paths: Observing Dynamic Parameters Distribution in Large Language Models Carlo Nicolini Jacopo Staiano Bruno Lepri Raffaele Marino MoE 21 1 0 13 Mar 2024
Growing Brains: Co-emergence of Anatomical and Functional Modularity in Recurrent Neural Networks Ziming Liu Mikail Khona Ila R. Fiete Max Tegmark 26 12 0 11 Oct 2023