v1v2 (latest)

Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods

11 June 2025

Papers citing "Prompt Attacks Reveal Superficial Knowledge Removal in Unlearning Methods"

2 / 2 papers shown

Title
Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models Boyi Wei Zora Che Nathaniel Li Udari Madhushani Sehwag Jasper Götting ... Dan Hendrycks Peter Henderson Zifan Wang Seth Donoughe Mantas Mazeika 226 0 0 31 Oct 2025
On the Impossibility of Retrain Equivalence in Machine Unlearning Jiatong Yu Yinghui He Anirudh Goyal Sanjeev Arora MU 266 0 0 18 Oct 2025