Making Harmful Behaviors Unlearnable for Large Language Models

2 November 2023

Xuanjing Huang

Papers citing "Making Harmful Behaviors Unlearnable for Large Language Models"

3 / 3 papers shown

Title
A Survey on Unlearnable Data Jiahao Li Yiqiang Chen Yunbing Xing Yang Gu Xiangyuan Lan AAML 53 0 0 30 Mar 2025
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
Unlearnable Examples: Making Personal Data Unexploitable Hanxun Huang Xingjun Ma S. Erfani James Bailey Yisen Wang MIACV 136 189 0 13 Jan 2021