Safety Alignment via Constrained Knowledge Unlearning

24 May 2025

Papers citing "Safety Alignment via Constrained Knowledge Unlearning"

2 / 2 papers shown

Title
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing Yifan Lu Jing Li Yigeng Zhou Yihui Zhang Wenya Wang Xiucheng Li Meishan Zhang Fangming Liu Jun-chen Yu Min Zhang KELM CLL 48 1 0 28 May 2025
Multi-objective Large Language Model Alignment with Hierarchical Experts Zhuo Li Guodong DU Weiyang Guo Yigeng Zhou Xiucheng Li ... Fangming Liu Yequan Wang Deheng Ye Min Zhang Jing Li ALM MoE 70 0 0 27 May 2025