Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs

11 November 2024

Papers citing "Combining Domain and Alignment Vectors to Achieve Better Knowledge-Safety Trade-offs in LLMs"

2 / 2 papers shown

Title
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors Ren-Wei Liang Chin-Ting Hsu Chan-Hung Yu Saransh Agrawal Shih-Cheng Huang Shang-Tse Chen Kuan-Hao Huang Shao-Hua Sun 76 0 0 27 Apr 2025
LED-Merging: Mitigating Safety-Utility Conflicts in Model Merging with Location-Election-Disjoint Qianli Ma Dongrui Liu Qian Chen Linfeng Zhang Jing Shao MoMe 56 0 0 24 Feb 2025