Title
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing Yifan Lu Jing Li Yigeng Zhou Yihui Zhang Wenya Wang Xiucheng Li Meishan Zhang Fangming Liu Jun-chen Yu Min Zhang KELM CLL 50 1 0 28 May 2025
Safety Alignment via Constrained Knowledge Unlearning Zesheng Shi Yucheng Zhou Jing Li MU KELM AAML 73 2 0 24 May 2025
Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling Junlin Li Guodong DU Jing Li Sim Kuan Goh Wenya Wang ... Fangming Liu Jing Li Saleh Alharbi Daojing He Min Zhang MoMe CLL 141 1 0 21 May 2025
PARM: Multi-Objective Test-Time Alignment via Preference-Aware Autoregressive Reward Model Baijiong Lin Weisen Jiang Yuancheng Xu Hao Chen Ying-Cong Chen 86 1 0 06 May 2025
Delta Decompression for MoE-based LLMs Compression Hao Gu Wei Li Lujun Li Qiyuan Zhu Mark Lee Shengjie Sun Wei Xue Yike Guo MoE 130 3 0 24 Feb 2025
Task Singular Vectors: Reducing Task Interference in Model Merging Antonio Andrea Gargiulo Donato Crisostomi Maria Sofia Bucarelli Simone Scardapane Fabrizio Silvestri Emanuele Rodolà MoMe 167 16 0 26 Nov 2024
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment Yuancheng Xu Udari Madhushani Sehwag Alec Koppel Sicheng Zhu Bang An Furong Huang Sumitra Ganesh 141 14 0 10 Oct 2024
OR-Bench: An Over-Refusal Benchmark for Large Language Models Justin Cui Wei-Lin Chiang Ion Stoica Cho-Jui Hsieh ALM 161 55 0 31 May 2024