Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights?

24 February 2023

Papers citing "Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights?"

9 / 9 papers shown

Title
CAMEx: Curvature-aware Merging of Experts Dung V. Nguyen Minh H. Nguyen Luc Q. Nguyen R. Teo T. Nguyen Linh Duy Tran MoMe 63 2 0 26 Feb 2025
Optimal Brain Iterative Merging: Mitigating Interference in LLM Merging Zhixiang Wang Zhenyu Mao Yixuan Qiao Yunfang Wu Biye Li MoMe 73 0 0 17 Feb 2025
Fairness Reprogramming Guanhua Zhang Yihua Zhang Yang Zhang Wenqi Fan Qing Li Sijia Liu Shiyu Chang AAML 75 38 0 21 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Evaluating the Adversarial Robustness of Adaptive Test-time Defenses Francesco Croce Sven Gowal T. Brunner Evan Shelhamer Matthias Hein A. Cemgil TTA AAML 162 67 0 28 Feb 2022
Editing a classifier by rewriting its prediction rules Shibani Santurkar Dimitris Tsipras Mahalaxmi Elango David Bau Antonio Torralba A. Madry KELM 158 89 0 02 Dec 2021
Fast Model Editing at Scale E. Mitchell Charles Lin Antoine Bosselut Chelsea Finn Christopher D. Manning KELM 219 341 0 21 Oct 2021
Exploring Architectural Ingredients of Adversarially Robust Deep Neural Networks Hanxun Huang Yisen Wang S. Erfani Quanquan Gu James Bailey Xingjun Ma AAML TPM 44 100 0 07 Oct 2021
WARP: Word-level Adversarial ReProgramming Karen Hambardzumyan Hrant Khachatrian Jonathan May AAML 248 340 0 01 Jan 2021