Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization

22 May 2025

Papers citing "Mitigating Fine-tuning Risks in LLMs via Safety-Aware Probing Optimization"

3 / 3 papers shown

Title
ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs Zeming Wei Chengcan Wu Meng Sun 60 0 0 02 Jun 2025
SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation Mingjie Li Wai Man Si Michael Backes Yang Zhang Yisen Wang 133 19 0 03 Jan 2025
Tamper-Resistant Safeguards for Open-Weight LLMs Rishub Tamirisa Bhrugu Bharathi Long Phan Andy Zhou Alice Gatti ... Andy Zou Dawn Song Bo Li Dan Hendrycks Mantas Mazeika AAML MU 133 63 0 01 Aug 2024