Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs

28 February 2025

Papers citing "Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs"

1 / 1 papers shown

Title
IMPersona: Evaluating Individual Level LM Impersonation Quan Shi Carlos E. Jimenez Stephen Dong Brian Seo Caden Yao Adam Kelch Karthik Narasimhan 21 0 0 06 Apr 2025