From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses

9 October 2025

Papers citing "From Defender to Devil? Unintended Risk Interactions Induced by LLM Defenses"

1 / 1 papers shown

Title
Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following Qingyu Ren Qianyu He Bowei Zhang Jie Zeng Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu OffRL LRM 38 0 0 04 Aug 2025