v1v2 (latest)

RedDebate: Safer Responses through Multi-Agent Red Teaming Debates

4 June 2025

Papers citing "RedDebate: Safer Responses through Multi-Agent Red Teaming Debates"

2 / 2 papers shown

Title
The Alignment Waltz: Jointly Training Agents to Collaborate for Safety Jingyu Zhang Haozhu Wang Eric Michael Smith Sid Wang Amr Sharaf Mahesh Pasupuleti Benjamin Van Durme Daniel Khashabi Jason Weston Hongyuan Zhan 88 0 0 09 Oct 2025
SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs Yixu Wang Xin Wang Yang Yao X. Li Yan Teng Jiabo He Y. Wang LLMAG ELM 148 1 0 30 Sep 2025