Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails

Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails

15 January 2025

Prasoon Varshney

Makesh Narsimhan Sreedhar

Aishwarya Padmakumar

Jibin Rajan Varghese

Christopher Parisien

Papers citing "Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails"

9 / 9 papers shown

Title
Safety Through Reasoning: An Empirical Study of Reasoning Guardrail Models Makesh Narsimhan Sreedhar Traian Rebedea Christopher Parisien LRM 43 0 0 26 May 2025
Surfacing Semantic Orthogonality Across Model Safety Benchmarks: A Multi-Dimensional Analysis Jonathan Bennion Shaona Ghosh Mantek Singh Nouha Dziri 104 0 0 23 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yang Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 59 0 0 16 May 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Yang Liu Yangqiu Song Duzhen Zhang Zechao Li ... Shengju Yu Xinfeng Li Junfeng Fang Jiaheng Zhang Bryan Hooi LRM 344 7 0 24 Apr 2025
MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety Yahan Yang Soham Dan Shuo Li Dan Roth Insup Lee LRM 52 0 0 21 Apr 2025
The Structural Safety Generalization Problem Julius Broomfield Tom Gibbs Ethan Kosak-Hine George Ingebretsen Tia Nasir Jason Zhang Reihaneh Iranmanesh Sara Pieri Reihaneh Rabbany Kellin Pelrine AAML 62 0 0 13 Apr 2025
PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages Priyanshu Kumar Devansh Jain Akhila Yerukola Liwei Jiang Himanshu Beniwal Thomas Hartvigsen Maarten Sap 75 1 0 06 Apr 2025
KSOD: Knowledge Supplement for LLMs On Demand Haoran Li Junfeng Hu 68 0 0 10 Mar 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun Xia Tianyi Wu Zhiwei Xue Yuxiao Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 156 20 0 30 Jan 2025