AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM
Experts

AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts

9 April 2024

Prasoon Varshney

Christopher Parisien

Papers citing "AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts"

10 / 10 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation Ning Wang Zihan Yan W. Li Chuan Ma H. Chen Tao Xiang AAML 35 0 0 22 Apr 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun-Xiong Xia Tianyi Wu Zhiwei Xue Y. Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 129 13 0 30 Jan 2025
Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus Raviraj Joshi Kanishk Singla Anusha Kamath Raunak Kalani Rakesh Paul Utkarsh Vaidya Sanjay Singh Chauhan Niranjan Wartikar Eileen Long SyDa CLL 31 2 0 18 Oct 2024
On Calibration of LLM-based Guard Models for Reliable Content Moderation Hongfu Liu Hengguan Huang Hao Wang Xiangming Gu Ye Wang 53 2 0 14 Oct 2024
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models Seanie Lee Haebin Seong Dong Bok Lee Minki Kang Xiaoyin Chen Dominik Wagner Yoshua Bengio Juho Lee Sung Ju Hwang 65 2 0 02 Oct 2024
MEOW: MEMOry Supervised LLM Unlearning Via Inverted Facts Tianle Gu Kexin Huang Ruilin Luo Yuanqi Yao Yujiu Yang Yan Teng Yingchun Wang MU 21 4 0 18 Sep 2024
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer Bowen Tan Yun Zhu Lijuan Liu Eric P. Xing Zhiting Hu Jindong Chen ALM LRM 16 7 0 12 Nov 2023
BiasX: "Thinking Slow" in Toxic Content Moderation with Explanations of Implied Social Biases Yiming Zhang Sravani Nanduri Liwei Jiang Tongshuang Wu Maarten Sap 20 7 0 23 May 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022