Efficient Detection of Toxic Prompts in Large Language Models

21 August 2024

Yi Liu

Yang Liu

Papers citing "Efficient Detection of Toxic Prompts in Large Language Models"

2 / 2 papers shown

Title
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation Ning Wang Zihan Yan W. Li Chuan Ma H. Chen Tao Xiang AAML 35 0 0 22 Apr 2025
SEER: Self-Explainability Enhancement of Large Language Models' Representations Guanxu Chen Dongrui Liu Tao Luo Jing Shao LRM MILM 59 1 0 07 Feb 2025