Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots

Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots

14 July 2023

Bocheng Chen

Guangjing Wang

Hanqing Guo

Yuanda Wang

Papers citing "Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots"

5 / 5 papers shown

Title
Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems Guangjing Wang Ce Zhou Yuanda Wang Bocheng Chen Hanqing Guo Qiben Yan AAML SILM 53 3 0 20 Nov 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 209 568 0 03 May 2023
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 218 441 0 23 Aug 2022
Challenges in Detoxifying Language Models Johannes Welbl Amelia Glaese J. Uesato Sumanth Dathathri John F. J. Mellor Lisa Anne Hendricks Kirsty Anderson Pushmeet Kohli Ben Coppin Po-Sen Huang LM&MA 242 193 0 15 Sep 2021
The Woman Worked as a Babysitter: On Biases in Language Generation Emily Sheng Kai-Wei Chang Premkumar Natarajan Nanyun Peng 206 615 0 03 Sep 2019