Healing Unsafe Dialogue Responses with Weak Supervision Signals

Healing Unsafe Dialogue Responses with Weak Supervision Signals

25 May 2023

Pinghui Wang

Xiaofan Ye Yi Huang

Papers citing "Healing Unsafe Dialogue Responses with Weak Supervision Signals"

4 / 4 papers shown

Title
From Pixels to Personas: Investigating and Modeling Self-Anthropomorphism in Human-Robot Dialogues Yu Li Devamanyu Hazarika Di Jin Julia Hirschberg Yang Liu 21 0 0 04 Oct 2024
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 500 0 28 Sep 2022
Multi-Task Pre-Training for Plug-and-Play Task-Oriented Dialogue System Yixuan Su Lei Shu Elman Mansimov Arshit Gupta Deng Cai Yi-An Lai Yi Zhang 148 192 0 29 Sep 2021
Adding Chit-Chat to Enhance Task-Oriented Dialogues Kai Sun Seungwhan Moon Paul A. Crook Stephen Roller Becka Silvert Bing-Quan Liu Zhiguang Wang Honglei Liu Eunjoon Cho Claire Cardie 62 66 0 24 Oct 2020