Mitigating Covertly Unsafe Text within Natural Language Systems

Mitigating Covertly Unsafe Text within Natural Language Systems

17 October 2022

Melanie Subbiah

Kathleen McKeown

William Yang Wang

Papers citing "Mitigating Covertly Unsafe Text within Natural Language Systems"

8 / 8 papers shown

Title
Unlearning Climate Misinformation in Large Language Models Michael Fore Simranjit Singh Chaehong Lee Amritanshu Pandey Antonios Anastasopoulos Dimitrios Stamoulis MU 41 1 0 29 May 2024
A Survey of the Evolution of Language Model-Based Dialogue Systems Hongru Wang Lingzhi Wang Yiming Du Liang Chen Jing Zhou Yufei Wang Kam-Fai Wong LRM 49 20 0 28 Nov 2023
Users are the North Star for AI Transparency Alex Mei Michael Stephen Saxon Shiyu Chang Zachary Chase Lipton William Yang Wang 12 8 0 09 Mar 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Open-Domain Question-Answering for COVID-19 and Other Emergent Domains Sharon Levy Kevin Mo Wenhan Xiong W. Wang OOD LRM 39 12 0 13 Oct 2021
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 254 374 0 28 Feb 2021
Constrained Abstractive Summarization: Preserving Factual Consistency with Constrained Generation Yuning Mao Xiang Ren Heng Ji Jiawei Han HILM 115 38 0 24 Oct 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 273 1,561 0 18 Sep 2019