Can LLMs Recognize Toxicity? Definition-Based Toxicity Metric

10 February 2024

Papers citing "Can LLMs Recognize Toxicity? Definition-Based Toxicity Metric"

3 / 3 papers shown

Title
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
"I'm sorry to hear that": Finding New Biases in Language Models with a Holistic Descriptor Dataset Eric Michael Smith Melissa Hall Melanie Kambadur Eleonora Presani Adina Williams 65 128 0 18 May 2022
BBQ: A Hand-Built Bias Benchmark for Question Answering Alicia Parrish Angelica Chen Nikita Nangia Vishakh Padmakumar Jason Phang Jana Thompson Phu Mon Htut Sam Bowman 210 364 0 15 Oct 2021