SafeText: A Benchmark for Exploring Physical Safety in Language Models

SafeText: A Benchmark for Exploring Physical Safety in Language Models

18 October 2022

Melanie Subbiah

Lydia B. Chilton

Kathleen McKeown

William Yang Wang

Papers citing "SafeText: A Benchmark for Exploring Physical Safety in Language Models"

10 / 10 papers shown

Title
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 61 0 0 25 Apr 2025
CHBench: A Chinese Dataset for Evaluating Health in Large Language Models Chenlu Guo Nuo Xu Yi-Ju Chang Yuan Wu AI4MH LM&MA 55 1 0 24 Feb 2025
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 39 0 0 25 Oct 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 58 30 0 08 Apr 2024
Evaluating and Improving Value Judgments in AI: A Scenario-Based Study on Large Language Models' Depiction of Social Conventions Jaeyoun You Bongwon Suh 34 0 0 04 Oct 2023
XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models Paul Röttger Hannah Rose Kirk Bertie Vidgen Giuseppe Attanasio Federico Bianchi Dirk Hovy ALM ELM AILaw 23 122 0 02 Aug 2023
Similarity-weighted Construction of Contextualized Commonsense Knowledge Graphs for Knowledge-intense Argumentation Tasks Moritz Plenz Juri Opitz Philipp Heinisch Philipp Cimiano Anette Frank 22 9 0 15 May 2023
Mitigating Covertly Unsafe Text within Natural Language Systems Alex Mei Anisha Kabir Sharon Levy Melanie Subbiah Emily Allaway J. Judge D. Patton Bruce Bimber Kathleen McKeown William Yang Wang 45 13 0 17 Oct 2022
Latent Hatred: A Benchmark for Understanding Implicit Hate Speech Mai Elsherief Caleb Ziems D. Muchlinski Vaishnavi Anupindi Jordyn Seybolt M. D. Choudhury Diyi Yang 92 236 0 11 Sep 2021
ANLIzing the Adversarial Natural Language Inference Dataset Adina Williams Tristan Thrush Douwe Kiela AAML 166 45 0 24 Oct 2020