v1v2 (latest)

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

6 February 2024

ArXiv (abs)PDF HTML HuggingFace (6 upvotes)Github (652★)

Papers citing "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal"

50 / 487 papers shown

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language ModelsInternational Conference on Learning Representations (ICLR), 2024

505

27 Aug 2024

Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks

Kexin Chen

172

18 Aug 2024

$$\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models$

\textit{MMJ-Bench}

: A Comprehensive Study on Jailbreak Attacks and Defenses for Vision Language Models

233

16 Aug 2024

Large language models can consistently generate high-quality content for election disinformation operationsPLoS ONE (PLoS ONE), 2024

154

13 Aug 2024

WalledEval: A Comprehensive Safety Evaluation Toolkit for Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

...

Soujanya Poria

240

07 Aug 2024

SEAS: Self-Evolving Adversarial Safety Optimization for Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2024

Xunliang Cai

241

05 Aug 2024

Mission Impossible: A Statistical Perspective on Jailbreaking LLMsNeural Information Processing Systems (NeurIPS), 2024

Jingtong Su

Mingyu Lee

SangKeun Lee

217

02 Aug 2024

Tamper-Resistant Safeguards for Open-Weight LLMsInternational Conference on Learning Representations (ICLR), 2024

Andy Zhou

...

470

108

01 Aug 2024

Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress?

...

272

31 Jul 2024

ShieldGemma: Generative AI Content Moderation Based on Gemma

...

Bhaktipriya Radharapu

Olivia Sturman

O. Wahltinez

AI4MH

357

112

31 Jul 2024

Defending Jailbreak Attack in VLMs via Cross-modality Information Detector

255

31 Jul 2024

Know Your Limits: A Survey of Abstention in Large Language Models

529

25 Jul 2024

Course-Correction: Safety Alignment Using Synthetic Preferences

Haiqin Weng

Yan Liu

Tianwei Zhang

Wei Xu

Han Qiu

203

23 Jul 2024

Revisiting the Robust Alignment of Circuit Breakers

Leo Schwinn

Simon Geisler

AAML

291

22 Jul 2024

Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs)

443

20 Jul 2024

Does Refusal Training in LLMs Generalize to the Past Tense?

Maksym Andriushchenko

Nicolas Flammarion

578

16 Jul 2024

Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

388

12 Jul 2024

T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models

Yibo Miao

Yifan Zhu

Yinpeng Dong

Lijia Yu

Jun Zhu

Xiao-Shan Gao

EGVM

304

08 Jul 2024

R^2

-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning

Mintong Kang

Yue Liu

LRM

312

08 Jul 2024

Jailbreak Attacks and Defenses Against Large Language Models: A Survey

Zhen Sun

Qi Li

345

208

05 Jul 2024

Purple-teaming LLMs with Adversarial Defender Training

Jingyan Zhou

Kun Li

Junan Li

Jiawen Kang

Minda Hu

Xixin Wu

Helen Meng

AAML

229

01 Jul 2024

Badllama 3: removing safety finetuning from Llama 3 in minutes

Dmitrii Volkov

134

01 Jul 2024

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

230

28 Jun 2024

WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs

Bill Yuchen Lin

Nathan Lambert

Yejin Choi

Nouha Dziri

383

234

26 Jun 2024

AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies

Ruoxi Jia

Dawn Song

Abigail Z. Jacobs

Bo Li

262

25 Jun 2024

BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models

Yi Zeng

Weiyu Sun

Tran Ngoc Huynh

Dawn Song

Bo Li

Ruoxi Jia

AAML LLMSV

226

24 Jun 2024

INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness

Hung Le

Yingbo Zhou

Caiming Xiong

Silvio Savarese

Doyen Sahoo

284

23 Jun 2024

Steering Without Side Effects: Improving Post-Deployment Control of Language Models

253

21 Jun 2024

Raising the Bar: Investigating the Values of Large Language Models via Generative Evolving Testing

652

20 Jun 2024

Towards Understanding Safety Alignment: A Mechanistic Perspective from Safety Neurons

349

20 Jun 2024

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Tinghao Xie

Xiangyu Qi

Yi Zeng

Yangsibo Huang

Udari Madhushani Sehwag

...

Bo Li

Kai Li

431

141

20 Jun 2024

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM AgentsNeural Information Processing Systems (NeurIPS), 2024

Florian Tramèr

425

19 Jun 2024

Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner

Kenneth Li

Yiming Wang

Fernanda Viégas

Martin Wattenberg

279

17 Jun 2024

Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations

275

17 Jun 2024

Refusal in Language Models Is Mediated by a Single Direction

Nina Panickssery

394

430

17 Jun 2024

"Not Aligned" is Not "Malicious": Being Careful about Hallucinations of Large Language Models' Jailbreak

Lingrui Mei

Shenghua Liu

209

17 Jun 2024

Towards Understanding Jailbreak Attacks in LLMs: A Representation Space Analysis

Makoto Yamada

Hui Liu

Shucheng Zhou

238

16 Jun 2024

Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs

Zhao Xu

Fan Liu

Hao Liu

AAML

275

13 Jun 2024

JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models

483

13 Jun 2024

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery

Guanting Dong

...

402

12 Jun 2024

Annotation alignment: Comparing LLM and human annotations of conversational safety

381

10 Jun 2024

SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner

Xunguang Wang

Shuai Wang

Yingjiu Li

Yang Liu

Ning Liu

Juergen Rahmel

AAML

485

08 Jun 2024

Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs

Fan Liu

Zhao Xu

Hao Liu

AAML

258

07 Jun 2024

Improving Alignment and Robustness with Circuit BreakersNeural Information Processing Systems (NeurIPS), 2024

Maksym Andriushchenko

624

214

06 Jun 2024

Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses

318

03 Jun 2024

Improved Techniques for Optimization-Based Jailbreaking on Large Language Models

Jindong Gu

Yang Liu

Simeng Qin

Min Lin

AAML

367

31 May 2024

Preemptive Answer "Attacks" on Chain-of-Thought Reasoning

173

31 May 2024

Jailbreaking Large Language Models Against Moderation Guardrails via Cipher Characters

Haibo Jin

Andy Zhou

Joe D. Menke

Haohan Wang

224

30 May 2024

AI Risk Management Should Incorporate Both Safety and Security

Yi Zeng

...

280

29 May 2024

Voice Jailbreak Attacks Against GPT-4o

Michael Backes

309

29 May 2024