Jailbreaking Prompt Attack: A Controllable Adversarial Attack against
Diffusion Models

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models

2 April 2024

Papers citing "Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models"

13 / 13 papers shown

Title
Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings Zonghao Ying Guangyi Zheng Yongxin Huang Deyue Zhang Wenxin Zhang Quanchen Zou Aishan Liu X. Liu Dacheng Tao ELM 74 6 0 19 Mar 2025
"I am bad": Interpreting Stealthy, Universal and Robust Audio Jailbreaks in Audio-Language Models Isha Gupta David Khachaturov Robert D. Mullins AAML AuLLM 65 1 0 02 Feb 2025
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Joey Tianyi Zhou 79 15 0 16 Oct 2024
Unstable Unlearning: The Hidden Risk of Concept Resurgence in Diffusion Models Vinith M. Suriyakumar Rohan Alur Ayush Sekhari Manish Raghavan Ashia C. Wilson 55 2 0 10 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 41 1 0 08 Oct 2024
Perception-guided Jailbreak against Text-to-Image Models Yihao Huang Le Liang Tianlin Li Xiaojun Jia Run Wang Weikai Miao G. Pu Yang Liu 41 7 0 20 Aug 2024
DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization Pucheng Dang Xing Hu Dong Li Rui Zhang Qi Guo Kaidi Xu DiffM 36 5 0 18 Aug 2024
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models Yibo Miao Yifan Zhu Yinpeng Dong Lijia Yu Jun Zhu Xiao-Shan Gao EGVM 43 12 0 08 Jul 2024
Red-Teaming the Stable Diffusion Safety Filter Javier Rando Daniel Paleka David Lindner Lennard Heim Florian Tramèr DiffM 126 183 0 03 Oct 2022
Discovering the Hidden Vocabulary of DALLE-2 Giannis Daras A. Dimakis 129 64 0 01 Jun 2022
Label-Efficient Semantic Segmentation with Diffusion Models Dmitry Baranchuk Ivan Rubachev A. Voynov Valentin Khrulkov Artem Babenko DiffM VLM 195 516 0 06 Dec 2021
Crystal Diffusion Variational Autoencoder for Periodic Material Generation Tian Xie Xiang Fu O. Ganea Regina Barzilay Tommi Jaakkola DiffM BDL 212 232 0 12 Oct 2021
Gradient-based Adversarial Attacks against Text Transformers Chuan Guo Alexandre Sablayrolles Hervé Jégou Douwe Kiela SILM 100 227 0 15 Apr 2021