Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion
Models?

Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?

16 October 2023

Chulin Xie

Chun-ying Huang

Papers citing "Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?"

19 / 19 papers shown

Title
SafeText: Safe Text-to-image Models via Aligning the Text Encoder Yuepeng Hu Zhengyuan Jiang Neil Zhenqiang Gong 42 1 0 28 Feb 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong DiffM 38 2 0 22 Feb 2025
Robust Concept Erasure Using Task Vectors Minh Pham Kelly O. Marshall Chinmay Hegde Niv Cohen 112 17 0 21 Feb 2025
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models Changhoon Kim Yanjun Qi DiffM 33 1 0 17 Feb 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 73 13 0 17 Jan 2025
MLLM-as-a-Judge for Image Safety without Human Labeling Zhenting Wang Shuming Hu Shiyu Zhao Xiaowen Lin F. Xu ... Nan Jiang Lingjuan Lyu Shiqing Ma Dimitris N. Metaxas Ankit Jain 84 1 0 31 Dec 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 83 0 0 25 Nov 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Mohit Bansal 64 14 0 16 Oct 2024
DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization Pucheng Dang Xing Hu Dong Li Rui Zhang Qi Guo Kaidi Xu DiffM 31 5 0 18 Aug 2024
Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong Zheng Li Xiangtao Meng Ning Yu Shanqing Guo LLMAG 36 13 0 01 Aug 2024
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models Yibo Miao Yifan Zhu Yinpeng Dong Lijia Yu Jun Zhu Xiao-Shan Gao EGVM 31 12 0 08 Jul 2024
MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning Jiali Cheng Hadi Amiri BDL 33 3 0 21 Jun 2024
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection Zhiyuan He Pin-Yu Chen Tsung-Yi Ho 31 12 0 30 May 2024
Black-Box Access is Insufficient for Rigorous AI Audits Stephen Casper Carson Ezell Charlotte Siegmann Noam Kolt Taylor Lynn Curtis ... Michael Gerovitch David Bau Max Tegmark David M. Krueger Dylan Hadfield-Menell AAML 13 75 0 25 Jan 2024
Red-Teaming the Stable Diffusion Safety Filter Javier Rando Daniel Paleka David Lindner Lennard Heim Florian Tramèr DiffM 122 179 0 03 Oct 2022
The Power of Scale for Parameter-Efficient Prompt Tuning Brian Lester Rami Al-Rfou Noah Constant VPVLM 278 3,784 0 18 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 253 4,735 0 24 Feb 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,898 0 31 Dec 2020
Language Models as Knowledge Bases? Fabio Petroni Tim Rocktaschel Patrick Lewis A. Bakhtin Yuxiang Wu Alexander H. Miller Sebastian Riedel KELM AI4MH 404 2,576 0 03 Sep 2019