To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

18 October 2023

Papers citing "To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now"

50 / 72 papers shown

Title
The Dual Power of Interpretable Token Embeddings: Jailbreaking Attacks and Defenses for Diffusion Model Unlearning Siyi Chen Yimeng Zhang Sijia Liu Q. Qu AAML 58 0 0 30 Apr 2025
Erased but Not Forgotten: How Backdoors Compromise Concept Erasure Jonas Henry Grebe Tobias Braun Marcus Rohrbach Anna Rohrbach AAML 75 0 0 29 Apr 2025
Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models Hao Xuan Xingyu Li AAML MU 43 0 0 21 Apr 2025
What Lurks Within? Concept Auditing for Shared Diffusion Models at Scale Xiaoyong Yuan Xiaolong Ma Linke Guo Lan Zhang DiffM 32 0 0 21 Apr 2025
Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization Shouwei Ruan Zhenyu Wu Yao Huang Ruochen Zhang Yitong Sun Caixin Kang Xingxing Wei EGVM 31 0 0 19 Apr 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 40 0 0 17 Apr 2025
Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models J. Liu Zhaoxin Wang Handing Wang Cong Tian Yaochu Jin 21 0 0 15 Apr 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Steven G. McDonagh Sotirios A. Tsaftaris 50 1 0 18 Mar 2025
Safe Vision-Language Models via Unsafe Weights Manipulation Moreno DÍncà E. Peruzzo Xingqian Xu Humphrey Shi N. Sebe Massimiliano Mancini MU 55 0 0 14 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 103 1 0 13 Mar 2025
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models Zhihua Tian Sirun Nan Ming Xu Shengfang Zhai Wenjie Qu Jian Liu Kui Ren Ruoxi Jia Jiaheng Zhang DiffM 80 1 0 12 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 56 1 0 10 Mar 2025
SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models Ouxiang Li Yuan Wang Xinting Hu Houcheng Jiang Tao Liang Y. Hao Guojun Ma Fuli Feng DiffM 44 1 0 10 Mar 2025
On the Vulnerability of Concept Erasure in Diffusion Models Lucas Beerens Alex D. Richardson K. Zhang Dongdong Chen DiffM 60 2 0 24 Feb 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong DiffM 38 2 0 22 Feb 2025
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models Changhoon Kim Yanjun Qi DiffM 33 1 0 17 Feb 2025
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiñski Kamil Deja DiffM 61 6 0 29 Jan 2025
CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary Jiahang Tu Qian Feng Chufan Chen Jiahua Dong Hanbin Zhao Chao Zhang Hui Qian 62 2 0 28 Jan 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 73 12 0 17 Jan 2025
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure Feng Han Kai-xiang Chen Chao Gong Zhipeng Wei Jingjing Chen Yu-Gang Jiang 32 2 0 03 Jan 2025
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization Jiangweizhi Peng Zhiwei Tang Gaowen Liu Charles Fleming Mingyi Hong 72 0 0 05 Dec 2024
Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation Gianni Franchi Dat Nguyen Trong Nacim Belkhir Guoxuan Xia Andrea Pilzer UQLM 68 0 0 04 Dec 2024
Memories of Forgotten Concepts M. Rusanovsky Shimon Malnick Amir Jevnisek Ohad Fried S. Avidan DiffM 61 0 0 01 Dec 2024
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection Jinqi Xiao S. Sang Tiancheng Zhi Jing Liu Qing Yan Linjie Luo Bo Yuan Bo Yuan VLM 81 1 0 26 Nov 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 83 0 0 25 Nov 2024
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing Hanhui Wang Yihua Zhang Ruizheng Bai Yue Zhao Sijia Liu Z. Tu AAML PICV 95 2 0 25 Nov 2024
MUNBa: Machine Unlearning via Nash Bargaining Jing Wu Mehrtash Harandi MU 71 3 0 23 Nov 2024
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction J. Vice Naveed Akhtar Richard I. Hartley Ajmal Saeed Mian Ajmal Mian DiffM 82 0 0 21 Nov 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 58 6 0 14 Nov 2024
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation Anh-Vu Bui L. Vuong Khanh Doan Trung Le Paul Montague Tamas Abraham Dinh Q. Phung KELM DiffM 23 8 0 21 Oct 2024
Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts Hongcheng Gao Tianyu Pang Chao Du Taihang Hu Zhijie Deng Min-Bin Lin DiffM 38 6 0 16 Oct 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Mohit Bansal 59 14 0 16 Oct 2024
RealEra: Semantic-level Concept Erasure via Neighbor-Concept Mining Yufan Liu Jinyang An Wanqian Zhang Ming Li Dayan Wu Jingzi Gu Zheng-Shen Lin Weiping Wang 19 4 0 11 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 31 1 0 08 Oct 2024
Attention Shift: Steering AI Away from Unsafe Content Shivank Garg Manyana Tiwari 18 0 0 06 Oct 2024
Real-World Benchmarks Make Membership Inference Attacks Fail on Diffusion Models Chumeng Liang Jiaxuan You 31 0 0 04 Oct 2024
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models Hongxiang Zhang Yifeng He Hao Chen 18 2 0 03 Oct 2024
Dark Miner: Defend against unsafe generation for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yue Jiang Jing Dong Wei Wang Tieniu Tan DiffM 23 1 0 26 Sep 2024
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models Tianqi Chen Shujian Zhang Mingyuan Zhou DiffM 59 3 0 17 Sep 2024
Attacks and Defenses for Generative Diffusion Models: A Comprehensive Survey V. T. Truong Luan Ba Dang Long Bao Le DiffM MedIm 38 14 0 06 Aug 2024
Machine Unlearning in Generative AI: A Survey Zheyuan Liu Guangyao Dou Zhaoxuan Tan Yijun Tian Meng-Long Jiang MU 29 13 0 30 Jul 2024
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models Chao Gong Kai-xiang Chen Zhipeng Wei Jingjing Chen Yulong Jiang DiffM 34 23 0 17 Jul 2024
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 37 13 0 10 Jul 2024
Replication in Visual Diffusion Models: A Survey and Outlook Wenhao Wang Yifan Sun Zongxin Yang Zhengdong Hu Zhentao Tan Yi Yang 60 6 0 07 Jul 2024
ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning Ruchika Chavhan Da Li Timothy M. Hospedales 23 15 0 29 May 2024
Pruning for Robust Concept Erasing in Diffusion Models Tianyun Yang Juan Cao Chang Xu 21 13 0 26 May 2024
R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model Changhoon Kim Kyle Min Yezhou Yang 40 19 0 25 May 2024
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models Yimeng Zhang Xin Chen Jinghan Jia Yihua Zhang Chongyu Fan Jiancheng Liu Mingyi Hong Ke Ding Sijia Liu DiffM 29 51 0 24 May 2024
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient Yongliang Wu Shiji Zhou Mingzhuo Yang Lianzhe Wang Wenbo Zhu Heng Chang Xiao Zhou Xu Yang Xu Yang 53 18 0 24 May 2024
Hide and Seek: How Does Watermarking Impact Face Recognition? Yuguang Yao Steven Grosz Sijia Liu Anil K. Jain 30 1 0 29 Apr 2024