v1v2 (latest)

Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression

26 May 2025

Papers citing "Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression"

32 / 32 papers shown

Title
Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions Zhiwen Li Die Chen Mingyuan Fan Cen Chen Yaliang Li Yanhao Wang Wenmeng Zhou DiffM 75 2 0 21 May 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 113 4 0 17 Apr 2025
ACE: Attentional Concept Erasure in Diffusion Models Finn Carter DiffM 115 1 0 16 Apr 2025
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models K. Thakral Tamar Glaser Tal Hassner Mayank Vatsa Richa Singh 97 3 0 25 Mar 2025
Safe and Reliable Diffusion Models via Subspace Projection Huiqiang Chen Tianqing Zhu Linlin Wang Xin Yu Longxiang Gao Wanlei Zhou DiffM 91 4 0 21 Mar 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 89 2 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 115 2 0 18 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 193 2 0 13 Mar 2025
CASteer: Steering Diffusion Models for Controllable Generation T. Gaintseva Chengcheng Ma Ziquan Liu Martin Benning Gregory Slabaugh Jiankang Deng Ismail Elezi LLMSV DiffM 76 3 0 11 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 109 2 0 10 Mar 2025
SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models Ouxiang Li Yuan Wang Xinting Hu Houcheng Jiang Tao Liang Y. Hao Guojun Ma Fuli Feng DiffM 92 2 0 10 Mar 2025
SafeText: Safe Text-to-image Models via Aligning the Text Encoder Yuepeng Hu Zhengyuan Jiang Neil Zhenqiang Gong 101 5 0 28 Feb 2025
Unified Prompt Attack Against Text-to-Image Generation Models Duo Peng Qiuhong Ke Mark He Huang Ping Hu Jing Liu 89 1 0 23 Feb 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong Tieniu Tan DiffM 103 3 0 22 Feb 2025
Robust Concept Erasure Using Task Vectors Minh Pham Kelly O. Marshall Chinmay Hegde Niv Cohen 188 20 0 21 Feb 2025
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation Lijun Li Zhelun Shi Xuhao Hu Bowen Dong Yiran Qin Xihui Liu Lu Sheng Jing Shao 148 2 0 21 Feb 2025
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models Changhoon Kim Yanjun Qi DiffM 118 4 0 17 Feb 2025
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations Dahye Kim Deepti Ghadiyaram LLMSV DiffM 115 7 0 31 Jan 2025
Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models Jaesin Ahn Heechul Jung DiffM 125 2 0 31 Jan 2025
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiński Kamil Deja DiffM 131 9 0 29 Jan 2025
CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary Jiahang Tu Qian Feng Chufan Chen Jiahua Dong Hanbin Zhao Chao Zhang Hui Qian 109 4 0 28 Jan 2025
EraseBench: Understanding The Ripple Effects of Concept Erasure Techniques Ibtihel Amara Ahmed Imtiaz Humayun Ivana Kajić Zarana Parekh Natalie Harris ... Deepak Ramachandran G. Farnadi Katherine Heller Mohammad Havaei Negar Rostamzadeh 78 3 0 20 Jan 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 165 19 0 17 Jan 2025
ACE: Anti-Editing Concept Erasure in Text-to-Image Models Zihao Wang Yuxiang Wei Fan Li Renjing Pei Hang Xu Wangmeng Zuo KELM 69 3 0 03 Jan 2025
AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors Mengnan Zhao Lulu Zhang Xingyi Yang Tianhang Zheng Baocai Yin DiffM 85 2 0 03 Jan 2025
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure Feng Han Kai-xiang Chen Chao Gong Zhipeng Wei Jingjing Chen Yu-Gang Jiang 89 3 0 03 Jan 2025
Continuous Concepts Removal in Text-to-image Diffusion Models Tingxu Han Weisong Sun Yanrong Hu Chunrong Fang Yonglong Zhang Shiqing Ma Tao Zheng Zhenyu Chen Zhenting Wang DiffM 190 3 0 30 Nov 2024
MUNBa: Machine Unlearning via Nash Bargaining Jing Wu Mehrtash Harandi MU 162 5 0 23 Nov 2024
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation Anh-Vu Bui L. Vuong Khanh Doan Trung Le Paul Montague Tamas Abraham Dinh Q. Phung KELM DiffM 112 12 0 21 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 94 3 0 08 Oct 2024
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models Jie Ren Kangrui Chen Yingqian Cui Shenglai Zeng Hui Liu Yue Xing Jiliang Tang Lingjuan Lyu 104 2 0 21 Jun 2024
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient Yongliang Wu Shiji Zhou Mingzhuo Yang Lianzhe Wang Wenbo Zhu Heng Chang Xiao Zhou Xu Yang Xu Yang 140 21 0 24 May 2024