To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

18 October 2023

Papers citing "To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now"

22 / 72 papers shown

Title
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models Jiachen Ma Anda Cao Zhiqing Xiao Jie Zhang Chaonan Ye Junbo Zhao 14 29 0 02 Apr 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 29 28 0 20 Mar 2024
The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection Mohammad Jafari Yimeng Zhang Yihua Zhang Sijia Liu 23 2 0 18 Mar 2024
Challenging Forgets: Unveiling the Worst-Case Forget Sets in Machine Unlearning Chongyu Fan Jiancheng Liu Alfred Hero Sijia Liu MU 20 10 0 12 Mar 2024
MACE: Mass Concept Erasure in Diffusion Models Shilin Lu Zilan Wang Leyang Li Yanzhu Liu A. Kong DiffM 23 75 0 10 Mar 2024
GuardT2I: Defending Text-to-Image Models from Adversarial Prompts Yijun Yang Ruiyuan Gao Xiao Yang Jianyuan Zhong Qiang Xu 25 4 0 03 Mar 2024
UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models Yihua Zhang Chongyu Fan Yimeng Zhang Yuguang Yao Jinghan Jia ... Gaoyuan Zhang Gaowen Liu Ramana Rao Kompella Xiaoming Liu Sijia Liu DiffM 29 4 0 19 Feb 2024
Rethinking Machine Unlearning for Large Language Models Sijia Liu Yuanshun Yao Jinghan Jia Stephen Casper Nathalie Baracaldo ... Hang Li Kush R. Varshney Mohit Bansal Sanmi Koyejo Yang Liu AILaw MU 63 79 0 13 Feb 2024
Separable Multi-Concept Erasure from Diffusion Models Mengnan Zhao Lihe Zhang Tianhang Zheng Yuqiu Kong Baocai Yin 36 9 0 03 Feb 2024
On Catastrophic Inheritance of Large Foundation Models Hao Chen Bhiksha Raj Xing Xie Jindong Wang AI4CE 48 12 0 02 Feb 2024
Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers Chi-Pin Huang Kai-Po Chang Chung-Ting Tsai Yung-Hsuan Lai Fu-En Yang Yu-Chiang Frank Wang DiffM 11 46 0 29 Nov 2023
MMA-Diffusion: MultiModal Attack on Diffusion Models Yijun Yang Ruiyuan Gao Xiaosen Wang Tsung-Yi Ho Nan Xu Qiang Xu 19 61 0 29 Nov 2023
Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation Hang Li Chengzhi Shen Philip H. S. Torr Volker Tresp Jindong Gu 24 30 0 28 Nov 2023
SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation Chongyu Fan Jiancheng Liu Yihua Zhang Eric Wong Dennis Wei Sijia Liu MU 11 120 0 19 Oct 2023
In-Context Learning Unlocked for Diffusion Models Zhendong Wang Yifan Jiang Yadong Lu Yelong Shen Pengcheng He Weizhu Chen Zhangyang Wang Mingyuan Zhou VLM DiffM 86 68 0 01 May 2023
GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis Ming Tao Bingkun Bao Hao Tang Changsheng Xu DiffM VLM 58 99 0 30 Jan 2023
Red-Teaming the Stable Diffusion Safety Filter Javier Rando Daniel Paleka David Lindner Lennard Heim Florian Tramèr DiffM 122 179 0 03 Oct 2022
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 186 1,098 0 10 Sep 2022
A Survey of Machine Unlearning Thanh Tam Nguyen T. T. Huynh Phi Le Nguyen Alan Wee-Chung Liew Hongzhi Yin Quoc Viet Hung Nguyen MU 77 216 0 06 Sep 2022
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 322 2,249 0 02 Sep 2021
Meta Gradient Adversarial Attack Zheng Yuan Jie M. Zhang Yunpei Jia Chuanqi Tan Tao Xue Shiguang Shan AAML 43 76 0 09 Aug 2021
Generating Natural Language Adversarial Examples M. Alzantot Yash Sharma Ahmed Elgohary Bo-Jhang Ho Mani B. Srivastava Kai-Wei Chang AAML 233 909 0 21 Apr 2018