Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge

20 September 2023

Papers citing "Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge"

6 / 6 papers shown

Title
REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM Madhur Jindal Saurabh Deshpande AAML 43 0 0 07 May 2025
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 37 13 0 10 Jul 2024
Replication in Visual Diffusion Models: A Survey and Outlook Wenhao Wang Yifan Sun Zongxin Yang Zhengdong Hu Zhentao Tan Yi Yang 68 6 0 07 Jul 2024
LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models Lukas Helff Felix Friedrich Manuel Brack Kristian Kersting P. Schramowski VLM 38 1 0 07 Jun 2024
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images Y. Qu Xinyue Shen Yixin Wu Michael Backes Savvas Zannettou Yang Zhang EGVM 38 9 0 06 May 2024
Latent Guard: a Safety Framework for Text-to-image Generation Runtao Liu Ashkan Khakzar Jindong Gu Qifeng Chen Philip H. S. Torr Fabio Pizzati 21 23 0 11 Apr 2024