JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models

12 April 2024

Papers citing "JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models"

6 / 6 papers shown

Title
InsightLens: Discovering and Exploring Insights from Conversational Contexts in Large-Language-Model-Powered Data Analysis Luoxuan Weng Xingbo Wang Junyu Lu Yingchaojie Feng Yihan Liu Wei Chen 45 5 0 02 Apr 2024
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs Xiaoxia Li Siyuan Liang Jiyi Zhang Hansheng Fang Aishan Liu Ee-Chien Chang 69 23 0 21 Feb 2024
AgentLens: Visual Analysis for Agent Behaviors in LLM-based Autonomous Systems Jiaying Lu Bo Pan Jieyi Chen Yingchaojie Feng Jingyuan Hu Yuchen Peng Wei Chen 29 13 0 14 Feb 2024
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 147 139 0 16 Oct 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022