Foot In The Door: Understanding Large Language Model Jailbreaking via
Cognitive Psychology

Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology

24 February 2024

Shuoyoucheng Ma

Papers citing "Foot In The Door: Understanding Large Language Model Jailbreaking via Cognitive Psychology"

13 / 13 papers shown

Title
When Testing AI Tests Us: Safeguarding Mental Health on the Digital Frontlines Sachin R. Pendse Darren Gergle Rachel Kornfield J. Meyerhoff David C. Mohr Jina Suh Annie Wescott Casey Williams J. Schleider 39 0 0 29 Apr 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia X. Zhang AAML 43 0 0 27 Feb 2025
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring Honglin Mu Han He Yuxin Zhou Yunlong Feng Yang Xu ... Zeming Liu Xudong Han Qi Shi Qingfu Zhu Wanxiang Che AAML 33 1 0 28 Oct 2024
Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis Jonathan Brokman Omer Hofman Oren Rachmil Inderjeet Singh Vikas Pahuja Rathina Sabapathy Aishvariya Priya Amit Giloni Roman Vainshtein Hisashi Kojima 24 1 0 21 Oct 2024
AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs Xiaogeng Liu Peiran Li Edward Suh Yevgeniy Vorobeychik Zhuoqing Mao Somesh Jha Patrick McDaniel Huan Sun Bo Li Chaowei Xiao 28 17 0 03 Oct 2024
Mission Impossible: A Statistical Perspective on Jailbreaking LLMs Jingtong Su Mingyu Lee SangKeun Lee 25 7 0 02 Aug 2024
garak: A Framework for Security Probing Large Language Models Leon Derczynski Erick Galinkin Jeffrey Martin Subho Majumdar Nanna Inie AAML ELM 33 15 0 16 Jun 2024
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens Lin Lu Hai Yan Zenghui Yuan Jiawen Shi Wenqi Wei Pin-Yu Chen Pan Zhou AAML 44 8 0 06 Jun 2024
MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability Yanrui Du Sendong Zhao Danyang Zhao Ming Ma Yuhan Chen Liangyu Huo Qing Yang Dongliang Xu Bing Qin 18 5 0 23 May 2024
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks Maksym Andriushchenko Francesco Croce Nicolas Flammarion AAML 79 155 0 02 Apr 2024
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets Samuel Marks Max Tegmark HILM 91 164 0 10 Oct 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
Large Language Models Understand and Can be Enhanced by Emotional Stimuli Cheng-rong Li Jindong Wang Yixuan Zhang Kaijie Zhu Wenxin Hou Jianxun Lian Fang Luo Qiang Yang Xingxu Xie LRM 67 116 0 14 Jul 2023