Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models

16 July 2024

Yi Liu

Kailong Wang

Papers citing "Continuous Embedding Attacks via Clipped Inputs in Jailbreaking Large Language Models"

2 / 2 papers shown

Title
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks Erfan Shayegani Md Abdullah Al Mamun Yu Fu Pedram Zaree Yue Dong Nael B. Abu-Ghazaleh AAML 135 139 0 16 Oct 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022