Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection

1 November 2024

Papers citing "Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection"

1 / 1 papers shown

Title
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning Tianjian Li Daniel Khashabi 53 0 0 05 May 2025