Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks

5 March 2025

Papers citing "Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks"

1 / 1 papers shown

Title
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 37 0 0 01 Apr 2025