Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training

17 February 2025

Papers citing "Adversary-Aware DPO: Enhancing Safety Alignment in Vision Language Models via Adversarial Training"

1 / 1 papers shown

Title
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 37 0 0 01 Apr 2025