Accelerating Greedy Coordinate Gradient via Probe Sampling

v1v2 (latest)

Accelerating Greedy Coordinate Gradient via Probe Sampling

2 March 2024

Kenji Kawaguchi

ArXiv (abs)PDF HTML

Papers citing "Accelerating Greedy Coordinate Gradient via Probe Sampling"

3 / 3 papers shown

Title
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMsInternational Conference on Learning Representations (ICLR), 2025 Linbao Li Y. Liu Daojing He Yu Li AAML 277 4 0 23 May 2025
Learning diverse attacks on large language models for robust red-teaming and safety tuning Seanie Lee Minsu Kim Lynn Cherif David Dobre Juho Lee ... Kenji Kawaguchi Gauthier Gidel Yoshua Bengio Nikolay Malkin Moksh Jain AAML 386 41 0 28 May 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 879 456 0 18 Jan 2024