Safety-Aware Fine-Tuning of Large Language Models

13 October 2024

Papers citing "Safety-Aware Fine-Tuning of Large Language Models"

2 / 2 papers shown

Title
Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs Jan Betley Daniel Tan Niels Warncke Anna Sztyber-Betley Xuchan Bao Martín Soto Nathan Labenz Owain Evans AAML 73 8 0 24 Feb 2025
Process Reward Model with Q-Value Rankings W. Li Yixuan Li LRM 39 13 0 15 Oct 2024