Training Language Models to Win Debates with Self-Play Improves Judge Accuracy

25 September 2024

Papers citing "Training Language Models to Win Debates with Self-Play Improves Judge Accuracy"

1 / 1 papers shown

Title
An alignment safety case sketch based on debate Marie Davidsen Buhl Jacob Pfau Benjamin Hilton Geoffrey Irving 21 0 0 06 May 2025