Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions

11 April 2022

Papers citing "Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions"

6 / 6 papers shown

Title
An alignment safety case sketch based on debate Marie Davidsen Buhl Jacob Pfau Benjamin Hilton Geoffrey Irving 30 0 0 06 May 2025
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 500 0 28 Sep 2022
The Alignment Problem from a Deep Learning Perspective Richard Ngo Lawrence Chan Sören Mindermann 34 181 0 30 Aug 2022
Self-critiquing models for assisting human evaluators William Saunders Catherine Yeh Jeff Wu Steven Bills Ouyang Long Jonathan Ward Jan Leike ALM ELM 12 279 0 12 Jun 2022
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 252 620 0 04 Dec 2018
AI safety via debate G. Irving Paul Christiano Dario Amodei 199 199 0 02 May 2018