Language Models Learn to Mislead Humans via RLHF

Language Models Learn to Mislead Humans via RLHF

19 September 2024

Ruiqi Zhong

Ethan Perez

Jacob Steinhardt

Minlie Huang

Samuel R. Bowman

Shi Feng

Papers citing "Language Models Learn to Mislead Humans via RLHF"

5 / 5 papers shown

Title
An alignment safety case sketch based on debate Marie Davidsen Buhl Jacob Pfau Benjamin Hilton Geoffrey Irving 27 0 0 06 May 2025
Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models Teng Wang Zhangyi Jiang Zhenqi He Wenhan Yang Yanan Zheng Zeyu Li Zifan He Shenyang Tong Hailei Gong LRM 90 1 0 16 Mar 2025
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation Bowen Baker Joost Huizinga Leo Gao Zehao Dou M. Guan Aleksander Mądry Wojciech Zaremba J. Pachocki David Farhi LRM 62 11 0 14 Mar 2025
Should I Trust You? Detecting Deception in Negotiations using Counterfactual RL Wichayaporn Wongkamjan Yanze Wang Feng Gu Denis Peskoff Jonathan K. Kummerfeld Jonathan May Jordan Boyd-Graber 44 0 0 18 Feb 2025
MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking Sebastian Farquhar Vikrant Varma David Lindner David Elson Caleb Biddulph Ian Goodfellow Rohin Shah 79 1 0 22 Jan 2025