Language Alignment via Nash-learning and Adaptive feedback

22 June 2024

Papers citing "Language Alignment via Nash-learning and Adaptive feedback"

2 / 2 papers shown

Title
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences Corby Rosset Ching-An Cheng Arindam Mitra Michael Santacroce Ahmed Hassan Awadallah Tengyang Xie 144 113 0 04 Apr 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 218 291 0 18 Jan 2024