Teaching Language Models to Self-Improve by Learning from Language
Feedback

Teaching Language Models to Self-Improve by Learning from Language Feedback

11 June 2024

Jingbo Zhu

Papers citing "Teaching Language Models to Self-Improve by Learning from Language Feedback"

6 / 6 papers shown

Title
RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation C. Zhou Xinyu Zhang Dandan Song Xiancai Chen Wanli Gu Huipeng Ma Yuhang Tian M. Zhang Linmei Hu 63 1 0 13 Feb 2025
Direct Judgement Preference Optimization Peifeng Wang Austin Xu Yilun Zhou Caiming Xiong Shafiq Joty ELM 37 11 0 23 Sep 2024
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models Dian Yu Baolin Peng Ye Tian Linfeng Song Haitao Mi Dong Yu ALM LRM 28 0 0 28 Aug 2024
Self-Improving Robust Preference Optimization Eugene Choi Arash Ahmadian Matthieu Geist Oilvier Pietquin M. G. Azar 20 8 0 03 Jun 2024
Self-Rewarding Language Models Weizhe Yuan Richard Yuanzhe Pang Kyunghyun Cho Xian Li Sainbayar Sukhbaatar Jing Xu Jason Weston ReLM SyDa ALM LRM 215 291 0 18 Jan 2024
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,953 0 22 Mar 2023