Training Language Models with Language Feedback at Scale

28 March 2023

Papers citing "Training Language Models with Language Feedback at Scale"

50 / 100 papers shown

Title
Entropy-Aware Branching for Improved Mathematical Reasoning Xianzhi Li Ethan Callanan Xiaodan Zhu Mathieu Sibue Antony Papadimitriou Mahmoud Mahfouz Zhiqiang Ma Xiaomo Liu LRM 32 0 0 27 Mar 2025
R $^2$ : A LLM Based Novel-to-Screenplay Generation Framework with Causal Plot Graphs Zefeng Lin Yi Xiao Zhiqiang Mo Qifan Zhang J. T. Wang ... Jiajing Zhang H. M. Zhang Zhengyi Liu Xianyong Fang Xiaohua Xu 34 0 0 19 Mar 2025
Augmented Adversarial Trigger Learning Zhe Wang Yanjun Qi 46 0 0 16 Mar 2025
Uncovering Gaps in How Humans and LLMs Interpret Subjective Language Erik Jones Arjun Patrawala Jacob Steinhardt 47 0 0 06 Mar 2025
LLM-Personalize: Aligning LLM Planners with Human Preferences via Reinforced Self-Training for Housekeeping Robots Dongge Han Trevor A. McInroe Adam Jelley Stefano V. Albrecht Peter Bell Amos Storkey 46 9 0 31 Dec 2024
GPT for Games: An Updated Scoping Review (2020-2024) Daijin Yang Erica Kleinman Casper Harteveld LLMAG AI4TS AI4CE 44 2 0 01 Nov 2024
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation Bohan Lyu Yadi Cao Duncan Watson-Parris Leon Bergen Taylor Berg-Kirkpatrick Rose Yu 53 3 0 01 Nov 2024
Fast Best-of-N Decoding via Speculative Rejection Hanshi Sun Momin Haider Ruiqi Zhang Huitao Yang Jiahao Qiu Ming Yin Mengdi Wang Peter L. Bartlett Andrea Zanette BDL 40 26 0 26 Oct 2024
Retrospective Learning from Interactions Zizhao Chen Mustafa Omer Gul Yiwei Chen Gloria Geng Anne Wu Yoav Artzi LRM 21 1 0 17 Oct 2024
Uncovering Factor Level Preferences to Improve Human-Model Alignment Juhyun Oh Eunsu Kim Jiseon Kim Wenda Xu Inha Cha William Yang Wang Alice H. Oh 19 0 0 09 Oct 2024
Honesty to Subterfuge: In-Context Reinforcement Learning Can Make Honest Models Reward Hack Leo McKee-Reid Christoph Sträter Maria Angelica Martinez Joe Needham Mikita Balesni OffRL 23 0 0 09 Oct 2024
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation Jonathan Cook Tim Rocktaschel Jakob Foerster Dennis Aumiller Alex Wang ALM 26 9 0 04 Oct 2024
Elephant in the Room: Unveiling the Impact of Reward Model Quality in Alignment Yan Liu Xiaoyuan Yi Xiaokang Chen Jing Yao Jingwei Yi Daoguang Zan Zheng Liu Xing Xie Tsung-Yi Ho ALM 26 0 0 26 Sep 2024
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration Jiahui Gao Renjie Pi Tianyang Han Han Wu Lanqing Hong Lingpeng Kong Xin Jiang Zhenguo Li 34 5 0 17 Sep 2024
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback Jiayi Zhou Jiaming Ji Juntao Dai Yaodong Yang 37 4 0 30 Aug 2024
Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates Hui Wei Shenghua He Tian Xia Andy H. Wong Jingyang Lin Mei Han Mei Han ALM ELM 47 22 0 23 Aug 2024
Preference-Guided Reflective Sampling for Aligning Language Models Hai Ye Hwee Tou Ng 21 3 0 22 Aug 2024
Critique-out-Loud Reward Models Zachary Ankner Mansheej Paul Brandon Cui Jonathan D. Chang Prithviraj Ammanabrolu ALM LRM 25 25 0 21 Aug 2024
Towards Aligning Language Models with Textual Feedback Sauc Abadal Lloret S. Dhuliawala K. Murugesan Mrinmaya Sachan VLM 33 1 0 24 Jul 2024
ProgressGym: Alignment with a Millennium of Moral Progress Tianyi Qiu Yang Zhang Xuchuan Huang Jasmine Xinze Li Jiaming Ji Yaodong Yang AI4TS 31 4 0 28 Jun 2024
Teaching Language Models to Self-Improve by Learning from Language Feedback Chi Hu Yimin Hu Hang Cao Tong Xiao Jingbo Zhu LRM VLM 25 4 0 11 Jun 2024
Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies Junlin Wang Siddhartha Jain Dejiao Zhang Baishakhi Ray Varun Kumar Ben Athiwaratkun 22 19 0 10 Jun 2024
Prompt Chaining or Stepwise Prompt? Refinement in Text Summarization Shichao Sun Ruifeng Yuan Ziqiang Cao Wenjie Li Pengfei Liu LRM 32 14 0 01 Jun 2024
Improving Reward Models with Synthetic Critiques Zihuiwen Ye Fraser Greenlee-Scott Max Bartolo Phil Blunsom Jon Ander Campos Matthias Gallé ALM SyDa LRM 27 16 0 31 May 2024
Aligning LLM Agents by Learning Latent Preference from User Edits Ge Gao Alexey Taymanov Eduardo Salinas Paul Mineiro Dipendra Kumar Misra LLMAG 29 25 0 23 Apr 2024
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs Shreyas Chaudhari Pranjal Aggarwal Vishvak Murahari Tanmay Rajpurohit A. Kalyan Karthik Narasimhan A. Deshpande Bruno Castro da Silva 21 33 0 12 Apr 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 56 5 0 11 Apr 2024
Sandwich attack: Multi-language Mixture Adaptive Attack on LLMs Bibek Upadhayay Vahid Behzadan AAML 18 13 0 09 Apr 2024
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization Hritik Bansal Ashima Suvarna Gantavya Bhatt Nanyun Peng Kai-Wei Chang Aditya Grover ALM 53 9 0 31 Mar 2024
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization Renjie Pi Tianyang Han Wei Xiong Jipeng Zhang Runtao Liu Rui Pan Tong Zhang MLLM 27 27 0 13 Mar 2024
Self-Refinement of Language Models from External Proxy Metrics Feedback Keshav Ramji Young-Suk Lee R. Astudillo M. Sultan Tahira Naseem Asim Munawar Radu Florian Salim Roukos HILM 20 3 0 27 Feb 2024
A Survey on Knowledge Distillation of Large Language Models Xiaohan Xu Ming Li Chongyang Tao Tao Shen Reynold Cheng Jinyang Li Can Xu Dacheng Tao Tianyi Zhou KELM VLM 42 94 0 20 Feb 2024
Aligning Large Language Models by On-Policy Self-Judgment Sangkyu Lee Sungdong Kim Ashkan Yousefpour Minjoon Seo Kang Min Yoo Youngjae Yu OSLM 25 8 0 17 Feb 2024
Rethinking the Role of Proxy Rewards in Language Model Alignment Sungdong Kim Minjoon Seo SyDa ALM 23 0 0 02 Feb 2024
Language-Guided World Models: A Model-Based Approach to AI Control Alex Zhang Khanh Nguyen Jens Tuyls Albert Lin Karthik Narasimhan LLMAG 29 5 0 24 Jan 2024
Towards Conversational Diagnostic AI Tao Tu Anil Palepu M. Schaekermann Khaled Saab Jan Freyberg ... Katherine Chou Greg S. Corrado Yossi Matias Alan Karthikesalingam Vivek Natarajan AI4MH LM&MA 18 87 0 11 Jan 2024
Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk Dennis Ulmer Elman Mansimov Kaixiang Lin Justin Sun Xibin Gao Yi Zhang LLMAG 17 27 0 10 Jan 2024
The Critique of Critique Shichao Sun Junlong Li Weizhe Yuan Ruifeng Yuan Wenjie Li Pengfei Liu ELM 21 0 0 09 Jan 2024
MLLM-Protector: Ensuring MLLM's Safety without Hurting Performance Renjie Pi Tianyang Han Jianshu Zhang Yueqi Xie Rui Pan Qing Lian Hanze Dong Jipeng Zhang Tong Zhang AAML 23 53 0 05 Jan 2024
Large Language Models for Social Networks: Applications, Challenges, and Solutions Jingying Zeng Richard Huang Waleed Malik Langxuan Yin Bojan Babic Danny Shacham Xiao Yan Jaewon Yang Qi He 11 3 0 04 Jan 2024
Theoretical guarantees on the best-of-n alignment policy Ahmad Beirami Alekh Agarwal Jonathan Berant Alex DÁmour Jacob Eisenstein Chirag Nagpal A. Suresh 42 42 0 03 Jan 2024
Reasons to Reject? Aligning Language Models with Judgments Weiwen Xu Deng Cai Zhisong Zhang Wai Lam Shuming Shi ALM 13 13 0 22 Dec 2023
Let AI Entertain You: Increasing User Engagement with Generative AI and Rejection Sampling Jingying Zeng Jaewon Yang Waleed Malik Xiao Yan Richard Huang Qi He 19 1 0 16 Dec 2023
Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding Lifu Tu Semih Yavuz Jin Qu Jiacheng Xu Rui Meng Caiming Xiong Yingbo Zhou 11 1 0 11 Dec 2023
Is Feedback All You Need? Leveraging Natural Language Feedback in Goal-Conditioned Reinforcement Learning Sabrina McCallum Max Taylor-Davies Stefano V. Albrecht Alessandro Suglia 6 1 0 07 Dec 2023
DUnE: Dataset for Unified Editing Afra Feyza Akyürek Eric Pan Garry Kuwanto Derry Wijaya KELM 16 17 0 27 Nov 2023
DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback Yangyi Chen Karan Sikka Michael Cogswell Heng Ji Ajay Divakaran 24 56 0 16 Nov 2023
What if you said that differently?: How Explanation Formats Affect Human Feedback Efficacy and User Perception Chaitanya Malaviya Subin Lee Dan Roth Mark Yatskar 16 1 0 16 Nov 2023
VideoCon: Robust Video-Language Alignment via Contrast Captions Hritik Bansal Yonatan Bitton Idan Szpektor Kai-Wei Chang Aditya Grover 28 14 0 15 Nov 2023
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning Ruixin Hong Hongming Zhang Xinyu Pang Dong Yu Changshui Zhang LRM 36 23 0 14 Nov 2023