Aligning LLM Agents by Learning Latent Preference from User Edits

23 April 2024

Papers citing "Aligning LLM Agents by Learning Latent Preference from User Edits"

28 / 28 papers shown

Title
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Y. Li Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
StePO-Rec: Towards Personalized Outfit Styling Assistant via Knowledge-Guided Multi-Step Reasoning Yuxi Bi Yunfan Gao H. Wang 32 1 0 14 Apr 2025
Effectively Steer LLM To Follow Preference via Building Confident Directions Bingqing Song Boran Han Shuai Zhang Hao Wang Haoyang Fang Bonan Min Yuyang Wang Mingyi Hong LLMSV 47 0 0 04 Mar 2025
Alchemist: Towards the Design of Efficient Online Continual Learning System Yuyang Huang Yuhan Liu Haryadi S. Gunawi Beibin Li Changho Hwang CLL OnRL 101 0 0 03 Mar 2025
The Application of Large Language Models in Recommendation Systems Peiyang Yu Zeqiu Xu Jiani Wang Xiaochuan Xu 85 6 0 20 Jan 2025
SocialMind: LLM-based Proactive AR Social Assistive System with Human-like Perception for In-situ Live Interactions Bufang Yang Yunqi Guo Lilin Xu Zhenyu Yan Hongkai Chen Guoliang Xing Xiaofan Jiang 67 8 0 05 Dec 2024
Active Preference-based Learning for Multi-dimensional Personalization Minhyeon Oh Seungjoon Lee Jungseul Ok 26 1 0 01 Nov 2024
Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments M. Domnich Julius Valja Rasmus Moorits Veski Giacomo Magnifico Kadi Tulver Eduard Barbu Raul Vicente LRM ELM 34 2 0 28 Oct 2024
Retrospective Learning from Interactions Zizhao Chen Mustafa Omer Gul Yiwei Chen Gloria Geng Anne Wu Yoav Artzi LRM 21 1 0 17 Oct 2024
PREDICT: Preference Reasoning by Evaluating Decomposed preferences Inferred from Candidate Trajectories Stephane Aroca-Ouellette Natalie Mackraz B. Theobald Katherine Metcalf 28 0 0 08 Oct 2024
Unsupervised Human Preference Learning Sumuk Shashidhar Abhinav Chinta Vaibhav Sahai Dilek Hakkani Tur LRM 30 0 0 30 Sep 2024
Towards a Unified View of Preference Learning for Large Language Models: A Survey Bofei Gao Feifan Song Yibo Miao Zefan Cai Z. Yang ... Houfeng Wang Zhifang Sui Peiyi Wang Baobao Chang Baobao Chang 41 11 0 04 Sep 2024
Problem Solving Through Human-AI Preference-Based Cooperation Subhabrata Dutta Timo Kaufmann Goran Glavas Ivan Habernal Kristian Kersting Frauke Kreuter Mira Mezini Iryna Gurevych Eyke Hüllermeier Hinrich Schuetze 82 1 0 14 Aug 2024
Can LLM be a Personalized Judge? Yijiang River Dong Tiancheng Hu Nigel Collier ELM 32 34 0 17 Jun 2024
Human-AI Safety: A Descendant of Generative AI and Control Systems Safety Andrea V. Bajcsy J. F. Fisac 32 6 0 16 May 2024
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation Patrick Fernandes Aman Madaan Emmy Liu António Farinhas Pedro Henrique Martins ... José G. C. de Souza Shuyan Zhou Tongshuang Wu Graham Neubig André F. T. Martins ALM 106 56 0 01 May 2023
Second Thoughts are Best: Learning to Re-Align With Human Values from Text Edits Ruibo Liu Chenyan Jia Ge Zhang Ziyu Zhuang Tony X. Liu Soroush Vosoughi 60 34 0 01 Jan 2023
When Life Gives You Lemons, Make Cherryade: Converting Feedback from Bad Responses into Good Labels Weiyan Shi Emily Dinan Kurt Shuster Jason Weston Jing Xu 44 19 0 28 Oct 2022
Correcting Diverse Factual Errors in Abstractive Summarization via Post-Editing and Language Model Infilling Vidhisha Balachandran Hannaneh Hajishirzi William W. Cohen Yulia Tsvetkov HILM KELM 79 45 0 22 Oct 2022
Learning to Model Editing Processes Machel Reid Graham Neubig KELM BDL 101 34 0 24 May 2022
Towards Automated Document Revision: Grammatical Error Correction, Fluency Edits, and Beyond Masato Mita Keisuke Sakaguchi Masato Hagiwara Tomoya Mizumoto Jun Suzuki Kentaro Inui 39 13 0 23 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Interactive Learning from Activity Description Khanh Nguyen Dipendra Kumar Misra Robert Schapire Miroslav Dudík Patrick Shafto 45 34 0 13 Feb 2021
Learning Structural Edits via Incremental Tree Transformations Ziyu Yao Frank F. Xu Pengcheng Yin Huan Sun Graham Neubig CLL 141 27 0 28 Jan 2021
Factual Error Correction for Abstractive Summarization Models Mengyao Cao Yue Dong Jiapeng Wu Jackie C.K. Cheung HILM KELM 167 159 0 17 Oct 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,561 0 18 Sep 2019
Dialogue Learning With Human-In-The-Loop Jiwei Li Alexander H. Miller S. Chopra MarcÁurelio Ranzato Jason Weston OffRL 216 132 0 29 Nov 2016