Reward Design with Language Models

27 February 2023

Dorsa Sadigh

Papers citing "Reward Design with Language Models"

50 / 159 papers shown

Title
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains Ibne Farabi Shihab Sanjeda Akter Anuj Sharma BDL 24 0 0 12 May 2025
Adaptive Stress Testing Black-Box LLM Planners Neeloy Chakraborty John Pohovey Melkior Ornik Katherine Driggs-Campbell 23 0 0 08 May 2025
Toward Efficient Exploration by Large Language Model Agents Dilip Arumugam Thomas L. Griffiths LLMAG 87 0 0 29 Apr 2025
Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision Shilin Zhang Zican Hu Wenhao Wu Xinyi Xie Jianxiang Tang Chunlin Chen Daoyi Dong Yu Cheng Zhenhong Sun Zhi Wang OffRL 57 0 0 21 Apr 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 38 2 0 12 Apr 2025
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models Hardy Chen Haoqin Tu Fali Wang Hui Liu X. Tang Xinya Du Yuyin Zhou Cihang Xie ReLM VLM OffRL LRM 63 7 0 10 Apr 2025
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback Wei Shen Guanlin Liu Zheng Wu Ruofei Zhu Qingping Yang Chao Xin Yu Yue Lin Yan 82 8 0 28 Mar 2025
Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap Tong Nie Jian-jun Sun Wei Ma 58 1 0 27 Mar 2025
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning Chak Lam Shek Pratap Tokekar 43 0 0 24 Mar 2025
AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models Le Qiu Zelai Xu Qixin Tan Wenhao Tang Chao-Hua Yu Yu Wang AAML 33 0 0 24 Mar 2025
VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences Anukriti Singh Amisha Bhaskar Peihong Yu Souradip Chakraborty Ruthwik Dasyam Amrit Singh Bedi Pratap Tokekar 48 0 0 18 Mar 2025
LLM-Mediated Guidance of MARL Systems Philipp D. Siedler Ian Gemp 38 0 0 16 Mar 2025
A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models Miao Zhang Zhenlong Fang Tianyi Wang Q. Zhang Shuai Lu Junfeng Jiao Tianyu Shi AI4CE 56 4 0 11 Mar 2025
Safety Guardrails for LLM-Enabled Robots Zachary Ravichandran Alexander Robey Vijay R. Kumar George Pappas Hamed Hassani 56 0 0 10 Mar 2025
Controllable Complementarity: Subjective Preferences in Human-AI Collaboration Chase McDonald Cleotilde Gonzalez 57 0 0 07 Mar 2025
Multi-Stage Manipulation with Demonstration-Augmented Reward, Policy, and World Model Learning Adrià López Escoriza Nicklas Hansen Stone Tao Tongzhou Mu H. Su OffRL 55 0 0 03 Mar 2025
Graph-Augmented Reasoning: Evolving Step-by-Step Knowledge Graph Retrieval for LLM Reasoning Wenjie Wu Yongcheng Jing Yingjie Wang Wenbin Hu Dacheng Tao RALM LRM 64 2 0 03 Mar 2025
M3HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality Ziyan Wang Zhicheng Zhang Fei Fang Yali Du 39 0 0 03 Mar 2025
The Evolving Landscape of LLM- and VLM-Integrated Reinforcement Learning Sheila Schoepp Masoud Jafaripour Yingyue Cao Tianpei Yang Fatemeh Abdollahi Shadan Golestan Zahin Sufiyan Osmar Zaiane Matthew E. Taylor OffRL LM&Ro 46 0 0 24 Feb 2025
Scaling Autonomous Agents via Automatic Reward Modeling And Planning Zhenfang Chen Delin Chen Rui Sun Wenjun Liu Chuang Gan LLMAG 58 3 0 17 Feb 2025
Zero-shot Model-based Reinforcement Learning using Large Language Models Abdelhakim Benechehab Youssef Attia El Hili Ambroise Odonnat Oussama Zekri Albert Thomas Giuseppe Paolo Maurizio Filippone I. Redko Balázs Kégl OffRL 62 1 0 17 Feb 2025
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation Yi Li Yuquan Deng J. Zhang Joel Jang Marius Memme ... Fabio Ramos Dieter Fox Anqi Li Abhishek Gupta Ankit Goyal LM&Ro 89 5 0 08 Feb 2025
Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression Kai Yoshida M. Mizukami Seiya Kawano Canasai Kruengkrai Hiroaki Sugiyama Koichiro Yoshino ALM OffRL 76 1 0 28 Jan 2025
An Overview and Discussion on Using Large Language Models for Implementation Generation of Solutions to Open-Ended Problems Hashmath Shaik Alex Doboli OffRL ELM 80 0 0 31 Dec 2024
ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics Letian Chen Nina Moorman Matthew C. Gombolay OffRL LM&Ro 78 0 0 27 Nov 2024
From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards Ziyu Chen Zhiqing Xiao Xinbei Jiang Junbo Zhao 67 0 0 24 Nov 2024
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback Qinqing Zheng Mikael Henaff Amy Zhang Aditya Grover Brandon Amos LLMAG OffRL 29 3 0 30 Oct 2024
LLM-Assisted Red Teaming of Diffusion Models through "Failures Are Fated, But Can Be Faded" Som Sagar Aditya Taparia Ransalu Senanayake 15 0 0 22 Oct 2024
A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning Shengjie Sun Runze Liu Jiafei Lyu J. Yang L. Zhang Xiu Li LRM 19 7 0 18 Oct 2024
VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI Sijie Cheng Kechen Fang Yangyang Yu Sicheng Zhou B. Li Ye Tian Tingguang Li Lei Han Yang Janet Liu 37 8 0 15 Oct 2024
Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies Jiajie Yu Yuhong Wang Wei Ma OffRL 34 1 0 14 Oct 2024
Language-Model-Assisted Bi-Level Programming for Reward Learning from Internet Videos Harsh Mahesheka Zhixian Xie Z. Wang Wanxin Jin 29 0 0 11 Oct 2024
Automated Rewards via LLM-Generated Progress Functions Vishnu Sarukkai Brennan Shacklett Zander Majercik Kush S. Bhatia Christopher Ré Kayvon Fatahalian 26 1 0 11 Oct 2024
Words as Beacons: Guiding RL Agents with High-Level Language Prompts Unai Ruiz-Gonzalez Alain Andres Pedro G. Bascoy Javier Del Ser 28 0 0 11 Oct 2024
On the Modeling Capabilities of Large Language Models for Sequential Decision Making Martin Klissarov Devon Hjelm Alexander Toshev Bogdan Mazoure LM&Ro ELM OffRL LRM 29 2 0 08 Oct 2024
Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration Yun Qu Boyuan Wang Yuhang Jiang Jianzhun Shao Yixiu Mao Cheems Wang Chang Liu Xiangyang Ji 46 4 0 03 Oct 2024
SEAL: SEmantic-Augmented Imitation Learning via Language Model Chengyang Gu Yuxin Pan Haotian Bai Hui Xiong Yize Chen 27 0 0 03 Oct 2024
From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge Xiefeng Wu OffRL 29 1 0 02 Oct 2024
CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models Kanghyun Ryu Qiayuan Liao Zhongyu Li K. Sreenath Negar Mehr Negar Mehr LM&Ro 80 2 0 27 Sep 2024
Post-hoc Reward Calibration: A Case Study on Length Bias Zeyu Huang Zihan Qiu Zili Wang Edoardo M. Ponti Ivan Titov 38 5 0 25 Sep 2024
SYNERGAI: Perception Alignment for Human-Robot Collaboration Yixin Chen Guoxi Zhang Yaowei Zhang Hongming Xu Peiyuan Zhi Qing Li Siyuan Huang 32 0 0 24 Sep 2024
Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL Eduardo Pignatelli Johan Ferret Tim Rockäschel Edward Grefenstette Davide Paglieri Samuel Coward Laura Toni 30 2 0 19 Sep 2024
Reward-Robust RLHF in LLMs Yuzi Yan Xingzhou Lou Jialian Li Yiping Zhang Jian Xie Chao Yu Yu Wang Dong Yan Yuan Shen 40 7 0 18 Sep 2024
MotIF: Motion Instruction Fine-tuning Minyoung Hwang Joey Hejna Dorsa Sadigh Yonatan Bisk 45 1 0 16 Sep 2024
AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models Yifei Yao Wentao He Chenyu Gu Jiaheng Du Fuwei Tan Zhen Zhu Junguo Lu OffRL 21 2 0 13 Sep 2024
Adaptive Language-Guided Abstraction from Contrastive Explanations Andi Peng Belinda Z. Li Ilia Sucholutsky Nishanth Kumar Julie A. Shah Jacob Andreas Andreea Bobu OffRL 25 1 0 12 Sep 2024
Autonomous Vehicle Decision-Making Framework for Considering Malicious Behavior at Unsignalized Intersections Qing Li Jinxing Hua Qiuxia Sun 22 0 0 11 Sep 2024
Can LLMs Understand Social Norms in Autonomous Driving Games? Boxuan Wang Haonan Duan Yanhao Feng Xu Chen Yongjie Fu Zhaobin Mo Xuan Di 37 4 0 22 Aug 2024
Visual Grounding for Object-Level Generalization in Reinforcement Learning Haobin Jiang Zongqing Lu LM&Ro 25 2 0 04 Aug 2024
Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts Yanting Yang Minghao Chen Qibo Qiu Jiahao Wu Wenxiao Wang Binbin Lin Ziyu Guan Xiaofei He LM&Ro 32 2 0 20 Jul 2024