Code as Reward: Empowering Reinforcement Learning with VLMs

Code as Reward: Empowering Reinforcement Learning with VLMs

7 February 2024

Martin Klissarov

Papers citing "Code as Reward: Empowering Reinforcement Learning with VLMs"

12 / 12 papers shown

Title
DYSTIL: Dynamic Strategy Induction with Large Language Models for Reinforcement Learning Borui Wang Kathleen McKeown Rex Ying OffRL 32 0 0 06 May 2025
LLM-based Interactive Imitation Learning for Robotic Manipulation Jonas Werner Kun-Mo Chu C. Weber S. Wermter 71 0 0 30 Apr 2025
Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models Zhaoxin Li Zhang Xi-Jia Batuhan Altundas Letian Chen Rohan R. Paleja Matthew C. Gombolay OffRL 41 0 0 20 Mar 2025
LuciBot: Automated Robot Policy Learning from Generated Videos Xiaowen Qiu Yian Wang Jiting Cai Zhehuan Chen Chunru Lin Tsun-Hsuan Wang Chuang Gan LM&Ro VGen 67 0 0 12 Mar 2025
Online Preference-based Reinforcement Learning with Self-augmented Feedback from Large Language Model Songjun Tu Jingbo Sun Qichao Zhang Xiangyuan Lan Dongbin Zhao 67 1 0 22 Dec 2024
Vision Language Models are In-Context Value Learners Yecheng Jason Ma Joey Hejna Ayzaan Wahid Chuyuan Fu Dhruv Shah ... Dinesh Jayaraman Wenhao Yu Tingnan Zhang Dorsa Sadigh Fei Xia 49 4 0 07 Nov 2024
Automated Rewards via LLM-Generated Progress Functions Vishnu Sarukkai Brennan Shacklett Zander Majercik Kush S. Bhatia Christopher Ré Kayvon Fatahalian 26 1 0 11 Oct 2024
On the Modeling Capabilities of Large Language Models for Sequential Decision Making Martin Klissarov Devon Hjelm Alexander Toshev Bogdan Mazoure LM&Ro ELM OffRL LRM 29 2 0 08 Oct 2024
Video Language Planning Yilun Du Mengjiao Yang Peter R. Florence Fei Xia Ayzaan Wahid ... Pieter Abbeel Josh Tenenbaum L. Kaelbling Andy Zeng Jonathan Tompson PINN LM&Ro 89 83 0 16 Oct 2023
Vision-Language Models as Success Detectors Yuqing Du Ksenia Konyushkova Misha Denil A. Raju Jessica Landon Felix Hill Nando de Freitas Serkan Cabi MLLM LRM 84 76 0 13 Mar 2023
Flexible Option Learning Martin Klissarov Doina Precup OffRL 34 26 0 06 Dec 2021
Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics Arsenii Kuznetsov Pavel Shvechikov Alexander Grishin Dmitry Vetrov 131 184 0 08 May 2020