Reward-Conditioned Policies

31 December 2019

Papers citing "Reward-Conditioned Policies"

20 / 20 papers shown

Title
Temporal Logic Specification-Conditioned Decision Transformer for Offline Safe Reinforcement Learning Zijian Guo Weichao Zhou Wenchao Li OffRL 94 2 0 28 Jan 2025
Predictive Coding for Decision Transformer T. Luu Donghoon Lee Chang D. Yoo OffRL 51 1 0 04 Oct 2024
Towards Aligning Language Models with Textual Feedback Sauc Abadal Lloret S. Dhuliawala K. Murugesan Mrinmaya Sachan VLM 38 1 0 24 Jul 2024
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions Kai Xu Farid Tajaddodianfar Ben Allison 16 0 0 16 Jun 2024
CtRL-Sim: Reactive and Controllable Driving Agents with Offline Reinforcement Learning Luke Rowe Roger Girgis Anthony Gosselin Bruno Carrez Florian Golemo Felix Heide Liam Paull Christopher Pal 38 4 0 29 Mar 2024
Closing the Gap between TD Learning and Supervised Learning -- A Generalisation Point of View Raj Ghugare Matthieu Geist Glen Berseth Benjamin Eysenbach OffRL 25 14 0 20 Jan 2024
An Invitation to Deep Reinforcement Learning Bernhard Jaeger Andreas Geiger OffRL OOD 73 5 0 13 Dec 2023
A Tractable Inference Perspective of Offline RL Xuejie Liu Anji Liu Guy Van den Broeck Yitao Liang OffRL 34 1 0 31 Oct 2023
Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with Expert Guidance Qisen Yang Shenzhi Wang Qihang Zhang Gao Huang Shiji Song OffRL OnRL 18 8 0 04 Sep 2023
Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning Tongzhou Wang Antonio Torralba Phillip Isola Amy Zhang OffRL 13 31 0 03 Apr 2023
Latent-Conditioned Policy Gradient for Multi-Objective Deep Reinforcement Learning T. Kanazawa Chetan Gupta 19 0 0 15 Mar 2023
Language Decision Transformers with Exponential Tilt for Interactive Text Environments Nicolas Angelard-Gontier Pau Rodríguez López I. Laradji David Vazquez C. Pal OffRL 10 1 0 10 Feb 2023
Is Conditional Generative Modeling all you need for Decision-Making? Anurag Ajay Yilun Du Abhi Gupta J. Tenenbaum Tommi Jaakkola Pulkit Agrawal DiffM 34 359 0 28 Nov 2022
A Policy-Guided Imitation Approach for Offline Reinforcement Learning Haoran Xu Li Jiang Jianxiong Li Xianyuan Zhan OffRL 21 61 0 15 Oct 2022
Human-AI Coordination via Human-Regularized Search and Learning Hengyuan Hu David J. Wu Adam Lerer Jakob N. Foerster Noam Brown 11 7 0 11 Oct 2022
Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning Yunfei Li Tian Gao Jiaqi Yang Huazhe Xu Yi Wu OffRL 14 22 0 24 Jun 2022
Goal-Conditioned Reinforcement Learning: Problems and Solutions Minghuan Liu Menghui Zhu Weinan Zhang 22 130 0 20 Jan 2022
Offline Reinforcement Learning as One Big Sequence Modeling Problem Michael Janner Qiyang Li Sergey Levine OffRL 33 640 0 03 Jun 2021
Critic Regularized Regression Ziyun Wang Alexander Novikov Konrad Zolna Jost Tobias Springenberg Scott E. Reed ... Noah Y. Siegel J. Merel Çağlar Gülçehre N. Heess Nando de Freitas OffRL 27 317 0 26 Jun 2020
Emergence of Locomotion Behaviours in Rich Environments N. Heess TB Dhruva S. Sriram Jay Lemmon J. Merel ... Tom Erez Ziyun Wang S. M. Ali Eslami Martin Riedmiller David Silver 120 928 0 07 Jul 2017