Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning

Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning

30 January 2023

Paria Rashidinejad

Papers citing "Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning"

14 / 14 papers shown

Title
The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation Noah Golowich Ankur Moitra OffRL 23 2 0 17 Jun 2024
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond Thanh Nguyen-Tang Raman Arora OffRL 15 3 0 06 Jan 2024
On Representation Complexity of Model-based and Model-free Reinforcement Learning Hanlin Zhu Baihe Huang Stuart Russell OffRL 8 3 0 03 Oct 2023
Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning Qiwei Di Heyang Zhao Jiafan He Quanquan Gu OffRL 37 5 0 02 Oct 2023
A Primal-Dual-Critic Algorithm for Offline Constrained Reinforcement Learning Kihyuk Hong Yuhang Li Ambuj Tewari OffRL 13 7 0 13 Jun 2023
Offline Primal-Dual Reinforcement Learning for Linear MDPs Germano Gabbianelli Gergely Neu Nneka Okolo Matteo Papini OffRL 13 7 0 22 May 2023
Offline Reinforcement Learning with Additional Covering Distributions Chenjie Mao OffRL 12 0 0 22 May 2023
Leveraging Factored Action Spaces for Efficient Offline Reinforcement Learning in Healthcare Shengpu Tang Maggie Makar Michael Sjoding Finale Doshi-Velez Jenna Wiens OffRL 48 37 0 02 May 2023
Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage Masatoshi Uehara Nathan Kallus Jason D. Lee Wen Sun OffRL 13 5 0 05 Feb 2023
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 33 26 0 01 Nov 2022
On Gap-dependent Bounds for Offline Reinforcement Learning Xinqi Wang Qiwen Cui S. Du OffRL 68 11 0 01 Jun 2022
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage Masatoshi Uehara Wen Sun OffRL 91 20 0 13 Jul 2021
COMBO: Conservative Offline Model-Based Policy Optimization Tianhe Yu Aviral Kumar Rafael Rafailov Aravind Rajeswaran Sergey Levine Chelsea Finn OffRL 212 413 0 16 Feb 2021
EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline and Online RL Seyed Kamyar Seyed Ghasemipour Dale Schuurmans S. Gu OffRL 207 119 0 21 Jul 2020