Pessimistic Nonlinear Least-Squares Value Iteration for Offline
Reinforcement Learning

Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning

2 October 2023

Qiwei Di

Quanquan Gu

Papers citing "Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning"

7 / 7 papers shown

Title
Nearly Optimal Sample Complexity of Offline KL-Regularized Contextual Bandits under Single-Policy Concentrability Qingyue Zhao Kaixuan Ji Heyang Zhao Tong Zhang Q. Gu OffRL 40 0 0 09 Feb 2025
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF Heyang Zhao Chenlu Ye Quanquan Gu Tong Zhang OffRL 57 3 0 07 Nov 2024
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond Thanh Nguyen-Tang Raman Arora OffRL 25 3 0 06 Jan 2024
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 33 26 0 01 Nov 2022
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient Ming Yin Mengdi Wang Yu-Xiang Wang OffRL 69 11 0 03 Oct 2022
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage Masatoshi Uehara Wen Sun OffRL 93 144 0 13 Jul 2021
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 127 135 0 09 Dec 2019