Pessimistic Nonlinear Least-Squares Value Iteration for Offline
Reinforcement Learning

Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning

2 October 2023

Qiwei Di

Quanquan Gu

Papers citing "Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning"

6 / 6 papers shown

Title
Sharp Analysis for KL-Regularized Contextual Bandits and RLHF Heyang Zhao Chenlu Ye Quanquan Gu Tong Zhang OffRL 57 3 0 07 Nov 2024
On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond Thanh Nguyen-Tang Raman Arora OffRL 25 3 0 06 Jan 2024
Optimal Conservative Offline RL with General Function Approximation via Augmented Lagrangian Paria Rashidinejad Hanlin Zhu Kunhe Yang Stuart J. Russell Jiantao Jiao OffRL 33 26 0 01 Nov 2022
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient Ming Yin Mengdi Wang Yu-Xiang Wang OffRL 61 11 0 03 Oct 2022
Pessimistic Model-based Offline Reinforcement Learning under Partial Coverage Masatoshi Uehara Wen Sun OffRL 91 33 0 13 Jul 2021
Optimism in Reinforcement Learning with Generalized Linear Function Approximation Yining Wang Ruosong Wang S. Du A. Krishnamurthy 127 135 0 09 Dec 2019