Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation

International Conference on Machine Learning (ICML), 2020

21 February 2020

Papers citing "Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation"

50 / 114 papers shown

Finite-Time Bounds for Average-Reward Fitted Q-Iteration

Jongmin Lee

Ernest K. Ryu

OffRL

131

20 Oct 2025

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

Nan Jiang

Tengyang Xie

OffRL

239

05 Oct 2025

A Tutorial: An Intuitive Explanation of Offline Reinforcement Learning Theory

Fengdi Che

OffRL

183

11 Aug 2025

Augmenting Online RL with Offline Data is All You Need: A Unified Hybrid RL Algorithm Design and Analysis

498

01 Jul 2025

Generalized Linear Markov Decision Process

289

01 Jun 2025

Square

χ

PO: Differentially Private and Robust

χ^2

-Preference Optimization in Offline Direct Alignment

442

27 May 2025

NeuroSep-CP-LCB: A Deep Learning-based Contextual Multi-armed Bandit Algorithm with Uncertainty Quantification for Early Sepsis Prediction

Anni Zhou

Raheem Beyah

Rishikesan Kamaleswaran

332

20 Mar 2025

Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment EffectInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

297

21 Nov 2024

Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

307

06 Nov 2024

Leveraging Unlabeled Data Sharing through Kernel Function Approximation in Offline Reinforcement Learning

584

22 Aug 2024

Hybrid Reinforcement Learning Breaks Sample Size Barriers in Linear MDPsNeural Information Processing Systems (NeurIPS), 2024

367

08 Aug 2024

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning

290

10 Jul 2024

A Fine-grained Analysis of Fitted Q-evaluation: Beyond Parametric ModelsInternational Conference on Machine Learning (ICML), 2024

Jiayi Wang

Zhengling Qi

Raymond K. W. Wong

209

14 Jun 2024

Self-Play with Adversarial Critic: Provable and Scalable Offline Alignment for Language Models

Xiang Ji

379

06 Jun 2024

From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems

Siyu Chen

349

30 May 2024

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

294

28 May 2024

Trajectory Data Suffices for Statistically Efficient Learning in Offline RL with Linear

q^π

-Realizability and Concentrability

238

27 May 2024

A CMDP-within-online framework for Meta-Safe Reinforcement Learning

Ming Jin

296

26 May 2024

Imitation Learning in Discounted Linear MDPs without exploration assumptionsInternational Conference on Machine Learning (ICML), 2024

Luca Viano

Stratis Skoulakis

Volkan Cevher

349

03 May 2024

Multiple-policy Evaluation via Density Estimation

405

29 Mar 2024

Diffusion Model for Data-Driven Black-Box Optimization

Zihao Li

Hui Yuan

Kaixuan Huang

Mengdi Wang

329

20 Mar 2024

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation

Yuheng Zhang

Nan Jiang

OffRL

318

22 Feb 2024

Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption

Chen Ye

Jiafan He

Quanquan Gu

Tong Zhang

355

14 Feb 2024

Reward-Relevance-Filtered Linear Offline Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

Angela Zhou

OffRL

301

23 Jan 2024

Taming "data-hungry" reinforcement learning? Stability in continuous state-action spacesNeural Information Processing Systems (NeurIPS), 2024

Yaqi Duan

Martin J. Wainwright

OffRL

255

10 Jan 2024

On Sample-Efficient Offline Reinforcement Learning: Data Diversity, Posterior Sampling, and Beyond

Thanh Nguyen-Tang

Raman Arora

OffRL

375

06 Jan 2024

Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation

233

24 Dec 2023

Robust Offline Reinforcement learning with Heavy-Tailed RewardsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

391

28 Oct 2023

On the Convergence and Sample Complexity Analysis of Deep Q-Networks with

ε

-Greedy ExplorationNeural Information Processing Systems (NeurIPS), 2023

Shuai Zhang

364

24 Oct 2023

Corruption-Robust Offline Reinforcement Learning with General Function ApproximationNeural Information Processing Systems (NeurIPS), 2023

Chen Ye

Rui Yang

Quanquan Gu

Tong Zhang

OffRL

478

23 Oct 2023

Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks

Mengdi Wang

311

16 Oct 2023

Bi-Level Offline Policy Optimization with Limited ExplorationNeural Information Processing Systems (NeurIPS), 2023

Wenzhuo Zhou

OffRL

310

10 Oct 2023

Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent AdaptivityInternational Conference on Learning Representations (ICLR), 2023

362

02 Oct 2023

Stackelberg Batch Policy Learning

Wenzhuo Zhou

Annie Qu

OffRL

328

28 Sep 2023

Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework

Annie Qu

327

23 Sep 2023

The Optimal Approximation Factors in Misspecified Off-Policy Value Function EstimationInternational Conference on Machine Learning (ICML), 2023

295

25 Jul 2023

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data

Ming Yin

317

24 Jun 2023

On the Model-Misspecification in Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

Yunfan Li

Lin F. Yang

336

19 Jun 2023

High-probability sample complexities for policy evaluation with linear function approximationIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023

454

30 May 2023

Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism

557

29 May 2023

Conformal Off-Policy Evaluation in Markov Decision ProcessesIEEE Conference on Decision and Control (CDC), 2023

428

05 Apr 2023

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations

Siyu Chen

248

20 Mar 2023

Pseudo-Labeling for Kernel Ridge Regression under Covariate Shift

Kaizheng Wang

351

20 Feb 2023

A Review of Off-Policy Evaluation in Reinforcement Learning

299

114

13 Dec 2022

Counterfactual Learning with General Data-generating PoliciesAAAI Conference on Artificial Intelligence (AAAI), 2022

184

04 Dec 2022

Offline Policy Evaluation and Optimization under ConfoundingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

426

29 Nov 2022

Offline Reinforcement Learning with Closed-Form Policy Improvement OperatorsInternational Conference on Machine Learning (ICML), 2022

Ming Yin

312

29 Nov 2022

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function ApproximationAAAI Conference on Artificial Intelligence (AAAI), 2022

Thanh Nguyen-Tang

Ming Yin

238

23 Nov 2022

When is Realizability Sufficient for Off-Policy Reinforcement Learning?International Conference on Machine Learning (ICML), 2022

Andrea Zanette

OffRL

362

10 Nov 2022

Oracle Inequalities for Model Selection in Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2022

389

03 Nov 2022