v1v2 (latest)

Statistically Efficient Off-Policy Policy Gradients

International Conference on Machine Learning (ICML), 2020

10 February 2020

Papers citing "Statistically Efficient Off-Policy Policy Gradients"

27 / 27 papers shown

ExGRPO: Learning to Reason from Experience

193

02 Oct 2025

Doubly Robust Alignment for Large Language Models

353

01 Jun 2025

Reinforcement Learning with Continuous Actions Under Unmeasured Confounding

983

01 May 2025

Enhancing PPO with Trajectory-Aware Hybrid Policies

322

21 Feb 2025

Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent BaselineIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2024

Qian Zheng

Gang Pan

249

04 May 2024

Deal, or no deal (or who knows)? Forecasting Uncertainty in Conversations using Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

198

05 Feb 2024

Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning

338

28 Aug 2023

Inference on Optimal Dynamic Policies via Softmax Approximation

429

08 Mar 2023

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

David Bruns-Smith

Angela Zhou

OffRL

693

01 Feb 2023

Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region OptimizationJournal of the American Statistical Association (JASA), 2023

226

05 Jan 2023

Offline Policy Evaluation and Optimization under ConfoundingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

424

29 Nov 2022

Truly Deterministic Policy OptimizationNeural Information Processing Systems (NeurIPS), 2022

295

30 May 2022

Review of Metrics to Measure the Stability, Robustness and Resilience of Reinforcement Learning

L. Pullum

443

22 Mar 2022

Doubly Robust Distributionally Robust Off-Policy Evaluation and LearningInternational Conference on Machine Learning (ICML), 2022

366

19 Feb 2022

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

397

31 Jan 2022

On Well-posedness and Minimax Optimal Rates of Nonparametric Q-function Estimation in Off-policy EvaluationInternational Conference on Machine Learning (ICML), 2022

Xiaohong Chen

Zhengling Qi

OffRL

490

17 Jan 2022

Projected State-action Balancing Weights for Offline Reinforcement LearningAnnals of Statistics (Ann. Stat.), 2021

264

10 Sep 2021

A Unified Off-Policy Evaluation Approach for General Value Function

208

06 Jul 2021

Doubly Robust Off-Policy Actor-Critic: Convergence and OptimalityInternational Conference on Machine Learning (ICML), 2021

373

23 Feb 2021

Fast Rates for the Regret of Offline Reinforcement LearningAnnual Conference Computational Learning Theory (COLT), 2021

473

31 Jan 2021

Optimal Off-Policy Evaluation from Multiple Logging Policies

347

21 Oct 2020

Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies

Nathan Kallus

Masatoshi Uehara

OffRL

178

06 Jun 2020

Efficient Evaluation of Natural Stochastic Policies in Offline Reinforcement Learning

Nathan Kallus

Masatoshi Uehara

OffRL

223

06 Jun 2020

Efficiently Breaking the Curse of Horizon in Off-Policy Evaluation with Double Reinforcement LearningOperational Research (OR), 2019

Nathan Kallus

Masatoshi Uehara

OffRL

447

106

12 Sep 2019

Global Optimality Guarantees For Policy Gradient MethodsOperational Research (OR), 2019

Jalaj Bhandari

Daniel Russo

595

224

05 Jun 2019

Learning When-to-Treat PoliciesJournal of the American Statistical Association (JASA), 2019

296

23 May 2019

Relative Importance Sampling For Off-Policy Actor-Critic in Deep Reinforcement Learning

Mahammad Humayoo

Xueqi Cheng

BDL OffRL

340

30 Oct 2018