v1v2v3 (latest)

Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes

Journal of machine learning research (JMLR), 2019

22 August 2019

Papers citing "Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes"

50 / 127 papers shown

Conformal Prediction Beyond the Horizon: Distribution-Free Inference for Policy Evaluation

145

29 Oct 2025

Learning density ratios in causal inference using Bregman-Riesz regression

Oliver J. Hines

Caleb H. Miles

CML

185

17 Oct 2025

Latent Variable Modeling for Robust Causal Effect Estimation

198

27 Aug 2025

A Two-armed Bandit Framework for A/B Testing

220

24 Jul 2025

Doubly Robust Alignment for Large Language Models

353

01 Jun 2025

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

249

28 May 2025

Treatment Effect Estimation for Optimal Decision-Making

Dennis Frauen

Valentyn Melnychuk

Jonas Schweisthal

Mihaela van der Schaar

Stefan Feuerriegel

CML

394

19 May 2025

DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects

Shu Tamano

OffRL

490

02 May 2025

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPsInternational Conference on Learning Representations (ICLR), 2025

Yuheng Zhang

Nan Jiang

OffRL

302

03 Mar 2025

Statistical Inference in Reinforcement Learning: A Selective Survey

Chengchun Shi

OffRL

689

22 Feb 2025

Learning Counterfactual Outcomes Under Rank Preservation

352

10 Feb 2025

Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

496

12 Jan 2025

A Graphical Approach to State Variable Selection in Off-policy Learning

Joakim Blach Andersen

Qingyuan Zhao

CML OffRL

290

03 Jan 2025

Logarithmic Neyman Regret for Adaptive Estimation of the Average Treatment EffectInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

293

21 Nov 2024

Debiased Regression for Root-N-Consistent Conditional Mean Estimation

Masahiro Kato

465

18 Nov 2024

Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

307

06 Nov 2024

Primal-Dual Spectral Representation for Off-policy EvaluationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

320

23 Oct 2024

CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold PoliciesKnowledge Discovery and Data Mining (KDD), 2024

236

21 Aug 2024

Model-agnostic meta-learners for estimating heterogeneous treatment effects over time

Dennis Frauen

Konstantin Hess

Stefan Feuerriegel

504

07 Jul 2024

Structured Difference-of-Q via Orthogonal Learning

Defu Cao

Angela Zhou

468

12 Jun 2024

Combining Experimental and Historical Data for Policy Evaluation

480

01 Jun 2024

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL

294

28 May 2024

Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes

307

29 Mar 2024

Spatially Randomized Designs Can Enhance Policy Evaluation

322

18 Mar 2024

Triple/Debiased Lasso for Statistical Inference of Conditional Average Treatment Effects

Masahiro Kato

CML

339

05 Mar 2024

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation

Yuheng Zhang

Nan Jiang

OffRL

318

22 Feb 2024

Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap

Mohammad Mehrabi

Stefan Wager

OffRL

358

13 Feb 2024

POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition

335

09 Feb 2024

Evaluation of Active Feature Acquisition Methods for Static Feature Settings

316

06 Dec 2023

Marginal Density Ratio for Off-Policy Evaluation in Contextual BanditsNeural Information Processing Systems (NeurIPS), 2023

Muhammad Faaiz Taufiq

351

03 Dec 2023

Evaluation of Active Feature Acquisition Methods for Time-varying Feature Settings

719

03 Dec 2023

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation

541

30 Nov 2023

Randomization Inference When N Equals OneBiometrika (Biometrika), 2023

Tengyuan Liang

Benjamin Recht

CML

254

25 Oct 2023

Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework

Annie Qu

327

23 Sep 2023

Off-policy Evaluation in Doubly Inhomogeneous EnvironmentsJournal of the American Statistical Association (JASA), 2023

328

14 Jun 2023

High-probability sample complexities for policy evaluation with linear function approximationIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023

454

30 May 2023

Off-Policy Evaluation for Large Action Spaces via Conjunct Effect ModelingInternational Conference on Machine Learning (ICML), 2023

340

14 May 2023

Correcting for Interference in Experiments: A Case Study at DouyinACM Conference on Recommender Systems (RecSys), 2023

Vivek F. Farias

243

04 May 2023

Conformal Off-Policy Evaluation in Markov Decision ProcessesIEEE Conference on Decision and Control (CDC), 2023

420

05 Apr 2023

Hallucinated Adversarial Control for Conservative Offline Policy EvaluationConference on Uncertainty in Artificial Intelligence (UAI), 2023

274

02 Mar 2023

Asking for Help: Failure Prediction in Behavioral Cloning through Value ApproximationIEEE International Conference on Robotics and Automation (ICRA), 2023

213

08 Feb 2023

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

David Bruns-Smith

Angela Zhou

OffRL

694

01 Feb 2023

Asymptotic Inference for Multi-Stage Stationary Treatment Policy with Variable Selection

289

29 Jan 2023

Model-based Offline Reinforcement Learning with Local MisspecificationAAAI Conference on Artificial Intelligence (AAAI), 2023

258

26 Jan 2023

Kernel-based off-policy estimation without overlap: Instance optimality beyond semiparametric efficiency

272

16 Jan 2023

Quantile Off-Policy Evaluation via Deep Conditional Generative Learning

296

29 Dec 2022

A Review of Off-Policy Evaluation in Reinforcement Learning

299

110

13 Dec 2022

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring DistributionsNeural Information Processing Systems (NeurIPS), 2022

Audrey Huang

Nan Jiang

OffRL

217

27 Oct 2022

A Unified Framework for Alternating Offline Model Training and Policy LearningNeural Information Processing Systems (NeurIPS), 2022

321

12 Oct 2022

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient

Ming Yin

Mengdi Wang

Yu Wang

OffRL

407

03 Oct 2022