v1v2 (latest)

More Robust Doubly Robust Off-policy Evaluation

10 February 2018

Papers citing "More Robust Doubly Robust Off-policy Evaluation"

50 / 178 papers shown

A Case for Leveraging Generative AI to Expand and Enhance Training in the Provision of Mental Health Services

Hannah R. Lawrence

Shannon Wiltsey Stirman

202

08 Oct 2025

An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes

193

30 Sep 2025

Context-Action Embedding Learning for Off-Policy Evaluation in Contextual Bandits

212

31 Aug 2025

Beyond Prediction: Reinforcement Learning as the Defining Leap in Healthcare AI

341

28 Aug 2025

Meta Off-Policy EstimationACM Conference on Recommender Systems (RecSys), 2025

Olivier Jeunen

OffRL

178

11 Aug 2025

PERRY: Policy Evaluation with Confidence Intervals using Auxiliary Data

Barbara E. Engelhardt

Emma Brunskill

OffRL

243

26 Jul 2025

A General Framework for Off-Policy Learning with Partially-Observed RewardInternational Conference on Learning Representations (ICLR), 2025

222

17 Jun 2025

Doubly Robust Alignment for Large Language Models

360

01 Jun 2025

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

282

28 May 2025

STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

Hossein Goli

Michael Gimelfarb

Nathan Samuel de Lara

396

27 May 2025

DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects

Shu Tamano

OffRL

520

02 May 2025

Counterfactual Inference under Thompson SamplingACM Conference on Recommender Systems (RecSys), 2025

Olivier Jeunen

OffRL LRM

353

03 Apr 2025

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPsInternational Conference on Learning Representations (ICLR), 2025

Yuheng Zhang

Nan Jiang

OffRL

305

03 Mar 2025

Clustering Context in Off-Policy EvaluationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2025

Daniel Guzman-Olivares

218

28 Feb 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

387

08 Dec 2024

Concept-driven Off Policy Evaluation

360

28 Nov 2024

Off-policy estimation with adaptively collected data: the power of online learningNeural Information Processing Systems (NeurIPS), 2024

Jeonghwan Lee

Cong Ma

OffRL

383

19 Nov 2024

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy EvaluationNeural Information Processing Systems (NeurIPS), 2024

Shreyas Chaudhari

Ameet Deshpande

Bruno Castro da Silva

Philip S. Thomas

OffRL

267

03 Oct 2024

Designing an Interpretable Interface for Contextual Bandits

262

23 Sep 2024

Effective Off-Policy Evaluation and Learning in Contextual Combinatorial BanditsACM Conference on Recommender Systems (RecSys), 2024

Yuta Saito

369

20 Aug 2024

Balancing Immediate Revenue and Future Off-Policy Evaluation in Coupon Allocation

Naoki Nishimura

Ken Kobayashi

Kazuhide Nakata

OffRL

209

06 Jul 2024

Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling

Imad Aouali

Victor-Emmanuel Brunel

David Rohde

Anna Korba

OffRL

286

05 Jun 2024

Combining Experimental and Historical Data for Policy Evaluation

483

01 Jun 2024

OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators

305

27 May 2024

Cross-Validated Off-Policy Evaluation

376

24 May 2024

Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection and LearningNeural Information Processing Systems (NeurIPS), 2024

369

23 May 2024

Optimal Baseline Corrections for Off-Policy Contextual BanditsACM Conference on Recommender Systems (RecSys), 2024

Shashank Gupta

Olivier Jeunen

Harrie Oosterhuis

Maarten de Rijke

352

09 May 2024

Long-term Off-Policy Evaluation and Learning

301

24 Apr 2024

Hyperparameter Optimization Can Even be Harmful in Off-Policy Learning and How to Deal with It

Yuta Saito

Masahiro Nomura

OffRL

358

23 Apr 2024

Longitudinal Targeted Minimum Loss-based Estimation with Temporal-Difference Heterogeneous Transformer

355

05 Apr 2024

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy

Kyungbok Lee

M. Paik

OffRL

135

02 Apr 2024

Multiple-policy Evaluation via Density Estimation

440

29 Mar 2024

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation

Yuheng Zhang

Nan Jiang

OffRL

328

22 Feb 2024

Bayesian Off-Policy Evaluation and Learning for Large Action Spaces

Imad Aouali

Victor-Emmanuel Brunel

David Rohde

Anna Korba

OffRL

392

22 Feb 2024

Offline Multi-task Transfer RL with Representational Penalization

386

19 Feb 2024

POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition

345

09 Feb 2024

Off-Policy Evaluation of Slate Bandit Policies via Optimizing Abstraction

Haruka Kiyohara

Masahiro Nomura

Yuta Saito

717

03 Feb 2024

Distributionally Robust Policy Evaluation under General Covariate Shift in Contextual Bandits

304

21 Jan 2024

Conservative Exploration for Policy Optimization via Off-Policy Policy Evaluation

238

24 Dec 2023

Probabilistic Offline Policy Ranking with Approximate Bayesian Computation

246

17 Dec 2023

Marginal Density Ratio for Off-Policy Evaluation in Contextual BanditsNeural Information Processing Systems (NeurIPS), 2023

Muhammad Faaiz Taufiq

358

03 Dec 2023

Robust Offline Reinforcement learning with Heavy-Tailed RewardsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

401

28 Oct 2023

State-Action Similarity-Based Representations for Off-Policy EvaluationNeural Information Processing Systems (NeurIPS), 2023

Brahma S. Pavse

Josiah P. Hanna

OffRL

317

27 Oct 2023

Counterfactual-Augmented Importance Sampling for Semi-Offline Policy EvaluationNeural Information Processing Systems (NeurIPS), 2023

Shengpu Tang

Jenna Wiens

OffRL CML

309

26 Oct 2023

Off-Policy Evaluation for Large Action Spaces via Policy ConvolutionThe Web Conference (WWW), 2023

Julian McAuley

343

24 Oct 2023

Off-Policy Evaluation for Human FeedbackNeural Information Processing Systems (NeurIPS), 2023

397

11 Oct 2023

Ad-load Balancing via Off-policy Learning in a Content MarketplaceWeb Search and Data Mining (WSDM), 2023

446

19 Sep 2023

Doubly Robust Estimator for Off-Policy Evaluation with Large Action SpacesIEEE Symposium Series on Computational Intelligence (IEEE-SSCI), 2023

Tatsuhiro Shimizu

L. Forastiere

OffRL

273

07 Aug 2023

Leveraging Factored Action Spaces for Off-Policy Evaluation

Aaman Rebello

Shengpu Tang

Jenna Wiens

Sonali Parbhoo Department of Engineering

CML OffRL

177

13 Jul 2023

Value-aware Importance Weighting for Off-policy Reinforcement Learning

274

27 Jun 2023