v1v2v3v4 (latest)

Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling

Neural Information Processing Systems (NeurIPS), 2019

8 June 2019

Papers citing "Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling"

50 / 130 papers shown

BAMAS: Structuring Budget-Aware Multi-Agent Systems

413

26 Nov 2025

Offline Reinforcement Learning in Large State Spaces: Algorithms and Guarantees

Nan Jiang

Tengyang Xie

OffRL

243

05 Oct 2025

Nested-ReFT: Efficient Reinforcement Learning for Large Language Model Fine-Tuning via Off-Policy Rollouts

Prasanna Parthasarathi

OffRL ReLM LRM

428

13 Aug 2025

Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

276

28 May 2025

STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

Hossein Goli

Michael Gimelfarb

Nathan Samuel de Lara

395

27 May 2025

DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects

Shu Tamano

OffRL

513

02 May 2025

Reinforcement Learning with Continuous Actions Under Unmeasured Confounding

1.0K

01 May 2025

When Machine Learning Meets Importance Sampling: A More Efficient Rare Event Estimation Approach

Ruoning Zhao

Xinyun Chen

163

18 Apr 2025

Statistical Tractability of Off-policy Evaluation of History-dependent Policies in POMDPsInternational Conference on Learning Representations (ICLR), 2025

Yuheng Zhang

Nan Jiang

OffRL

305

03 Mar 2025

Reweighting Improves Conditional Risk Bounds

219

04 Jan 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

387

08 Dec 2024

Concept-driven Off Policy Evaluation

355

28 Nov 2024

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

...

665

18 Nov 2024

Scalable Offline Reinforcement Learning for Mean Field Games

283

23 Oct 2024

Primal-Dual Spectral Representation for Off-policy EvaluationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

339

23 Oct 2024

The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation

Noah Golowich

Ankur Moitra

OffRL

365

17 Jun 2024

A Fine-grained Analysis of Fitted Q-evaluation: Beyond Parametric ModelsInternational Conference on Machine Learning (ICML), 2024

Jiayi Wang

Zhengling Qi

Raymond K. W. Wong

214

14 Jun 2024

RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation

Jeongyeol Kwon

Shie Mannor

Constantine Caramanis

Yonathan Efroni

OffRL

451

03 Jun 2024

Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies

295

29 May 2024

Multiple-policy Evaluation via Density Estimation

435

29 Mar 2024

On the Curses of Future and History in Future-dependent Value Functions for Off-policy Evaluation

Yuheng Zhang

Nan Jiang

OffRL

328

22 Feb 2024

Offline Multi-task Transfer RL with Representational Penalization

383

19 Feb 2024

Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap

Mohammad Mehrabi

Stefan Wager

OffRL

364

13 Feb 2024

POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy Decomposition

345

09 Feb 2024

Probabilistic Offline Policy Ranking with Approximate Bayesian Computation

246

17 Dec 2023

Marginal Density Ratio for Off-Policy Evaluation in Contextual BanditsNeural Information Processing Systems (NeurIPS), 2023

Muhammad Faaiz Taufiq

356

03 Dec 2023

Robust Offline Reinforcement learning with Heavy-Tailed RewardsInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2023

399

28 Oct 2023

Counterfactual-Augmented Importance Sampling for Semi-Offline Policy EvaluationNeural Information Processing Systems (NeurIPS), 2023

Shengpu Tang

Jenna Wiens

OffRL CML

304

26 Oct 2023

Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks

Mengdi Wang

313

16 Oct 2023

When is Agnostic Reinforcement Learning Statistically Tractable?Neural Information Processing Systems (NeurIPS), 2023

380

09 Oct 2023

Stackelberg Batch Policy Learning

Wenzhuo Zhou

Annie Qu

OffRL

340

28 Sep 2023

Distributional Shift-Aware Off-Policy Interval Estimation: A Unified Error Quantification Framework

Annie Qu

328

23 Sep 2023

A new Gradient TD Algorithm with only One Step-size: Convergence Rate Analysis using

L

λ

Smoothness

Hengshuai Yao

348

29 Jul 2023

Offline Policy Evaluation for Reinforcement Learning with Adaptively Collected Data

Ming Yin

320

24 Jun 2023

High-probability sample complexities for policy evaluation with linear function approximationIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023

459

30 May 2023

Off-Policy Evaluation for Large Action Spaces via Conjunct Effect ModelingInternational Conference on Machine Learning (ICML), 2023

358

14 May 2023

On the Sample Complexity of Vanilla Model-Based Offline Reinforcement Learning with Dependent SamplesAAAI Conference on Artificial Intelligence (AAAI), 2023

Mustafa O. Karabag

Ufuk Topcu

OffRL

339

07 Mar 2023

HOPE: Human-Centric Off-Policy Evaluation for E-Learning and HealthcareAdaptive Agents and Multi-Agent Systems (AAMAS), 2023

255

18 Feb 2023

Revisiting Bellman Errors for Offline Model SelectionInternational Conference on Machine Learning (ICML), 2023

Joshua P. Zitovsky

Daniel de Marchi

Rishabh Agarwal

Michael R. Kosorok University of North Carolina at Chapel Hill

OffRL

345

31 Jan 2023

Efficient Policy Evaluation with Offline Data Informed Behavior Policy DesignInternational Conference on Machine Learning (ICML), 2023

Shuze Liu

Shangtong Zhang

OffRL

515

31 Jan 2023

A Reinforcement Learning Framework for Dynamic Mediation AnalysisInternational Conference on Machine Learning (ICML), 2023

400

31 Jan 2023

Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

566

30 Jan 2023

Model-based Offline Reinforcement Learning with Local MisspecificationAAAI Conference on Artificial Intelligence (AAAI), 2023

265

26 Jan 2023

Off-Policy Evaluation for Action-Dependent Non-Stationary EnvironmentsNeural Information Processing Systems (NeurIPS), 2023

Yash Chandak

Shiv Shankar

Nathaniel D. Bastian

Bruno Castro da Silva

Emma Brunskil

Philip S. Thomas

OffRL

272

24 Jan 2023

Minimax Weight Learning for Absorbing MDPsStatistical Papers (Stat. Pap.), 2023

171

09 Jan 2023

An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022

365

29 Dec 2022

Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality

592

19 Dec 2022

Scaling Marginalized Importance Sampling to High-Dimensional State-Spaces via State AbstractionAAAI Conference on Artificial Intelligence (AAAI), 2022

Brahma S. Pavse

Josiah P. Hanna

OffRL

228

14 Dec 2022

A Review of Off-Policy Evaluation in Reinforcement Learning

303

114

13 Dec 2022

Low Variance Off-policy Evaluation with State-based Importance SamplingConference on Algebraic Informatics (AI), 2022

David M. Bossens

Philip S. Thomas

OffRL

538

07 Dec 2022