v1v2 (latest)

Off-Policy Evaluation via the Regularized Lagrangian

7 July 2020

Papers citing "Off-Policy Evaluation via the Regularized Lagrangian"

50 / 80 papers shown

Semi-gradient DICE for Offline Constrained Reinforcement Learning

181

10 Jun 2025

STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation

Hossein Goli

Michael Gimelfarb

Nathan Samuel de Lara

389

27 May 2025

An Optimal Discriminator Weighted Imitation Perspective for Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

445

17 Apr 2025

Average-DICE: Stationary Distribution Correction by Regression

236

03 Mar 2025

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

671

26 Feb 2025

SimuDICE: Offline Policy Optimization Through World Model Updates and DICE Estimation

330

09 Dec 2024

Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics DataInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

303

06 Nov 2024

Off-Policy Selection for Initiating Human-Centric Experimental DesignNeural Information Processing Systems (NeurIPS), 2024

341

26 Oct 2024

Primal-Dual Spectral Representation for Off-policy EvaluationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2024

320

23 Oct 2024

Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function ApproximationInternational Conference on Machine Learning (ICML), 2024

528

31 May 2024

Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies

259

29 May 2024

OPERA: Automatic Offline Policy Evaluation with Re-weighted Aggregates of Multiple Estimators

291

27 May 2024

Offline Multi-task Transfer RL with Representational Penalization

334

19 Feb 2024

ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update

377

01 Feb 2024

Probabilistic Offline Policy Ranking with Approximate Bayesian Computation

245

17 Dec 2023

Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy EvaluationInternational Conference on Learning Representations (ICLR), 2023

508

30 Nov 2023

SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation

534

30 Nov 2023

When is Off-Policy Evaluation Useful? A Data-Centric Perspective

331

23 Nov 2023

State-Action Similarity-Based Representations for Off-Policy EvaluationNeural Information Processing Systems (NeurIPS), 2023

Brahma S. Pavse

Josiah P. Hanna

OffRL

299

27 Oct 2023

Off-Policy Evaluation for Human FeedbackNeural Information Processing Systems (NeurIPS), 2023

383

11 Oct 2023

High-probability sample complexities for policy evaluation with linear function approximationIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2023

454

30 May 2023

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations

Siyu Chen

243

20 Mar 2023

Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution MatchingAAAI Conference on Artificial Intelligence (AAAI), 2023

277

05 Mar 2023

Hallucinated Adversarial Control for Conservative Offline Policy EvaluationConference on Uncertainty in Artificial Intelligence (UAI), 2023

274

02 Mar 2023

Distributional Offline Policy Evaluation with Predictive Error GuaranteesInternational Conference on Machine Learning (ICML), 2023

324

19 Feb 2023

Conservative State Value Estimation for Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023

241

14 Feb 2023

Offline Learning of Closed-Loop Deep Brain Stimulation Controllers for Parkinson Disease TreatmentInternational Conference on Cyber-Physical Systems (ICCPS), 2023

372

05 Feb 2023

Offline Minimax Soft-Q-learning Under Realizability and Partial CoverageNeural Information Processing Systems (NeurIPS), 2023

384

05 Feb 2023

Revisiting Bellman Errors for Offline Model SelectionInternational Conference on Machine Learning (ICML), 2023

Joshua P. Zitovsky

Daniel de Marchi

Rishabh Agarwal

Michael R. Kosorok University of North Carolina at Chapel Hill

OffRL

332

31 Jan 2023

Efficient Policy Evaluation with Offline Data Informed Behavior Policy DesignInternational Conference on Machine Learning (ICML), 2023

Shuze Liu

Shangtong Zhang

OffRL

510

31 Jan 2023

Variational Latent Branching Model for Off-Policy EvaluationInternational Conference on Learning Representations (ICLR), 2023

402

28 Jan 2023

Off-Policy Evaluation for Action-Dependent Non-Stationary EnvironmentsNeural Information Processing Systems (NeurIPS), 2023

Yash Chandak

Shiv Shankar

Nathaniel D. Bastian

Bruno Castro da Silva

Emma Brunskil

Philip S. Thomas

OffRL

245

24 Jan 2023

Scaling Marginalized Importance Sampling to High-Dimensional State-Spaces via State AbstractionAAAI Conference on Artificial Intelligence (AAAI), 2022

Brahma S. Pavse

Josiah P. Hanna

OffRL

224

14 Dec 2022

A Review of Off-Policy Evaluation in Reinforcement Learning

298

110

13 Dec 2022

When is Realizability Sufficient for Off-Policy Reinforcement Learning?International Conference on Machine Learning (ICML), 2022

Andrea Zanette

OffRL

362

10 Nov 2022

Optimal Conservative Offline RL with General Function Approximation via Augmented LagrangianInternational Conference on Learning Representations (ICLR), 2022

465

01 Nov 2022

Beyond the Return: Off-policy Function Estimation under User-specified Error-measuring DistributionsNeural Information Processing Systems (NeurIPS), 2022

Audrey Huang

Nan Jiang

OffRL

217

27 Oct 2022

A Unified Framework for Alternating Offline Model Training and Policy LearningNeural Information Processing Systems (NeurIPS), 2022

321

12 Oct 2022

Inference on Strongly Identified Functionals of Weakly Identified FunctionsAnnual Conference Computational Learning Theory (COLT), 2022

430

17 Aug 2022

Lagrangian Method for Q-Function Learning (with Applications to Machine Translation)International Conference on Machine Learning (ICML), 2022

Bojun Huang

235

22 Jul 2022

Learning Bellman Complete Representations for Offline Policy EvaluationInternational Conference on Machine Learning (ICML), 2022

345

12 Jul 2022

Markovian Interference in ExperimentsNeural Information Processing Systems (NeurIPS), 2022

Vivek F. Farias

199

06 Jun 2022

Hybrid Value Estimation for Off-policy Evaluation and Offline Reinforcement Learning

304

04 Jun 2022

Variance Reduction based Partial Trajectory Reuse to Accelerate Policy Gradient Optimization

Hua Zheng

Wei Xie

311

06 May 2022

COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction EstimationInternational Conference on Learning Representations (ICLR), 2022

241

19 Apr 2022

Marginalized Operators for Off-policy Reinforcement LearningInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

256

30 Mar 2022

Offline Reinforcement Learning Under Value and Density-Ratio Realizability: The Power of GapsConference on Uncertainty in Artificial Intelligence (UAI), 2022

Jinglin Chen

Nan Jiang

OffRL

431

25 Mar 2022

Bellman Residual Orthogonalization for Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2022

Andrea Zanette

Martin J. Wainwright

OffRL

540

24 Mar 2022

DARA: Dynamics-Aware Reward Augmentation in Offline Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2022

226

13 Mar 2022

LobsDICE: Offline Learning from Observation via Stationary Distribution Correction EstimationNeural Information Processing Systems (NeurIPS), 2022

349

28 Feb 2022