v1v2v3 (latest)

Off-Policy Evaluation via Off-Policy Classification

Neural Information Processing Systems (NeurIPS), 2019

4 June 2019

A. Irpan

Kanishka Rao

Konstantinos Bousmalis

Papers citing "Off-Policy Evaluation via Off-Policy Classification"

38 / 38 papers shown

Few Dimensions are Enough: Fine-tuning BERT with Selected Dimensions Revealed Its Redundant Nature

Shion Fukuhata

Yoshinobu Kano

219

07 Apr 2025

Clustering Context in Off-Policy EvaluationInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2025

Daniel Guzman-Olivares

189

28 Feb 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

300

08 Dec 2024

Practical Performative Policy Learning with Strategic Agents

Qianyi Chen

Ying Chen

Bo Li

577

02 Dec 2024

OMPO: A Unified Framework for RL under Policy and Dynamics Shifts

292

29 May 2024

$$\pi2\text{vec}$: Policy Representations with Successor Features$

\pi2\text{vec}

: Policy Representations with Successor FeaturesInternational Conference on Learning Representations (ICLR), 2023

199

16 Jun 2023

Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical CareIEEE journal of biomedical and health informatics (IEEE JBHI), 2023

242

13 Jun 2023

Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators

...

232

05 May 2023

Rescue Conversations from Dead-ends: Efficient Exploration for Task-oriented Dialogue Policy OptimizationTransactions of the Association for Computational Linguistics (TACL), 2023

190

05 May 2023

Towards Real-World Applications of Personalized Anesthesia Using Policy Constraint Q Learning for Propofol Infusion ControlIEEE journal of biomedical and health informatics (IEEE JBHI), 2023

255

17 Mar 2023

HOPE: Human-Centric Off-Policy Evaluation for E-Learning and HealthcareAdaptive Agents and Multi-Agent Systems (AAMAS), 2023

199

18 Feb 2023

Revisiting Bellman Errors for Offline Model SelectionInternational Conference on Machine Learning (ICML), 2023

Joshua P. Zitovsky

Daniel de Marchi

Rishabh Agarwal

Michael R. Kosorok University of North Carolina at Chapel Hill

OffRL

277

31 Jan 2023

RT-1: Robotics Transformer for Real-World Control at Scale

...

500

1,749

13 Dec 2022

Policy-Adaptive Estimator Selection for Off-Policy EvaluationAAAI Conference on Artificial Intelligence (AAAI), 2022

214

25 Nov 2022

Offline Policy Comparison with Confidence: Benchmarks and Baselines

211

22 May 2022

Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement for Value ErrorInternational Conference on Machine Learning (ICML), 2022

340

28 Jan 2022

Dynamics-Aware Comparison of Learned Reward FunctionsInternational Conference on Learning Representations (ICLR), 2022

Adrien Gaidon

131

25 Jan 2022

Validate on Sim, Detect on Real -- Model Selection for Domain RandomizationIEEE International Conference on Robotics and Automation (ICRA), 2021

268

01 Nov 2021

Medical Dead-ends and Learning to Identify High-risk States and TreatmentsNeural Information Processing Systems (NeurIPS), 2021

229

08 Oct 2021

Showing Your Offline Reinforcement Learning Work: Online Evaluation Budget MattersInternational Conference on Machine Learning (ICML), 2021

Vladislav Kurenkov

Sergey Kolesnikov

OffRL

337

08 Oct 2021

Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare SettingsMachine Learning in Health Care (MLHC), 2021

Shengpu Tang

Jenna Wiens

OffRL

182

23 Jul 2021

Supervised Off-Policy Ranking

Yue Zhang

188

03 Jul 2021

Offline Policy Comparison under Limited Historical Agent-Environment Interactions

123

07 Jun 2021

Model Selection for Production System via Automated Online ExperimentsNeural Information Processing Systems (NeurIPS), 2021

212

27 May 2021

Benchmarks for Deep Off-Policy EvaluationInternational Conference on Learning Representations (ICLR), 2021

...

210

110

30 Mar 2021

Replacing Rewards with Examples: Example-Based Policy Search via Recursive ClassificationNeural Information Processing Systems (NeurIPS), 2021

349

23 Mar 2021

Delayed Rewards Calibration via Reward Empirical Sufficiency

Hu Wang

172

21 Feb 2021

Minimax Off-Policy Evaluation for Multi-Armed BanditsIEEE Transactions on Information Theory (IEEE Trans. Inf. Theory), 2021

179

19 Jan 2021

Offline Policy Selection under UncertaintyInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2020

219

12 Dec 2020

Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models

Lei M. Zhang

Matthias Plappert

Wojciech Zaremba

112

27 Sep 2020

Open Bandit Dataset and Pipeline: Towards Realistic and Reproducible Off-Policy Evaluation

676

17 Aug 2020

Hyperparameter Selection for Offline Reinforcement Learning

345

154

17 Jul 2020

Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic Reinforcement Learning

200

21 Apr 2020

Debiased Off-Policy Evaluation for Recommendation SystemsACM Conference on Recommender Systems (RecSys), 2020

226

20 Feb 2020

Behavior Regularized Offline Reinforcement Learning

478

770

26 Nov 2019

BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2019

333

135

27 Oct 2019

Ctrl-Z: Recovering from Instability in Reinforcement Learning

141

09 Oct 2019

An Optimistic Perspective on Offline Reinforcement Learning

452

10 Jul 2019