v1v2 (latest)

Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning

19 February 2021

Zuyue Fu

Papers citing "Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning"

30 / 30 papers shown

The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability

249

11 Jun 2025

Optimality and Adaptivity of Deep Neural Features for Instrumental Variable RegressionInternational Conference on Learning Representations (ICLR), 2025

275

10 Jan 2025

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

387

08 Dec 2024

Causality for Large Language Models

Yingrong Wang

399

20 Oct 2024

Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer

432

26 May 2024

Learning Causal Dynamics Models in Object-Oriented Environments

Zhongwei Yu

Jingqing Ruan

Dengpeng Xing

266

21 May 2024

Learning Decision Policies with Instrumental Variables through Double Machine LearningInternational Conference on Machine Learning (ICML), 2024

586

14 May 2024

On the Opportunities and Challenges of Offline Reinforcement Learning for Recommender Systems

300

22 Aug 2023

Causal Reinforcement Learning: A Survey

391

04 Jul 2023

A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations

Siyu Chen

253

20 Mar 2023

Minimax Instrumental Variable Regression and

L_2

Convergence Guarantees without Identification or ClosednessAnnual Conference Computational Learning Theory (COLT), 2023

340

10 Feb 2023

A Survey on Causal Reinforcement LearningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

542

10 Feb 2023

Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders

David Bruns-Smith

Angela Zhou

OffRL

701

01 Feb 2023

An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022

365

29 Dec 2022

Offline Reinforcement Learning for Human-Guided Human-Machine Interaction with Private InformationManagement Sciences (MS), 2022

Zuyue Fu

224

23 Dec 2022

Optimal Treatment Regimes for Proximal Causal LearningNeural Information Processing Systems (NeurIPS), 2022

Tao Shen

Yifan Cui

CML

446

19 Dec 2022

Instrumental Variables in Causal Inference and Machine Learning: A SurveyACM Computing Surveys (ACM CSUR), 2022

308

12 Dec 2022

Offline Policy Evaluation and Optimization under ConfoundingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022

430

29 Nov 2022

Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric ModelsNeural Information Processing Systems (NeurIPS), 2022

352

21 Sep 2022

Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach

Wenhao Yang

248

12 Sep 2022

Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments

363

23 Aug 2022

Future-Dependent Value-Based Off-Policy Evaluation in POMDPsNeural Information Processing Systems (NeurIPS), 2022

509

26 Jul 2022

A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision ProcessesInternational Conference on Machine Learning (ICML), 2021

441

12 Nov 2021

Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision ProcessesOperational Research (OR), 2021

Andrew Bennett

Nathan Kallus

OffRL

262

28 Oct 2021

Instrument Space Selection for Kernel Maximum Moment Restriction

184

07 Jun 2021

On Instrumental Variable Regression for Deep Offline Policy EvaluationJournal of machine learning research (JMLR), 2021

339

21 May 2021

Estimating and Improving Dynamic Treatment Regimes With a Time-Varying Instrumental Variable

Shuxiao Chen

B. Zhang

339

15 Apr 2021

An Adaptive Stochastic Sequential Quadratic Programming with Differentiable Exact Augmented LagrangiansMathematical programming (Math. Program.), 2021

Sen Na

M. Anitescu

Mladen Kolar

354

10 Feb 2021

Provably Efficient Causal Reinforcement Learning with Confounded Observational Data

267

22 Jun 2020

Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning FrameworkJournal of the American Statistical Association (JASA), 2020

671

05 Feb 2020