v1v2 (latest)

Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning

19 February 2021

Zuyue Fu

Papers citing "Instrumental Variable Value Iteration for Causal Offline Reinforcement Learning"

29 / 29 papers shown

Title
The Sample Complexity of Online Strategic Decision Making with Information Asymmetry and Knowledge Transportability Jiachen Hu Rui Ai Han Zhong Xiaoyu Chen L. Wang Zhaoran Wang Zhuoran Yang 145 0 0 11 Jun 2025
Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024 Shuguang Yu Shuxing Fang Ruixin Peng Zhengling Qi Fan Zhou C. Shi CML OffRL 179 5 0 08 Dec 2024
Causality for Large Language Models Anpeng Wu Kun Kuang Minqin Zhu Yingrong Wang Yujia Zheng Kairong Han Yangqiu Song Guangyi Chen Leilei Gan Kun Zhang LRM 212 16 0 20 Oct 2024
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer Zhihan Liu Miao Lu Shenao Zhang Boyi Liu Hongyi Guo Yingxiang Yang Jose H. Blanchet Zhaoran Wang 239 77 0 26 May 2024
Learning Causal Dynamics Models in Object-Oriented Environments Zhongwei Yu Jingqing Ruan Dengpeng Xing 126 4 0 21 May 2024
Learning Decision Policies with Instrumental Variables through Double Machine LearningInternational Conference on Machine Learning (ICML), 2024 Daqian Shao Ashkan Soleymani Francesco Quinzan Marta Z. Kwiatkowska 251 2 0 14 May 2024
On the Opportunities and Challenges of Offline Reinforcement Learning for Recommender Systems Xiaocong Chen Siyu Wang Julian McAuley Dietmar Jannach Lina Yao OffRL 167 13 0 22 Aug 2023
Causal Reinforcement Learning: A Survey Zhi-Hong Deng Jing Jiang Guodong Long Chen Zhang CML LRM 206 28 0 04 Jul 2023
A Unified Framework of Policy Learning for Contextual Bandit with Confounding Bias and Missing Observations Siyu Chen Yitan Wang Zhaoran Wang Zhuoran Yang OffRL 141 2 0 20 Mar 2023
Minimax Instrumental Variable Regression and $L_2$ Convergence Guarantees without Identification or ClosednessAnnual Conference Computational Learning Theory (COLT), 2023 Andrew Bennett Nathan Kallus Xiaojie Mao Whitney Newey Vasilis Syrgkanis Masatoshi Uehara 175 15 0 10 Feb 2023
A Survey on Causal Reinforcement LearningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023 Yan Zeng Ruichu Cai Gang Hua Libo Huang Zijian Li CML 246 43 0 10 Feb 2023
Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders David Bruns-Smith Angela Zhou OffRL 279 13 0 01 Feb 2023
An Instrumental Variable Approach to Confounded Off-Policy EvaluationInternational Conference on Machine Learning (ICML), 2022 Yang Xu Jin Zhu C. Shi Shuang Luo R. Song OffRL 215 22 0 29 Dec 2022
Offline Reinforcement Learning for Human-Guided Human-Machine Interaction with Private InformationManagement Sciences (MS), 2022 Zuyue Fu Zhengling Qi Zhuoran Yang Zhaoran Wang Lan Wang OffRL 119 0 0 23 Dec 2022
Optimal Treatment Regimes for Proximal Causal LearningNeural Information Processing Systems (NeurIPS), 2022 Tao Shen Yifan Cui CML 183 4 0 19 Dec 2022
Instrumental Variables in Causal Inference and Machine Learning: A SurveyACM Computing Surveys (ACM CSUR), 2022 Anpeng Wu Kun Kuang Ruoxuan Xiong Leilei Gan SyDa CML 154 11 0 12 Dec 2022
Offline Policy Evaluation and Optimization under ConfoundingInternational Conference on Artificial Intelligence and Statistics (AISTATS), 2022 Chinmaya Kausik Yangyi Lu Kevin Tan Maggie Makar Yixin Wang Ambuj Tewari OffRL 167 12 0 29 Nov 2022
Off-Policy Evaluation for Episodic Partially Observable Markov Decision Processes under Non-Parametric ModelsNeural Information Processing Systems (NeurIPS), 2022 Rui Miao Zhengling Qi Xiaoke Zhang OffRL 199 11 0 21 Sep 2022
Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach Miao Lu Wenhao Yang Liangyu Zhang Zhihua Zhang OffRL 115 1 0 12 Sep 2022
Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments Mengxin Yu Zhuoran Yang Jianqing Fan OffRL 184 9 0 23 Aug 2022
Future-Dependent Value-Based Off-Policy Evaluation in POMDPsNeural Information Processing Systems (NeurIPS), 2022 Masatoshi Uehara Haruka Kiyohara Andrew Bennett Victor Chernozhukov Nan Jiang Nathan Kallus C. Shi Wen Sun OffRL 262 23 0 26 Jul 2022
A Minimax Learning Approach to Off-Policy Evaluation in Confounded Partially Observable Markov Decision ProcessesInternational Conference on Machine Learning (ICML), 2021 C. Shi Masatoshi Uehara Jiawei Huang Nan Jiang OffRL 197 28 0 12 Nov 2021
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision ProcessesOperational Research (OR), 2021 Andrew Bennett Nathan Kallus OffRL 142 49 0 28 Oct 2021
Instrument Space Selection for Kernel Maximum Moment Restriction Rui Zhang Krikamol Muandet Bernhard Schölkopf Masaaki Imaizumi 106 3 0 07 Jun 2021
On Instrumental Variable Regression for Deep Offline Policy EvaluationJournal of machine learning research (JMLR), 2021 Yutian Chen Liyuan Xu Çağlar Gülçehre T. Paine Arthur Gretton Nando de Freitas Arnaud Doucet OffRL 161 21 0 21 May 2021
Estimating and Improving Dynamic Treatment Regimes With a Time-Varying Instrumental Variable Shuxiao Chen B. Zhang 166 24 0 15 Apr 2021
An Adaptive Stochastic Sequential Quadratic Programming with Differentiable Exact Augmented LagrangiansMathematical programming (Math. Program.), 2021 Sen Na M. Anitescu Mladen Kolar 179 53 0 10 Feb 2021
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data Lingxiao Wang Zhuoran Yang Zhaoran Wang OffRL 148 53 0 22 Jun 2020
Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement Learning FrameworkJournal of the American Statistical Association (JASA), 2020 C. Shi Xiaoyu Wang Shuang Luo Hongtu Zhu Jieping Ye R. Song CML OffRL 346 46 0 05 Feb 2020