Mind the Gap: Offline Policy Optimization for Imperfect Rewards

3 February 2023

Papers citing "Mind the Gap: Offline Policy Optimization for Imperfect Rewards"

7 / 7 papers shown

Title
Data Center Cooling System Optimization Using Offline Reinforcement Learning Xianyuan Zhan Xiangyu Zhu Peng Cheng Xiao Hu Ziteng He ... Chenhui Liu Tianshun Hong Yan Liang Yunxin Liu Feng Zhao AI4CE 57 0 0 17 Feb 2025
Bilevel reinforcement learning via the development of hyper-gradient without lower-level convexity Yan Yang Bin Gao Ya-xiang Yuan 36 2 0 30 May 2024
MAHALO: Unifying Offline Reinforcement Learning and Imitation Learning from Observations Anqi Li Byron Boots Ching-An Cheng OffRL 24 16 0 30 Mar 2023
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization Haoran Xu Li Jiang Jianxiong Li Zhuoran Yang Zhaoran Wang Victor Chan Xianyuan Zhan OffRL 28 71 0 28 Mar 2023
Offline Reinforcement Learning with Implicit Q-Learning Ilya Kostrikov Ashvin Nair Sergey Levine OffRL 206 832 0 12 Oct 2021
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation Ajay Mandlekar Danfei Xu J. Wong Soroush Nasiriany Chen Wang Rohun Kulkarni Li Fei-Fei Silvio Savarese Yuke Zhu Roberto Martín-Martín OffRL 139 461 0 06 Aug 2021
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 321 1,944 0 04 May 2020