Learning Infinite-horizon Average-reward MDPs with Linear Function
Approximation

Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation

23 July 2020

Mehdi Jafarnia-Jahromi

Papers citing "Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation"

14 / 14 papers shown

Title
Regret Analysis of Policy Gradient Algorithm for Infinite Horizon Average Reward Markov Decision Processes Qinbo Bai Washim Uddin Mondal Vaneet Aggarwal 34 9 0 05 Sep 2023
Efficient Planning in Combinatorial Action Spaces with Applications to Cooperative Multi-Agent Reinforcement Learning Volodymyr Tkachuk Seyed Alireza Bakhtiari Johannes Kirschner Matej Jusup Ilija Bogunovic Csaba Szepesvári 26 4 0 08 Feb 2023
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints Akhil Agnihotri R. Jain Haipeng Luo 21 2 0 02 Feb 2023
Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation Uri Sherman Tomer Koren Yishay Mansour 32 12 0 30 Jan 2023
Refined Regret for Adversarial MDPs with Linear Function Approximation Yan Dai Haipeng Luo Chen-Yu Wei Julian Zimmert 31 12 0 30 Jan 2023
Provable Reset-free Reinforcement Learning by No-Regret Reduction Hoai-An Nguyen Ching-An Cheng OffRL 23 2 0 06 Jan 2023
Efficient Global Planning in Large MDPs via Stochastic Primal-Dual Optimization Gergely Neu Nneka Okolo 32 6 0 21 Oct 2022
Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints Liyu Chen R. Jain Haipeng Luo 57 25 0 31 Jan 2022
Understanding Domain Randomization for Sim-to-real Transfer Xiaoyu Chen Jiachen Hu Chi Jin Lihong Li Liwei Wang 24 112 0 07 Oct 2021
Efficient Local Planning with Linear Function Approximation Dong Yin Botao Hao Yasin Abbasi-Yadkori N. Lazić Csaba Szepesvári 32 19 0 12 Aug 2021
Average-Reward Reinforcement Learning with Trust Region Methods Xiaoteng Ma Xiao-Jing Tang Li Xia Jun Yang Qianchuan Zhao 21 16 0 07 Jun 2021
Sample-Efficient Reinforcement Learning Is Feasible for Linearly Realizable MDPs with Limited Revisiting Gen Li Yuxin Chen Yuejie Chi Yuantao Gu Yuting Wei OffRL 26 28 0 17 May 2021
Online Learning for Unknown Partially Observable MDPs Mehdi Jafarnia-Jahromi Rahul Jain A. Nayyar 28 20 0 25 Feb 2021
Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes Chen-Yu Wei Mehdi Jafarnia-Jahromi Haipeng Luo Hiteshi Sharma R. Jain 107 99 0 15 Oct 2019