Unknown mixing times in apprenticeship and reinforcement learning

v1v2 (latest)

Unknown mixing times in apprenticeship and reinforcement learning

23 May 2019

ArXiv (abs)PDF HTML

Papers citing "Unknown mixing times in apprenticeship and reinforcement learning"

9 / 9 papers shown

Title
Inverse Reinforcement Learning with the Average Reward Criterion Feiyang Wu Jingyang Ke Anqi Wu 85 11 0 24 May 2023
Concentration Phenomenon for Random Dynamical Systems: An Operator Theoretic Approach Muhammad Naeem Miroslav Pajic 126 1 0 07 Dec 2022
Transportation-Inequalities, Lyapunov Stability and Sampling for Dynamical Systems on Continuous State Space Muhammad Naeem Miroslav Pajic 78 3 0 25 May 2022
Discovering Diverse Nearly Optimal Policies with Successor Features Tom Zahavy Brendan O'Donoghue André Barreto Volodymyr Mnih Sebastian Flennerhag Satinder Singh 89 21 0 01 Jun 2021
Reward is enough for convex MDPs Tom Zahavy Brendan O'Donoghue Guillaume Desjardins Satinder Singh 137 76 0 01 Jun 2021
Discovering a set of policies for the worst case reward Tom Zahavy André Barreto D. Mankowitz Shaobo Hou Brendan O'Donoghue Iurii Kemaev Satinder Singh OffRL 61 23 0 08 Feb 2021
Learning Expected Reward for Switched Linear Control Systems: A Non-Asymptotic View Muhammad Naeem Miroslav Pajic 75 1 0 15 Jun 2020
Apprenticeship Learning via Frank-Wolfe Tom Zahavy Alon Cohen Haim Kaplan Yishay Mansour 107 18 0 05 Nov 2019
Inverse Reinforcement Learning in Contextual MDPs Stav Belogolovsky Philip Korsunsky Shie Mannor Chen Tessler Tom Zahavy OffRL BDL 115 18 0 23 May 2019