Title
A Unifying Framework for Causal Imitation Learning with Hidden Confounders Daqian Shao Thomas Kleine Buening Marta Z. Kwiatkowska CML 83 1 0 11 Feb 2025
Decision Transformer: Reinforcement Learning via Sequence Modeling Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel A. Srinivas Igor Mordatch OffRL 77 1,608 0 02 Jun 2021
Causal Analysis of Agent Behavior for AI Safety Grégoire Delétang Jordi Grau-Moya Miljan Martic Tim Genewein Tom McGrath Vladimir Mikulik M. Kunesch Shane Legg Pedro A. Ortega CML 45 7 0 05 Mar 2021
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 467 41,106 0 28 May 2020
Causally Correct Partial Models for Reinforcement Learning Danilo Jimenez Rezende Ivo Danihelka George Papamakarios Nan Rosemary Ke Ray Jiang ... Jane X. Wang Jovana Mitrović F. Besse Ioannis Antonoglou Lars Buesing AI4TS 50 33 0 07 Feb 2020
Task-Relevant Adversarial Imitation Learning Konrad Zolna Scott E. Reed Alexander Novikov Sergio Gomez Colmenarejo David Budden Serkan Cabi Misha Denil Nando de Freitas Ziyun Wang GAN 131 61 0 02 Oct 2019
Invariant Risk Minimization Martín Arjovsky Léon Bottou Ishaan Gulrajani David Lopez-Paz OOD 146 2,190 0 05 Jul 2019
Learning to reinforcement learn Jane X. Wang Z. Kurth-Nelson Dhruva Tirumala Hubert Soyer Joel Z Leibo Rémi Munos Charles Blundell D. Kumaran M. Botvinick OffRL 67 974 0 17 Nov 2016
RL $^2$ : Fast Reinforcement Learning via Slow Reinforcement Learning Yan Duan John Schulman Xi Chen Peter L. Bartlett Ilya Sutskever Pieter Abbeel OffRL 67 1,011 0 09 Nov 2016
Why is Posterior Sampling Better than Optimism for Reinforcement Learning? Ian Osband Benjamin Van Roy BDL 74 257 0 01 Jul 2016
Generative Adversarial Imitation Learning Jonathan Ho Stefano Ermon GAN 111 3,089 0 10 Jun 2016
Thompson Sampling is Asymptotically Optimal in General Environments Jan Leike Tor Lattimore Laurent Orseau Marcus Hutter 87 39 0 25 Feb 2016
Compress and Control J. Veness Marc G. Bellemare Marcus Hutter Alvin Chua Guillaume Desjardins OffRL 41 29 0 19 Nov 2014
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning Stéphane Ross Geoffrey J. Gordon J. Andrew Bagnell OffRL 155 3,196 0 02 Nov 2010
A Bayesian Rule for Adaptive Control based on Causal Interventions Pedro A. Ortega Daniel A. Braun 74 23 0 26 Nov 2009
A Minimum Relative Entropy Principle for Learning and Acting Pedro A. Ortega Daniel A. Braun 95 125 0 20 Oct 2008