DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

16 March 2020

Abhishek Gupta

Papers citing "DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction"

20 / 20 papers shown

Title
HelpSteer2-Preference: Complementing Ratings with Preferences Zhilin Wang Alexander Bukharin Olivier Delalleau Daniel Egert Gerald Shen Jiaqi Zeng Oleksii Kuchaiev Yi Dong ALM 42 39 0 02 Oct 2024
On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics Michal Nauman Marek Cygan 32 1 0 30 Oct 2023
Regularization and Variance-Weighted Regression Achieves Minimax Optimality in Linear MDPs: Theory and Practice Toshinori Kitamura Tadashi Kozuno Yunhao Tang Nino Vieillard Michal Valko ... Olivier Pietquin M. Geist Csaba Szepesvári Wataru Kumagai Yutaka Matsuo OffRL 30 2 0 22 May 2023
Preference Transformer: Modeling Human Preferences using Transformers for RL Changyeon Kim Jongjin Park Jinwoo Shin Honglak Lee Pieter Abbeel Kimin Lee OffRL 30 61 0 02 Mar 2023
MAC-PO: Multi-Agent Experience Replay via Collective Priority Optimization Yongsheng Mei Hanhan Zhou Tian-Shing Lan Guru Venkataramani Peng Wei 39 38 0 21 Feb 2023
ReMIX: Regret Minimization for Monotonic Value Function Factorization in Multiagent Reinforcement Learning Yongsheng Mei Hanhan Zhou Tian-Shing Lan 27 11 0 11 Feb 2023
Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout Takuya Hiraoka Takashi Onishi Yoshimasa Tsuruoka OffRL 19 0 0 26 Jan 2023
Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks Litian Liang Yaosheng Xu Stephen Marcus McAleer Dailin Hu Alexander Ihler Pieter Abbeel Roy Fox OOD 14 16 0 16 Sep 2022
Selective Credit Assignment Veronica Chelu Diana Borsa Doina Precup Hado van Hasselt 19 2 0 20 Feb 2022
DR3: Value-Based Deep Reinforcement Learning Requires Explicit Regularization Aviral Kumar Rishabh Agarwal Tengyu Ma Aaron Courville George Tucker Sergey Levine OffRL 29 65 0 09 Dec 2021
C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks Tianjun Zhang Benjamin Eysenbach Ruslan Salakhutdinov Sergey Levine Joseph E. Gonzalez OffRL 29 16 0 22 Oct 2021
Offline Reinforcement Learning with Soft Behavior Regularization Haoran Xu Xianyuan Zhan Jianxiong Li Honglei Yin OffRL 18 31 0 14 Oct 2021
A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise Datasets J. E. Grigsby Yanjun Qi OffRL 16 5 0 10 Oct 2021
Learning Pessimism for Robust and Efficient Off-Policy Reinforcement Learning Edoardo Cetin Oya Celiktutan OffRL 36 16 0 07 Oct 2021
Conservative Data Sharing for Multi-Task Offline Reinforcement Learning Tianhe Yu Aviral Kumar Yevgen Chebotar Karol Hausman Sergey Levine Chelsea Finn OffRL 24 78 0 16 Sep 2021
An Entropy Regularization Free Mechanism for Policy-based Reinforcement Learning Changnan Xiao Haosen Shi Jiajun Fan Shihong Deng 18 5 0 01 Jun 2021
The Power of Log-Sum-Exp: Sequential Density Ratio Matrix Estimation for Speed-Accuracy Optimization Taiki Miyagawa Akinori F. Ebihara 17 3 0 28 May 2021
An Exponential Lower Bound for Linearly-Realizable MDPs with Constant Suboptimality Gap Yuanhao Wang Ruosong Wang Sham Kakade OffRL 37 43 0 23 Mar 2021
Robust Multi-Modal Policies for Industrial Assembly via Reinforcement Learning and Demonstrations: A Large-Scale Study Jianlan Luo Oleg O. Sushkov Rugile Pevceviciute Wenzhao Lian Chang Su Mel Vecerík Ning Ye S. Schaal Jonathan Scholz OffRL 19 60 0 21 Mar 2021
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning Kimin Lee Michael Laskin A. Srinivas Pieter Abbeel OffRL 11 199 0 09 Jul 2020