Calculus on MDPs: Potential Shaping as a Gradient

Calculus on MDPs: Potential Shaping as a Gradient

20 August 2022

Adam Gleave

Papers citing "Calculus on MDPs: Potential Shaping as a Gradient"

6 / 6 papers shown

Title
Soft Policy Optimization: Online Off-Policy RL for Sequence Models Taco Cohen David W. Zhang Kunhao Zheng Yunhao Tang Rémi Munos Gabriel Synnaeve OffRL 81 0 0 07 Mar 2025
Bootstrapped Reward Shaping Jacob Adamczyk Volodymyr Makarenko Stas Tiomkin R. Kulkarni OffRL 28 0 0 03 Jan 2025
STARC: A General Framework For Quantifying Differences Between Reward Functions Joar Skalse Lucy Farnik S. Motwani Erik Jenner Adam Gleave Alessandro Abate 14 9 0 26 Sep 2023
Misspecification in Inverse Reinforcement Learning Joar Skalse Alessandro Abate 25 22 0 06 Dec 2022
Plan-Based Relaxed Reward Shaping for Goal-Directed Tasks Ingmar Schubert Ozgur S. Oguz Marc Toussaint OffRL 21 5 0 14 Jul 2021
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 280 1,595 0 18 Sep 2019