Learning to Constrain Policy Optimization with Virtual Trust Region

20 April 2022

Papers citing "Learning to Constrain Policy Optimization with Virtual Trust Region"

3 / 3 papers shown

Title
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning H. Le Kien Do D. Nguyen Sunil Gupta Svetha Venkatesh 30 0 0 14 Oct 2024
Multi-Reference Preference Optimization for Large Language Models Hung Le Quan Tran D. Nguyen Kien Do Saloni Mittal Kelechi Ogueji Svetha Venkatesh 55 0 0 26 May 2024
Beyond Surprise: Improving Exploration Through Surprise Novelty Hung Le Kien Do D. Nguyen Svetha Venkatesh 14 2 0 09 Aug 2023