You May Not Need Ratio Clipping in PPO

31 January 2022

Papers citing "You May Not Need Ratio Clipping in PPO"

13 / 13 papers shown

It's Not You, It's Clipping: A Soft Trust-Region via Probability Smoothing for LLM RL

Madeleine Dwyer

Adam Sobey

Adriane Chapman

25 Sep 2025

Improving Value Estimation Critically Enhances Vanilla Policy Gradient

196

25 May 2025

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO

317

01 May 2024

RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup

Nico Bohlinger

Klaus Dorer

188

20 Oct 2023

Absolute Policy Optimization

Rui Chen

Changliu Liu

430

20 Oct 2023

Universal Morphology Control via Contextual ModulationInternational Conference on Machine Learning (ICML), 2023

Zheng Xiong

Jacob Beck

Shimon Whiteson

330

22 Feb 2023

Trust-Region-Free Policy Optimization for Stochastic Policies

236

15 Feb 2023

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization

Wei Liu

224

05 Feb 2023

Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement Learning

207

20 Jan 2023

SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2022

441

132

14 Dec 2022

Inspector: Pixel-Based Automated Game Testing via Exploration, Detection, and Investigation

196

18 Jul 2022

The Sufficiency of Off-Policyness and Soft Clipping: PPO is still Insufficient according to an Off-Policy MeasureAAAI Conference on Artificial Intelligence (AAAI), 2022

Hechang Chen

414

20 May 2022

Trust Region Bounds for Decentralized PPO Under Non-stationarityAdaptive Agents and Multi-Agent Systems (AAMAS), 2022

308

31 Jan 2022