v1v2 (latest)

Truly Proximal Policy Optimization

Conference on Uncertainty in Artificial Intelligence (UAI), 2019

19 March 2019

Papers citing "Truly Proximal Policy Optimization"

50 / 54 papers shown

Peer-to-Peer Energy Trading in Dairy Farms using Multi-Agent Reinforcement LearningApplied Energy (Appl. Energy), 2025

Mian Ibad Ali Shah

Marcos Eduardo Cruz Victorio

Maeve Duffy

Enda Barrett

Karl Mason

28 Nov 2025

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories

205

24 Nov 2025

Directional-Clamp PPO

04 Nov 2025

Latent Chain-of-Thought for Visual Reasoning

273

27 Oct 2025

Reinforcement Fine-Tuning of Flow-Matching Policies for Vision-Language-Action Models

113

11 Oct 2025

HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness

132

10 Oct 2025

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models

04 Oct 2025

Failure Modes of Maximum Entropy RLHF

Ömer Veysel Çağatan

Barış Akgün

120

24 Sep 2025

BenchRL-QAS: Benchmarking reinforcement learning algorithms for quantum architecture search

130

16 Jul 2025

Relative Entropy Pathwise Policy Optimization

Amir-massoud Farahmand

Igor Gilitschenski

369

15 Jul 2025

DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

366

09 Jun 2025

PPO in the Fisher-Rao geometry

Razvan-Andrei Lascu

David Siska

Łukasz Szpruch

261

04 Jun 2025

Graph-attention-based Casual Discovery with Trust Region-navigated Clipping Policy OptimizationIEEE Transactions on Cybernetics (IEEE Trans. Cybern.), 2021

250

27 Dec 2024

Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization

Gao Tianci

Konstantin A. Neusypin

Yang Bo

Shengren Rao

OffRL

577

02 Sep 2024

Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to RankInternational Conference on Information and Knowledge Management (CIKM), 2024

Shashank Gupta

Harrie Oosterhuis

Maarten de Rijke

450

29 Jul 2024

Diminishing Stereotype Bias in Image Generation Model using Reinforcemenlent Learning Feedback

Xin Chen

Virgile Foussereau

EGVM

149

27 Jun 2024

Systematically Exploring the Landscape of Grasp Affordances via Behavioral Manifolds

Michael Zechmair

Yannick Morel

249

07 May 2024

Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement LearningIEEE Access (IEEE Access), 2024

04 May 2024

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO

321

01 May 2024

Discovering Temporally-Aware Reinforcement Learning Algorithms

307

08 Feb 2024

Dropout Strategy in Reinforcement Learning: Limiting the Surrogate Objective Variance in Policy Optimization Methods

Zhengpeng Xie

Changdong Yu

Weizheng Qiao

393

31 Oct 2023

A Review of Reinforcement Learning for Natural Language Processing, and Applications in Healthcare

210

23 Oct 2023

Absolute Policy Optimization

Rui Chen

Changliu Liu

434

20 Oct 2023

Machine Learning Meets Advanced Robotic ManipulationInformation Fusion (Inf. Fusion), 2023

235

22 Sep 2023

Reinforcement Learning Informed Evolutionary Search for Autonomous Systems TestingACM Transactions on Software Engineering and Methodology (TOSEM), 2023

D. Humeniuk

Foutse Khomh

G. Antoniol

151

24 Aug 2023

Heterogeneous Multi-Agent Reinforcement Learning via Mirror Descent Policy Optimization

Mohammad Mehdi Nasiri

M. Rezghi

282

13 Aug 2023

Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting TaskInternational Symposium on Industrial Electronics (ISIE), 2023

119

02 Jun 2023

Neuroevolution of Recurrent Architectures on Control Tasks

Maximilien Le Clei

Pierre C. Bellec

03 Apr 2023

Robustness of Utilizing Feedback in Embodied Visual Navigation

Jenny Zhang

Samson Yu

Jiafei Duan

Cheston Tan

109

06 Mar 2023

Order Matters: Agent-by-agent Policy OptimizationInternational Conference on Learning Representations (ICLR), 2023

308

13 Feb 2023

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization

Wei Liu

226

05 Feb 2023

Partial advantage estimator for proximal policy optimization

26 Jan 2023

Joint action loss for proximal policy optimization

202

26 Jan 2023

Discovered Policy OptimisationNeural Information Processing Systems (NeurIPS), 2022

Christian Schroeder de Witt

Jakob N. Foerster

OffRL

337

109

11 Oct 2022

Entropy Augmented Reinforcement Learning

Jianfei Ma

250

19 Aug 2022

Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL

Jun Wang

161

02 Aug 2022

Generalized Policy Improvement Algorithms with Theoretically Supported Sample ReuseIEEE Transactions on Automatic Control (TAC), 2022

James Queeney

I. Paschalidis

Christos G. Cassandras

OffRL

303

28 Jun 2022

Good Time to Ask: A Learning Framework for Asking for Help in Embodied Visual Navigation

Jenny Zhang

Samson Yu

Jiafei Duan

Cheston Tan

294

20 Jun 2022

The Sufficiency of Off-Policyness and Soft Clipping: PPO is still Insufficient according to an Off-Policy MeasureAAAI Conference on Artificial Intelligence (AAAI), 2022

Hechang Chen

423

20 May 2022

Proximal Policy Optimization Learning based Control of Congested Freeway TrafficOptimal control applications & methods (OCAM), 2022

147

12 Apr 2022

Proximal Policy Optimization with Adaptive Threshold for Symmetric Relative Density RatioResults in Control and Optimization (RCO), 2022

Taisuke Kobayashi

111

18 Mar 2022

Autonomous Drone Swarm Navigation and Multi-target Tracking in 3D Environments with Dynamic ObstaclesIEEE Access (IEEE Access), 2022

Suleman Qamar

Dr. Saddam Hussain Khan

Muhammad Arif Arshad

Maryam Qamar

Asifullah Khan

145

13 Feb 2022

You May Not Need Ratio Clipping in PPO

172

31 Jan 2022

Mirror Learning: A Unifying Framework of Policy OptimisationInternational Conference on Machine Learning (ICML), 2022

J. Kuba

Christian Schroeder de Witt

Jakob N. Foerster

704

07 Jan 2022

Generalized Proximal Policy Optimization with Sample ReuseNeural Information Processing Systems (NeurIPS), 2021

James Queeney

I. Paschalidis

Christos G. Cassandras

OffRL

260

29 Oct 2021

CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric

20 Oct 2021

Offline Reinforcement Learning with Soft Behavior Regularization

129

14 Oct 2021

A Reinforcement Learning based Path Planning Approach in 3D EnvironmentMathematical Methods in Technologies and Technics (MMTT), 2021

Geesara Kulathunga

183

21 May 2021

Proximal Policy Optimization Smoothed Algorithm

Wangshu Zhu

A. Rosendo

122

04 Dec 2020

Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge?

Christian Schroeder de Witt

253

472

18 Nov 2020