Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1707.06347
Cited By

Proximal Policy Optimization Algorithms

v1v2 (latest)

Proximal Policy Optimization Algorithms

20 July 2017

Prafulla Dhariwal

ArXiv (abs)PDF HTML

Papers citing "Proximal Policy Optimization Algorithms"

50 / 11,419 papers shown

PrefixGPT: Prefix Adder Optimization by a Generative Pre-trained Transformer

PrefixGPT: Prefix Adder Optimization by a Generative Pre-trained Transformer

Ulf Schlichtmann

81

0

0

22 Nov 2025

Deep Gaussian Process Proximal Policy Optimization

Deep Gaussian Process Proximal Policy Optimization

Matthijs van der Lende

Juan Cardenas-Cartagena

384

0

0

22 Nov 2025

The Alignment Paradox of Medical Large Language Models in Infertility Care: Decoupling Algorithmic Improvement from Clinical Decision-making Quality

The Alignment Paradox of Medical Large Language Models in Infertility Care: Decoupling Algorithmic Improvement from Clinical Decision-making Quality

...

127

0

0

22 Nov 2025

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

Generative Adversarial Post-Training Mitigates Reward Hacking in Live Human-AI Music Interaction

Tia-Jane Fowler

Aaron Courville

Cheng-Zhi Anna Huang

139

0

0

22 Nov 2025

Hierarchical biomarker thresholding: a model-agnostic framework for stability

Hierarchical biomarker thresholding: a model-agnostic framework for stability

8

0

0

22 Nov 2025

Training Emergent Joint Associations: A Reinforcement Learning Approach to Creative Thinking in Language Models

Training Emergent Joint Associations: A Reinforcement Learning Approach to Creative Thinking in Language Models

Pronita Mehrotra

132

0

0

22 Nov 2025

Scaling Competence, Shrinking Reasoning: Cognitive Signatures in Language Model Learning

Scaling Competence, Shrinking Reasoning: Cognitive Signatures in Language Model Learning

Arjun Radhakrishna

88

0

0

22 Nov 2025

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Radman Rakhshandehroo

106

0

0

22 Nov 2025

Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models

Bringing Stability to Diffusion: Decomposing and Reducing Variance of Training Masked Diffusion Models

100

0

0

22 Nov 2025

Transformers with RL or SFT Provably Learn Sparse Boolean Functions, But Differently

Transformers with RL or SFT Provably Learn Sparse Boolean Functions, But Differently

145

0

0

22 Nov 2025

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

228

0

0

21 Nov 2025

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

Stefan Maria Ailuro

Konrad Schindler

162

0

0

21 Nov 2025

Physical Reinforcement Learning

Physical Reinforcement Learning

157

0

0

21 Nov 2025

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination

241

0

0

21 Nov 2025

FIRM: Federated In-client Regularized Multi-objective Alignment for Large Language Models

FIRM: Federated In-client Regularized Multi-objective Alignment for Large Language Models

Amirhossein Roknilamouki

305

0

0

21 Nov 2025

The PLLuM Instruction Corpus

The PLLuM Instruction Corpus

Filip Żarnecki

Konrad Kaczyñski

Zuzanna Deckert

...

Konrad Wojtasik

104

0

0

21 Nov 2025

Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems

Multi-Agent Pointer Transformer: Seq-to-Seq Reinforcement Learning for Multi-Vehicle Dynamic Pickup-Delivery Problems

124

0

0

21 Nov 2025

MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning

MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning

95

0

0

21 Nov 2025

Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

Agility Meets Stability: Versatile Humanoid Control with Heterogeneous Data

...

284

0

0

21 Nov 2025

Human Imitated Bipedal Locomotion with Frequency Based Gait Generator Network

Human Imitated Bipedal Locomotion with Frequency Based Gait Generator Network

Yusuf Baran Ates

105

0

0

21 Nov 2025

LEARN: Learning End-to-End Aerial Resource-Constrained Multi-Robot Navigation

LEARN: Learning End-to-End Aerial Resource-Constrained Multi-Robot Navigation

Gaurav Sukhatme

69

0

0

21 Nov 2025

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

122

2

0

20 Nov 2025

Revisiting Fairness-aware Interactive Recommendation: Item Lifecycle as a Control Knob

Mingsheng Shang

74

0

0

20 Nov 2025

HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic ProgrammingInternational Conference on Machine Learning (ICML), 2025

174

4

0

20 Nov 2025

Stabilizing Policy Gradient Methods via Reward Profiling

El Houcine Bergou

204

0

0

20 Nov 2025

Flow-Aided Flight Through Dynamic Clutters From Point To Motion

Flow-Aided Flight Through Dynamic Clutters From Point To MotionIEEE Robotics and Automation Letters (IEEE RA-L), 2025

141

0

0

20 Nov 2025

Large Language Model-Based Reward Design for Deep Reinforcement Learning-Driven Autonomous Cyber Defense

Sayak Mukherjee

Samrat Chatterjee

Tegan H. Emerson

68

0

0

20 Nov 2025

Optimizing Operation Recipes with Reinforcement Learning for Safe and Interpretable Control of Chemical Processes

143

0

0

20 Nov 2025

Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization

132

0

0

20 Nov 2025

SDA: Steering-Driven Distribution Alignment for Open LLMs without Fine-Tuning

271

0

0

20 Nov 2025

Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization

...

157

0

0

20 Nov 2025

Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning

LLMAG LM&Ro SyDa

728

3

0

20 Nov 2025

A Hybrid Proactive And Predictive Framework For Edge Cloud Resource Management

Hrikshesh Kumar

Yashika Agarwal

180

0

0

20 Nov 2025

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

237

1

0

19 Nov 2025

Platform-Agnostic Reinforcement Learning Framework for Safe Exploration of Cluttered Environments with Graph Attention

Platform-Agnostic Reinforcement Learning Framework for Safe Exploration of Cluttered Environments with Graph Attention

Gabriele Calzolari

Christoforos Kanellakis

G. Nikolakopoulos

139

0

0

19 Nov 2025

Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution

Reinforcement Learning in Queue-Reactive Models: Application to Optimal Execution

Edoardo Vittori

152

0

0

19 Nov 2025

Symmetry-Breaking in Multi-Agent Navigation: Winding Number-Aware MPC with a Learned Topological Strategy

Symmetry-Breaking in Multi-Agent Navigation: Winding Number-Aware MPC with a Learned Topological Strategy

74

0

0

19 Nov 2025

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation

...

254

0

0

19 Nov 2025

IPR-1: Interactive Physical Reasoner

IPR-1: Interactive Physical Reasoner

...

402

0

0

19 Nov 2025

Step-Audio-R1 Technical Report

Step-Audio-R1 Technical Report

...

351

0

0

19 Nov 2025

Continual Reinforcement Learning for Cyber-Physical Systems: Lessons Learned and Open Challenges

Continual Reinforcement Learning for Cyber-Physical Systems: Lessons Learned and Open Challenges

243

0

0

19 Nov 2025

Vehicle Routing Problems via Quantum Graph Attention Network Deep Reinforcement Learning

Vehicle Routing Problems via Quantum Graph Attention Network Deep Reinforcement Learning

Nguyen Xuan Tung

Trinh Van Chien

251

0

0

19 Nov 2025

BD-Net: Has Depth-Wise Convolution Ever Been Applied in Binary Neural Networks?

BD-Net: Has Depth-Wise Convolution Ever Been Applied in Binary Neural Networks?

153

3

0

19 Nov 2025

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

DEPO: Dual-Efficiency Preference Optimization for LLM Agents

319

0

0

19 Nov 2025

Learning Where, What and How to Transfer: A Multi-Role Reinforcement Learning Approach for Evolutionary Multitasking

Learning Where, What and How to Transfer: A Multi-Role Reinforcement Learning Approach for Evolutionary Multitasking

204

0

0

19 Nov 2025

Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models

Entropy-Based Measurement of Value Drift and Alignment Work in Large Language Models

61

0

0

19 Nov 2025

GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning

GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning

315

0

0

19 Nov 2025

Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones

Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones

DiffM AI4CE LRM

198

0

0

19 Nov 2025

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Dorien Herremans

132

0

0

19 Nov 2025

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

115

0

0

19 Nov 2025

1 2 3 4 5...227 228 229