Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1707.06347
Cited By

Proximal Policy Optimization Algorithms

v1v2 (latest)

Proximal Policy Optimization Algorithms

20 July 2017

Prafulla Dhariwal

ArXiv (abs)PDF HTML

Papers citing "Proximal Policy Optimization Algorithms"

50 / 11,419 papers shown

Out-of-Distribution Generalization with a SPARC: Racing 100 Unseen Vehicles with a Single Policy

Out-of-Distribution Generalization with a SPARC: Racing 100 Unseen Vehicles with a Single Policy

Patrick MacAlpine

Peter R. Wurman

268

0

0

12 Nov 2025

Generalized-Scale Object Counting with Gradual Query Aggregation

Generalized-Scale Object Counting with Gradual Query Aggregation

247

0

0

11 Nov 2025

LPPG-RL: Lexicographically Projected Policy Gradient Reinforcement Learning with Subproblem Exploration

LPPG-RL: Lexicographically Projected Policy Gradient Reinforcement Learning with Subproblem ExplorationApplied Soft Computing (ASC), 2017

129

0

0

11 Nov 2025

Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Models in Robotic Reinforcement Learning Benchmarks

Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Models in Robotic Reinforcement Learning Benchmarks

Muthukumar Pandaram

Jakob J. Hollenstein

Samuele Tosatto

A. Rodríguez-Sánchez

200

0

0

11 Nov 2025

On Geometric Structures for Policy Parameterization in Continuous Control

On Geometric Structures for Policy Parameterization in Continuous Control

248

0

0

11 Nov 2025

BIPPO: Budget-Aware Independent PPO for Energy-Efficient Federated Learning Services

BIPPO: Budget-Aware Independent PPO for Energy-Efficient Federated Learning Services

Andrea Morichetta

Schahram Dustdar

179

0

0

11 Nov 2025

Deep (Predictive) Discounted Counterfactual Regret Minimization

Deep (Predictive) Discounted Counterfactual Regret Minimization

100

0

0

11 Nov 2025

Learning Omnidirectional Locomotion for a Salamander-Like Quadruped Robot

Learning Omnidirectional Locomotion for a Salamander-Like Quadruped Robot

210

0

0

11 Nov 2025

Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring

Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring

Arsène Fansi Tchango

295

0

0

11 Nov 2025

Understanding Electro-communication and Electro-sensing in Weakly Electric Fish using Multi-Agent Deep Reinforcement Learning

Understanding Electro-communication and Electro-sensing in Weakly Electric Fish using Multi-Agent Deep Reinforcement Learning

Satpreet H. Singh

Sonja Johnson-Yu

Federico Pedraja

Pratyusha Sharma

Nathaniel B. Sawtell

79

0

0

11 Nov 2025

GAMA: A Neural Neighborhood Search Method with Graph-aware Multi-modal Attention for Vehicle Routing Problem

GAMA: A Neural Neighborhood Search Method with Graph-aware Multi-modal Attention for Vehicle Routing ProblemInternational Symposium on Mixed and Augmented Reality (ISMAR), 2025

101

0

0

11 Nov 2025

SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

Returaj Burnwal

Balaraman Ravindran

369

0

0

11 Nov 2025

Numerical Sensitivity and Robustness: Exploring the Flaws of Mathematical Reasoning in Large Language Models

Numerical Sensitivity and Robustness: Exploring the Flaws of Mathematical Reasoning in Large Language Models

150

0

0

11 Nov 2025

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control

...

129

6

0

11 Nov 2025

A Negotiation-Based Multi-Agent Reinforcement Learning Approach for Dynamic Scheduling of Reconfigurable Manufacturing Systems

A Negotiation-Based Multi-Agent Reinforcement Learning Approach for Dynamic Scheduling of Reconfigurable Manufacturing SystemsNASA Formal Methods (NFM), 2025

Manonmani Sekar

Nasim Nezamoddini

59

0

0

11 Nov 2025

Adversarial Bias: Data Poisoning Attacks on Fairness

Adversarial Bias: Data Poisoning Attacks on Fairness

68

0

0

11 Nov 2025

Analyzing Political Text at Scale with Online Tensor LDA

Analyzing Political Text at Scale with Online Tensor LDA

Sara Kangaslahti

105

0

0

11 Nov 2025

PrefPoE: Advantage-Guided Preference Fusion for Learning Where to Explore

PrefPoE: Advantage-Guided Preference Fusion for Learning Where to Explore

125

0

0

11 Nov 2025

Enhancing Binary Encoded Crime Linkage Analysis Using Siamese Network

Enhancing Binary Encoded Crime Linkage Analysis Using Siamese Network

Matthew J. Tonkin

Jessica Woodhams

176

0

0

10 Nov 2025

Shocks Under Control: Taming Transonic Compressible Flow over an RAE2822 Airfoil with Deep Reinforcement Learning

Shocks Under Control: Taming Transonic Compressible Flow over an RAE2822 Airfoil with Deep Reinforcement Learning

Ricardo Vinuesa

Ameya D. Jagtap

105

0

0

10 Nov 2025

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation

FinRpt: Dataset, Evaluation System and LLM-based Multi-agent Framework for Equity Research Report Generation

554

1

0

10 Nov 2025

Textual Self-attention Network: Test-Time Preference Optimization through Textual Gradient-based Attention

Textual Self-attention Network: Test-Time Preference Optimization through Textual Gradient-based Attention

223

0

0

10 Nov 2025

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training

Q-RAG: Long Context Multi-step Retrieval via Value-based Embedder Training

Alexander Anokhin

Egor Vedernikov

Mikhail Burtsev

Trushkov Alexey

177

0

0

10 Nov 2025

Secure Low-altitude Maritime Communications via Intelligent Jamming

Secure Low-altitude Maritime Communications via Intelligent JammingScience China Information Sciences (Sci. China Inf. Sci.), 2025

110

0

0

10 Nov 2025

Robot Learning from a Physical World Model

Robot Learning from a Physical World Model

...

Leonidas Guibas

Vitor Campagnolo Guizilini

424

0

0

10 Nov 2025

Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation

Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation

146

0

0

10 Nov 2025

Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search

Superhuman AI for Stratego Using Self-Play Reinforcement Learning and Test-Time Search

Eugene Vinitsky

Gabriele Farina

72

0

0

10 Nov 2025

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

Enabling Off-Policy Imitation Learning with Deep Actor Critic Stabilization

Shalabh Bhatnagar

103

0

0

10 Nov 2025

SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization

SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization

Xiangliang Zhang

131

0

0

09 Nov 2025

What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models

What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models

236

0

0

09 Nov 2025

Cross-Platform Learnable Fuzzy Gain-Scheduled Proportional-Integral-Derivative Controller Tuning via Physics-Constrained Meta-Learning and Reinforcement Learning Adaptation

Cross-Platform Learnable Fuzzy Gain-Scheduled Proportional-Integral-Derivative Controller Tuning via Physics-Constrained Meta-Learning and Reinforcement Learning Adaptation

313

0

0

09 Nov 2025

FLEX: Continuous Agent Evolution via Forward Learning from Experience

FLEX: Continuous Agent Evolution via Forward Learning from Experience

Hao Zhou

279

4

0

09 Nov 2025

Deep Reinforcement Learning for Dynamic Origin-Destination Matrix Estimation in Microscopic Traffic Simulations Considering Credit Assignment

Deep Reinforcement Learning for Dynamic Origin-Destination Matrix Estimation in Microscopic Traffic Simulations Considering Credit Assignment

58

0

0

09 Nov 2025

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

168

1

0

09 Nov 2025

Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning

Towards Adaptive Humanoid Control via Multi-Behavior Distillation and Reinforced Fine-Tuning

149

0

0

09 Nov 2025

ScRPO: From Errors to Insights

ScRPO: From Errors to Insights

155

0

0

08 Nov 2025

Policy Gradient-Based EMT-in-the-Loop Learning to Mitigate Sub-Synchronous Control Interactions

Policy Gradient-Based EMT-in-the-Loop Learning to Mitigate Sub-Synchronous Control Interactions

Sayak Mukherjee

Ramij-Raja Hossain

Kaustav Chatterjee

Sameer Nekkalapu

Marcelo Elizondo

109

0

0

08 Nov 2025

Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

Revisiting Entropy in Reinforcement Learning for Large Reasoning Models

125

1

0

08 Nov 2025

Approximating Shapley Explanations in Reinforcement Learning

Approximating Shapley Explanations in Reinforcement Learning

351

0

0

08 Nov 2025

TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework

TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework

...

428

1

0

07 Nov 2025

Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale

Multi-Agent Craftax: Benchmarking Open-Ended Multi-Agent Reinforcement Learning at the Hyperscale

Bassel Al Omari

Michael T. Matthews

Alexander Rutherford

Jakob N. Foerster

117

1

0

07 Nov 2025

Reasoning Is All You Need for Urban Planning AI

Reasoning Is All You Need for Urban Planning AI

32

0

0

07 Nov 2025

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Hossein Hajimirsadeghi

348

0

0

07 Nov 2025

Minority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learning

Minority-Aware Satisfaction Estimation in Dialogue Systems via Preference-Adaptive Reinforcement Learning

Tatsuya Kawahara

124

0

0

07 Nov 2025

Distributionally Robust Self Paced Curriculum Reinforcement Learning

Distributionally Robust Self Paced Curriculum Reinforcement Learning

Anirudh Satheesh

Vaneet Aggarwal

496

0

0

07 Nov 2025

SSPO: Subsentence-level Policy Optimization

SSPO: Subsentence-level Policy Optimization

115

0

0

06 Nov 2025

DMA: Online RAG Alignment with Human Feedback

DMA: Online RAG Alignment with Human Feedback

...

158

0

0

06 Nov 2025

PUL-SLAM: Path-Uncertainty Co-Optimization with Lightweight Stagnation Detection for Efficient Robotic Exploration

PUL-SLAM: Path-Uncertainty Co-Optimization with Lightweight Stagnation Detection for Efficient Robotic Exploration

130

0

0

06 Nov 2025

RLHF: A comprehensive Survey for Cultural, Multimodal and Low Latency Alignment Methods

RLHF: A comprehensive Survey for Cultural, Multimodal and Low Latency Alignment Methods

Sai Tiger Raina

310

0

0

06 Nov 2025

DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation

DARN: Dynamic Adaptive Regularization Networks for Efficient and Robust Foundation Model Adaptation

Dhenenjay Yadav

192

0

0

06 Nov 2025

1 2 3...5 6 7...227 228 229