Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1707.06347
Cited By

Proximal Policy Optimization Algorithms

v1v2 (latest)

Proximal Policy Optimization Algorithms

20 July 2017

Prafulla Dhariwal

ArXiv (abs)PDF HTML

Papers citing "Proximal Policy Optimization Algorithms"

50 / 11,418 papers shown

Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning

Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning

Bin Zhang

Zhiwei Xu

Yingxuan Teng

Siqi Dai

Lin Cheng

Guoliang Fan

161

0

0

26 Nov 2025

Kinematics-Aware Multi-Policy Reinforcement Learning for Force-Capable Humanoid Loco-Manipulation

Kinematics-Aware Multi-Policy Reinforcement Learning for Force-Capable Humanoid Loco-Manipulation

442

0

0

26 Nov 2025

Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO

Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO

585

1

0

26 Nov 2025

Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning

Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning

263

0

0

26 Nov 2025

ST-PPO: Stabilized Off-Policy Proximal Policy Optimization for Multi-Turn Agents Training

ST-PPO: Stabilized Off-Policy Proximal Policy Optimization for Multi-Turn Agents Training

Alfredo García

Parminder Bhatia

Taha A. Kass-Hout

172

0

0

25 Nov 2025

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs

AI4TS KELM LRM AI4CE

390

0

0

25 Nov 2025

Quantum-Enhanced Reinforcement Learning for Accelerating Newton-Raphson Convergence with Ising Machines: A Case Study for Power Flow Analysis

Quantum-Enhanced Reinforcement Learning for Accelerating Newton-Raphson Convergence with Ising Machines: A Case Study for Power Flow Analysis

Matthias Möller

Pedro P. Vergara

113

0

0

25 Nov 2025

Complex Instruction Following with Diverse Style Policies in Football Games

Complex Instruction Following with Diverse Style Policies in Football Games

88

0

0

25 Nov 2025

A Hierarchical Framework for Humanoid Locomotion with Supernumerary Limbs

A Hierarchical Framework for Humanoid Locomotion with Supernumerary Limbs

51

0

0

25 Nov 2025

Reinforcing Action Policies by Prophesying

Reinforcing Action Policies by Prophesying

233

1

0

25 Nov 2025

CostNav: A Navigation Benchmark for Cost-Aware Evaluation of Embodied Agents

CostNav: A Navigation Benchmark for Cost-Aware Evaluation of Embodied Agents

...

128

1

0

25 Nov 2025

Improving Language Agents through BREW

Improving Language Agents through BREW

Shashank Kirtania

Priyanshu Gupta

Yasharth Bajpai

252

0

0

25 Nov 2025

SOMBRL: Scalable and Optimistic Model-Based RL

SOMBRL: Scalable and Optimistic Model-Based RL

Carmelo Sferrazza

Florian Dorfler

249

2

0

25 Nov 2025

Energy Costs and Neural Complexity Evolution in Changing Environments

Energy Costs and Neural Complexity Evolution in Changing EnvironmentsIEEE Symposium on Artificial Life (AL), 2025

Sian Heesom-Green

30

0

0

25 Nov 2025

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

OpenApps: Simulating Environment Variations to Measure UI-Agent Reliability

Arjun Subramonian

Nikolaos Tsilivis

Randall Balestriero

117

0

0

25 Nov 2025

QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation

QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation

...

84

1

0

25 Nov 2025

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

A Reason-then-Describe Instruction Interpreter for Controllable Video Generation

184

0

0

25 Nov 2025

Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning

Differential Smoothing Mitigates Sharpening and Improves LLM Reasoning

Aditi Raghunathan

109

0

0

25 Nov 2025

MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models

MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models

...

130

0

0

25 Nov 2025

QiMeng-CRUX: Narrowing the Gap between Natural Language and Verilog via Core Refined Understanding eXpression

QiMeng-CRUX: Narrowing the Gap between Natural Language and Verilog via Core Refined Understanding eXpression

...

102

0

0

25 Nov 2025

Manifold Percolation: from generative model to Reinforce learning

Manifold Percolation: from generative model to Reinforce learning

34

0

0

25 Nov 2025

CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception

CropVLM: Learning to Zoom for Fine-Grained Vision-Language Perception

Miguel Carvalho

215

0

0

25 Nov 2025

MIMIC-MJX: Neuromechanical Emulation of Animal Behavior

MIMIC-MJX: Neuromechanical Emulation of Animal Behavior

Charles Y. Zhang

Elliott T.T. Abe

...

Blake A. Richards

Bingni W. Brunton

83

1

0

25 Nov 2025

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

RubricRL: Simple Generalizable Rewards for Text-to-Image Generation

274

0

0

25 Nov 2025

Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning

Attention Trajectories as a Diagnostic Axis for Deep Reinforcement Learning

Charlotte Beylier

121

0

0

25 Nov 2025

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

HAFO: A Force-Adaptive Control Framework for Humanoid Robots in Intense Interaction Environments

147

0

0

25 Nov 2025

BRIC: Bridging Kinematic Plans and Physical Control at Test Time

BRIC: Bridging Kinematic Plans and Physical Control at Test Time

333

0

0

25 Nov 2025

Leveraging weights signals - Predicting and improving generalizability in reinforcement learning

Leveraging weights signals - Predicting and improving generalizability in reinforcement learning

Vincent François-Lavet

Mark Hoogendoorn

88

0

0

25 Nov 2025

Dynamic Mixture of Experts Against Severe Distribution Shifts

Dynamic Mixture of Experts Against Severe Distribution Shifts

149

0

0

24 Nov 2025

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

Seeing What Matters: Visual Preference Policy Optimization for Visual Generation

116

0

0

24 Nov 2025

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

Learning What to Trust: Bayesian Prior-Guided Optimization for Visual Generation

93

0

0

24 Nov 2025

SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control

SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control

372

1

0

24 Nov 2025

ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion

ProxT2I: Efficient Reward-Guided Text-to-Image Generation via Proximal Diffusion

212

0

0

24 Nov 2025

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning

Yi Luo

224

0

0

24 Nov 2025

Test-Time Preference Optimization for Image Restoration

Test-Time Preference Optimization for Image Restoration

125

0

0

24 Nov 2025

FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning

FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning

373

0

0

24 Nov 2025

STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models

STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

157

1

0

24 Nov 2025

Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation

Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation

280

0

0

24 Nov 2025

SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning

SpeedAug: Policy Acceleration via Tempo-Enriched Policy and RL Fine-Tuning

79

0

0

24 Nov 2025

Learning Massively Multitask World Models for Continuous Control

Learning Massively Multitask World Models for Continuous Control

OffRL CLL LM&Ro

528

0

0

24 Nov 2025

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

139

0

0

24 Nov 2025

LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems

LLM-Driven Stationarity-Aware Expert Demonstrations for Multi-Agent Reinforcement Learning in Mobile Systems

...

85

2

0

24 Nov 2025

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

...

139

1

0

24 Nov 2025

An Anatomy Aware Hybrid Deep Learning Framework for Lung Cancer Tumor Stage Classification

An Anatomy Aware Hybrid Deep Learning Framework for Lung Cancer Tumor Stage Classification

Saniah Kayenat Chowdhury

Israa Al-Hashimi

Amith Khandakar

109

0

0

24 Nov 2025

Object-centric Task Representation and Transfer using Diffused Orientation Fields

Object-centric Task Representation and Transfer using Diffused Orientation Fields

Sylvain Calinon

85

0

0

23 Nov 2025

SafeFall: Learning Protective Control for Humanoid Robots

SafeFall: Learning Protective Control for Humanoid Robots

79

0

0

23 Nov 2025

TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization

TASO: Jailbreak LLMs via Alternative Template and Suffix Optimization

279

0

0

23 Nov 2025

Wireless Power Transfer and Intent-Driven Network Optimization in AAVs-assisted IoT for 6G Sustainable Connectivity

Wireless Power Transfer and Intent-Driven Network Optimization in AAVs-assisted IoT for 6G Sustainable Connectivity

65

0

0

23 Nov 2025

ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints

ORIGAMISPACE: Benchmarking Multimodal LLMs in Multi-Step Spatial Reasoning with Mathematical Constraints

84

0

0

23 Nov 2025

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Radman Rakhshandehroo

106

0

0

22 Nov 2025

1 2 3 4 5 6...227 228 229