Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2007.03328
Cited By

Guided Exploration with Proximal Policy Optimization using a Single
Demonstration

v1v2 (latest)

Guided Exploration with Proximal Policy Optimization using a Single Demonstration

7 July 2020

Gabriele Libardi

Gianni De Fabritiis

ArXiv (abs)PDF HTML

Papers citing "Guided Exploration with Proximal Policy Optimization using a Single Demonstration"

12 / 12 papers shown

Training a Scientific Reasoning Model for Chemistry

Training a Scientific Reasoning Model for Chemistry

Siddharth Narayanan

Ryan-Rhys Griffiths

Geemi P Wellawatte

Mayk Caldas Ramos

Ludovico Mitchener

Samuel G. Rodriques

279

30

0

04 Jun 2025

Refined Policy Distillation: From VLA Generalists to RL Experts

Refined Policy Distillation: From VLA Generalists to RL Experts

Wolfram Burgard

339

14

0

06 Mar 2025

Preference-Guided Reinforcement Learning for Efficient Exploration

Preference-Guided Reinforcement Learning for Efficient Exploration

323

1

0

09 Jul 2024

ACEGEN: Reinforcement learning of generative chemical agents for drug
discovery

ACEGEN: Reinforcement learning of generative chemical agents for drug discovery

Sebastian Dittert

Carles Navarro Ramírez

Maciej Majewski

...

Simone Sciabola

Gianni De Fabritiis

507

27

0

07 May 2024

Trajectory-Oriented Policy Optimization with Sparse Rewards

Trajectory-Oriented Policy Optimization with Sparse Rewards

316

2

0

04 Jan 2024

Policy Optimization with Smooth Guidance Learned from State-Only
Demonstrations

Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations

462

0

0

30 Dec 2023

Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization

Sample Dropout: A Simple yet Effective Variance Reduction Technique in Deep Policy Optimization

Wei Liu

271

4

0

05 Feb 2023

Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies

Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies

Souradip Chakraborty

Amrit Singh Bedi

218

9

0

12 Jun 2022

Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio

Proximal Policy Optimization with Adaptive Threshold for Symmetric Relative Density RatioResults in Control and Optimization (RCO), 2022

Taisuke Kobayashi

164

8

0

18 Mar 2022

Combining imitation and deep reinforcement learning to accomplish
human-level performance on a virtual foraging task

Combining imitation and deep reinforcement learning to accomplish human-level performance on a virtual foraging taskAdaptive Behavior (AB), 2022

Vittorio Giammarino

Matthew F. Dunne

Michael Hasselmo

Chantal E. Stern

416

5

0

11 Mar 2022

Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration

Reinforcement Learning with Sparse Rewards using Guidance from Offline DemonstrationInternational Conference on Learning Representations (ICLR), 2022

Desik Rengarajan

277

85

0

09 Feb 2022

Prioritized Experience-based Reinforcement Learning with Human Guidance
for Autonomous Driving

Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous DrivingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2021

256

107

0

26 Sep 2021

Page 1 of 1