Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1707.01495
Cited By

Hindsight Experience Replay

v1v2v3 (latest)

Hindsight Experience Replay

5 July 2017

Marcin Andrychowicz

Jonas Schneider

Pieter Abbeel

Wojciech Zaremba

ArXiv (abs)PDF HTML

Papers citing "Hindsight Experience Replay"

50 / 1,339 papers shown

Autonomous Learning From Success and Failure: Goal-Conditioned Supervised Learning with Negative Feedback

Autonomous Learning From Success and Failure: Goal-Conditioned Supervised Learning with Negative Feedback

Fabian Wurzberger

Sebastian Gottwald

Daniel A. Braun

224

0

0

03 Sep 2025

HuBE: Cross-Embodiment Human-like Behavior Execution for Humanoid Robots

HuBE: Cross-Embodiment Human-like Behavior Execution for Humanoid Robots

D. Navarro-Alarcon

124

0

0

26 Aug 2025

LaGarNet: Goal-Conditioned Recurrent State-Space Models for Pick-and-Place Garment Flattening

LaGarNet: Goal-Conditioned Recurrent State-Space Models for Pick-and-Place Garment Flattening

Halid Abdulrahim Kadi

110

0

0

23 Aug 2025

Goals and the Structure of Experience

Goals and the Structure of Experience

144

0

0

20 Aug 2025

Visuomotor Grasping with World Models for Surgical Robots

Visuomotor Grasping with World Models for Surgical Robots

156

1

0

15 Aug 2025

Scaling Up without Fading Out: Goal-Aware Sparse GNN for RL-based Generalized Planning

Scaling Up without Fading Out: Goal-Aware Sparse GNN for RL-based Generalized PlanningInternational Journal of Control, Automation and Systems (IJCAS), 2025

140

0

0

14 Aug 2025

Goal Discovery with Causal Capacity for Efficient Reinforcement Learning

Goal Discovery with Causal Capacity for Efficient Reinforcement Learning

136

0

0

13 Aug 2025

Towards Safe Imitation Learning via Potential Field-Guided Flow Matching

Towards Safe Imitation Learning via Potential Field-Guided Flow Matching

Noémie Jaquier

Yoshihiko Nakamura

140

0

0

12 Aug 2025

ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning

ASkDAgger: Active Skill-level Data Aggregation for Interactive Imitation Learning

Zlatan Ajanović

173

1

0

07 Aug 2025

RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems

RecoMind: A Reinforcement Learning Framework for Optimizing In-Session User Satisfaction in Recommendation Systems

Vishwakarma Singh

141

1

0

31 Jul 2025

Test-time Offline Reinforcement Learning on Goal-related Experience

Test-time Offline Reinforcement Learning on Goal-related Experience

Marco Bagatella

Jonas Hübotter

216

4

0

24 Jul 2025

Sensor-Space Based Robust Kinematic Control of Redundant Soft Manipulator by Learning

Sensor-Space Based Robust Kinematic Control of Redundant Soft Manipulator by Learning

Charlie C. L. Wang

139

0

0

19 Jul 2025

Self-Improving Language Models for Evolutionary Program Synthesis: A Case Study on ARC-AGI

Self-Improving Language Models for Evolutionary Program Synthesis: A Case Study on ARC-AGI

Pierre-Yves Oudeyer

255

9

0

10 Jul 2025

2048: Reinforcement Learning in a Delayed Reward Environment

2048: Reinforcement Learning in a Delayed Reward Environment

191

1

0

07 Jul 2025

Planning under Uncertainty to Goal Distributions

Planning under Uncertainty to Goal Distributions

388

3

0

01 Jul 2025

Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

Prajwal Koirala

319

4

0

26 Jun 2025

BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning

BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning

220

12

0

20 Jun 2025

Energy-Based Transfer for Reinforcement Learning

Energy-Based Transfer for Reinforcement Learning

Joseph Campbell

172

0

0

19 Jun 2025

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization

304

0

0

18 Jun 2025

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes

380

5

0

17 Jun 2025

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization

Hengshuang Zhao

201

3

0

17 Jun 2025

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

DynaGuide: Steering Diffusion Polices with Active Dynamic Guidance

263

4

0

16 Jun 2025

Goal-based Self-Adaptive Generative Adversarial Imitation Learning (Goal-SAGAIL) for Multi-goal Robotic Manipulation Tasks

Goal-based Self-Adaptive Generative Adversarial Imitation Learning (Goal-SAGAIL) for Multi-goal Robotic Manipulation Tasks

George Vogiatzis

117

0

0

15 Jun 2025

CIRO7.2: A Material Network with Circularity of -7.2 and Reinforcement-Learning-Controlled Robotic Disassembler

CIRO7.2: A Material Network with Circularity of -7.2 and Reinforcement-Learning-Controlled Robotic Disassembler

Monica Malvezzi

152

0

0

13 Jun 2025

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning

...

Franziska Meier

Michael G. Rabbat

277

138

0

11 Jun 2025

Uncertainty Prioritized Experience Replay

Rodrigo Carrasco-Davis

Claudia Clopath

219

1

0

10 Jun 2025

Learning The Minimum Action Distance

Learning The Minimum Action Distance

Lorenzo Steccanella

Joshua B. Evans

309

0

0

10 Jun 2025

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Thinking vs. Doing: Agents that Reason by Scaling Test-Time Interaction

Amrith Rajagopal Setlur

...

Ameet Talwalkar

296

17

0

09 Jun 2025

Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning

Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning

276

2

0

09 Jun 2025

Reachability Weighted Offline Goal-conditioned Resampling

Reachability Weighted Offline Goal-conditioned Resampling

203

0

0

03 Jun 2025

SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning

SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning

245

5

0

01 Jun 2025

Diffusion Guidance Is a Controllable Policy Improvement Operator

Diffusion Guidance Is a Controllable Policy Improvement Operator

283

11

0

29 May 2025

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Carmelo Sferrazza

254

6

0

29 May 2025

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals

160

2

0

27 May 2025

Can Large Reasoning Models Self-Train?

Can Large Reasoning Models Self-Train?

Sheikh Shafayat

Ruslan Salakhutdinov

416

21

0

27 May 2025

Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning

Extremum Flow Matching for Offline Goal Conditioned Reinforcement Learning

Clemente Donoso

Jean-Baptiste Mouret

394

1

0

26 May 2025

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning

Leander Diaz-Bone

Marco Bagatella

Jonas Hübotter

307

4

0

26 May 2025

Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies

Prompting Decision Transformers for Zero-Shot Reach-Avoid Policies

209

0

0

25 May 2025

CiRL: Open-Source Environments for Reinforcement Learning in Circular Economy and Net Zero

CiRL: Open-Source Environments for Reinforcement Learning in Circular Economy and Net Zero

Monica Malvezzi

339

1

0

24 May 2025

Flattening Hierarchies with Policy Bootstrapping

Flattening Hierarchies with Policy Bootstrapping

Jonathan C. Kao

386

1

0

20 May 2025

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

323

2

0

19 May 2025

Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning

Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning

300

3

0

19 May 2025

Attention-Based Reward Shaping for Sparse and Delayed Rewards

Attention-Based Reward Shaping for Sparse and Delayed Rewards

269

2

0

16 May 2025

Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement Learning

Electric Bus Charging Schedules Relying on Real Data-Driven Targets Based on Hierarchical Deep Reinforcement LearningIEEE Access (IEEE Access), 2025

Thorsteinn Jonsson

256

2

0

15 May 2025

General Dynamic Goal Recognition using Goal-Conditioned and Meta Reinforcement Learning

General Dynamic Goal Recognition using Goal-Conditioned and Meta Reinforcement Learning

Reuth Mirsky

170

2

0

14 May 2025

Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning

Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning

261

0

0

13 May 2025

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

457

10

0

13 May 2025

Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement Learning

Null Counterfactual Factor Interactions for Goal-Conditioned Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

Siddhant Agarwal

327

2

0

06 May 2025

D3HRL: A Distributed Hierarchical Reinforcement Learning Approach Based on Causal Discovery and Spurious Correlation Detection

D3HRL: A Distributed Hierarchical Reinforcement Learning Approach Based on Causal Discovery and Spurious Correlation Detection

283

0

0

04 May 2025

A Goal-Oriented Reinforcement Learning-Based Path Planning Algorithm for Modular Self-Reconfigurable Satellites

A Goal-Oriented Reinforcement Learning-Based Path Planning Algorithm for Modular Self-Reconfigurable Satellites

246

0

0

04 May 2025

1 2 3 4 5...25 26 27