Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
1707.01495
Cited By

Hindsight Experience Replay

v1v2v3 (latest)

Hindsight Experience Replay

5 July 2017

Marcin Andrychowicz

Jonas Schneider

Pieter Abbeel

Wojciech Zaremba

ArXiv (abs)PDF HTML

Papers citing "Hindsight Experience Replay"

50 / 1,339 papers shown

Disentangled Representations for Causal Cognition

Disentangled Representations for Causal Cognition

Filippo Torresan

Manuel Baltieri

260

4

0

30 Jun 2024

Learning Formal Mathematics From Intrinsic Motivation

Learning Formal Mathematics From Intrinsic Motivation

Noah D. Goodman

305

29

0

30 Jun 2024

Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning

Revisiting Sparse Rewards for Goal-Reaching Reinforcement Learning

Yan Wang

Martin Jägersand

265

11

0

29 Jun 2024

Bidirectional-Reachable Hierarchical Reinforcement Learning with
Mutually Responsive Policies

Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies

Fuchun Sun

Xianyuan Zhan

158

0

0

26 Jun 2024

OCALM: Object-Centric Assessment with Language Models

OCALM: Object-Centric Assessment with Language Models

Quentin Delfosse

Kristian Kersting

Eyke Hüllermeier

280

1

0

24 Jun 2024

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Sergey Levine

Benjamin Eysenbach

381

31

0

24 Jun 2024

Learning Abstract World Model for Value-preserving Planning with Options

Learning Abstract World Model for Value-preserving Planning with Options

Rafael Rodríguez-Sánchez

George Konidaris

278

3

0

22 Jun 2024

Learning telic-controllable state representations

Learning telic-controllable state representations

301

1

0

20 Jun 2024

Metacognitive AI: Framework and the Case for a Neurosymbolic Approach

Metacognitive AI: Framework and the Case for a Neurosymbolic Approach

Paulo Shakarian

Christian Lebiere

Nikhil Krishnaswamy

Sergei Nirenburg

218

7

0

17 Jun 2024

Large Reasoning Models for 3D Floorplanning in EDA: Learning from
Imperfections

Large Reasoning Models for 3D Floorplanning in EDA: Learning from Imperfections

Md. Kamal Ibn Shafi

Paul D. Franzon

189

0

0

15 Jun 2024

Is Value Learning Really the Main Bottleneck in Offline RL?

Is Value Learning Really the Main Bottleneck in Offline RL?

Seohong Park

238

45

0

13 Jun 2024

CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep
Reinforcement Learning Algorithms

CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms

Arda Sarp Yenicesu

Furkan B. Mutlu

Suleyman S. Kozat

96

1

0

13 Jun 2024

Multi-agent Reinforcement Learning with Deep Networks for Diverse
Q-Vectors

Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors

89

1

0

12 Jun 2024

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning

Pramit Bhattacharyya

Vinay P. Namboodiri

598

3

0

09 Jun 2024

What Matters in Hierarchical Search for Combinatorial Reasoning Problems?

What Matters in Hierarchical Search for Combinatorial Reasoning Problems?

Michał Zawalski

Michał Tyrolski

Franciszek Budrowski

Marek Cygan

Łukasz Kuciński

Piotr Miłoś

345

2

0

05 Jun 2024

Multi-Agent Transfer Learning via Temporal Contrastive Learning

Multi-Agent Transfer Learning via Temporal Contrastive Learning

Joseph Campbell

Simon Stepputtis

248

2

0

03 Jun 2024

Advancing DRL Agents in Commercial Fighting Games: Training,
Integration, and Agent-Human Alignment

Advancing DRL Agents in Commercial Fighting Games: Training, Integration, and Agent-Human Alignment

298

6

0

03 Jun 2024

Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets

Looking Backward: Retrospective Backward Synthesis for Goal-Conditioned GFlowNets

539

8

0

03 Jun 2024

Shared-unique Features and Task-aware Prioritized Sampling on Multi-task
Reinforcement Learning

Shared-unique Features and Task-aware Prioritized Sampling on Multi-task Reinforcement Learning

263

0

0

02 Jun 2024

Learning Multimodal Behaviors from Scratch with Diffusion Policy
Gradient

Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient

Tao Chen

Georgia Chalvatzaki

230

35

0

02 Jun 2024

Exploring the limits of Hierarchical World Models in Reinforcement
Learning

Exploring the limits of Hierarchical World Models in Reinforcement Learning

Anand Subramoney

Laurenz Wiskott

240

7

0

01 Jun 2024

Towards Learning Foundation Models for Heuristic Functions to Solve
Pathfinding Problems

Towards Learning Foundation Models for Heuristic Functions to Solve Pathfinding Problems

Vedant Khandelwal

Forest Agostinelli

258

4

0

01 Jun 2024

LAGMA: LAtent Goal-guided Multi-Agent Reinforcement Learning

LAGMA: LAtent Goal-guided Multi-Agent Reinforcement Learning

199

4

0

30 May 2024

AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight
Tuning on Multi-source Data

AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data

...

Qipeng Guo

Dahua Lin

160

6

0

29 May 2024

Causal Action Influence Aware Counterfactual Data Augmentation

Causal Action Influence Aware Counterfactual Data Augmentation

Núria Armengol Urpí

Marco Bagatella

Marin Vlastelica

190

10

0

29 May 2024

Rewarded Region Replay (R3) for Policy Learning with Discrete Action
Space

Rewarded Region Replay (R3) for Policy Learning with Discrete Action Space

76

0

1

26 May 2024

Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search

Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search

403

13

0

26 May 2024

RoboArm-NMP: a Learning Environment for Neural Motion Planning

RoboArm-NMP: a Learning Environment for Neural Motion Planning

165

0

0

25 May 2024

Exclusively Penalized Q-learning for Offline Reinforcement Learning

Exclusively Penalized Q-learning for Offline Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

298

3

0

23 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

A Survey on Vision-Language-Action Models for Embodied AI

885

164

0

23 May 2024

Octo: An Open-Source Generalist Robot Policy

Octo: An Open-Source Generalist Robot Policy

Octo Model Team

...

Dorsa Sadigh

545

867

0

20 May 2024

Feasibility Consistent Representation Learning for Safe Reinforcement
Learning

Feasibility Consistent Representation Learning for Safe Reinforcement Learning

Ding Zhao

288

3

0

20 May 2024

Going into Orbit: Massively Parallelizing Episodic Reinforcement
Learning

Going into Orbit: Massively Parallelizing Episodic Reinforcement Learning

97

0

0

19 May 2024

Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks

Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular NetworksIEEE Transactions on Vehicular Technology (IEEE Trans. Veh. Technol.), 2024

235

7

0

18 May 2024

vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of
Gradient Directions for Policy Improvement

vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy ImprovementAdaptive Agents and Multi-Agent Systems (AAMAS), 2024

Jianye Hao

Changjie Fan

241

5

0

14 May 2024

CIER: A Novel Experience Replay Approach with Causal Inference in Deep
Reinforcement Learning

CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning

122

0

0

14 May 2024

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real
Touch

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch

Christopher J. Ford

Efi Psomopoulou

David A.W. Barton

343

33

0

12 May 2024

A Minimalist Prompt for Zero-Shot Policy Learning

A Minimalist Prompt for Zero-Shot Policy Learning

Manmohan Chandraker

188

2

0

09 May 2024

Learning Planning Abstractions from Language

Learning Planning Abstractions from Language

Jiayuan Mao

Jiajun Wu

269

4

0

06 May 2024

Artificial Intelligence in the Autonomous Navigation of Endovascular
Interventions: A Systematic Review

Artificial Intelligence in the Autonomous Navigation of Endovascular Interventions: A Systematic ReviewFrontiers in Human Neuroscience (Front. Hum. Neurosci.), 2023

Harry Robertshaw

Lennart Karstensen

Benjamin Jackson

Sebastien Ourselin

Alejandro Granados

144

25

0

06 May 2024

Robot Air Hockey: A Manipulation Testbed for Robot Learning with
Reinforcement Learning

Robot Air Hockey: A Manipulation Testbed for Robot Learning with Reinforcement Learning

...

262

5

0

06 May 2024

Proximal Curriculum with Task Correlations for Deep Reinforcement
Learning

Proximal Curriculum with Task Correlations for Deep Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Georgios Tzannetos

Parameswaran Kamalaruban

217

6

0

03 May 2024

MESA: Cooperative Meta-Exploration in Multi-Agent Learning through
Exploiting State-Action Space Structure

MESA: Cooperative Meta-Exploration in Multi-Agent Learning through Exploiting State-Action Space Structure

188

2

0

01 May 2024

DPO Meets PPO: Reinforced Token Optimization for RLHF

DPO Meets PPO: Reinforced Token Optimization for RLHF

622

97

0

29 Apr 2024

Distilling Privileged Information for Dubins Traveling Salesman Problems
with Neighborhoods

Distilling Privileged Information for Dubins Traveling Salesman Problems with Neighborhoods

261

1

0

25 Apr 2024

PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement
Learning via Hindsight Relabeling

PIPER: Primitive-Informed Preference-based Hierarchical Reinforcement Learning via Hindsight Relabeling

Wesley A Suttle

Vinay P. Namboodiri

Amrit Singh Bedi

288

5

0

20 Apr 2024

Towards a Research Community in Interpretable Reinforcement Learning:
the InterpPol Workshop

Towards a Research Community in Interpretable Reinforcement Learning: the InterpPol Workshop

Quentin Delfosse

292

0

0

16 Apr 2024

A Survey on Deep Learning for Theorem Proving

A Survey on Deep Learning for Theorem Proving

284

49

0

15 Apr 2024

Provable Interactive Learning with Hindsight Instruction Feedback

Provable Interactive Learning with Hindsight Instruction Feedback

Dipendra Kumar Misra

282

1

0

14 Apr 2024

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from
Human Feedback for LLMs

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs

Shreyas Chaudhari

Pranjal Aggarwal

Vishvak Murahari

Tanmay Rajpurohit

Karthik Narasimhan

Ameet Deshpande

Bruno Castro da Silva

406

86

0

12 Apr 2024

1 2 3 4 5 6...25 26 27