v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,552 papers shown

Data-Efficient Multitask DAgger

138

29 Sep 2025

Parallel Heuristic Search as Inference for Actor-Critic Reinforcement Learning Models

29 Sep 2025

Polychromic Objectives for Reinforcement Learning

107

29 Sep 2025

Robust Policy Expansion for Offline-to-Online RL under Diverse Data Corruption

314

29 Sep 2025

Unlocking the Potential of Soft Actor-Critic for Imitation Learning

Nayari Marie Lessa

Melya Boukheddimi

Frank Kirchner

29 Sep 2025

STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning

28 Sep 2025

An Investigation of Batch Normalization in Off-Policy Actor-Critic Algorithms

153

28 Sep 2025

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

...

28 Sep 2025

Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization

104

28 Sep 2025

Mash, Spread, Slice! Learning to Manipulate Object States via Visual Spatial Progress

Roberto Martín-Martín

Kristen Grauman

151

28 Sep 2025

DiBS-MTL: Transformation-Invariant Multitask Learning with Direction Oracles

147

28 Sep 2025

ZeroSiam: An Efficient Siamese for Test-Time Entropy Optimization without Collapse

132

27 Sep 2025

Trust Region Reward Optimization and Proximal Inverse Reward Optimization Algorithm

190

27 Sep 2025

Continuous-Time Reinforcement Learning for Asset-Liability Management

Yilie Huang

27 Sep 2025

LAGEA: Language Guided Embodied Agents for Robotic Manipulation

Abdul Monaf Chowdhury

Akm Moshiur Rahman Mazumder

Rabeya Akter

S. Arib

LM&Ro

110

27 Sep 2025

Quantile Advantage Estimation for Entropy-Safe Reasoning

129

26 Sep 2025

Triple-BERT: Do We Really Need MARL for Order Dispatch on Ride-Sharing Platforms?

Zijian Zhao

S. Li

OffRL

129

26 Sep 2025

Functional Critics Are Essential in Off-Policy Actor-Critic: Provable Convergence and Efficient Exploration

160

26 Sep 2025

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

...

398

26 Sep 2025

EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

101

26 Sep 2025

Reinforcement Learning for Durable Algorithmic Recourse

114

26 Sep 2025

MTRec: Learning to Align with User Preferences via Mental Reward Models

200

26 Sep 2025

From Parameters to Behavior: Unsupervised Compression of the Policy Space

139

26 Sep 2025

Inverse Reinforcement Learning Using Just Classification and a Few Regressions

Lars van der Laan

Nathan Kallus

Aurélien F. Bibaut

25 Sep 2025

Cross-Modal Instructions for Robot Motion Generation

William Barron

Xiaoxiang Dong

Matthew Johnson-Roberson

Weiming Zhi

108

25 Sep 2025

Fine-Tuning LLMs to Analyze Multiple Dimensions of Code Review: A Maximum Entropy Regulated Long Chain-of-Thought Approach

...

137

25 Sep 2025

MPC-based Deep Reinforcement Learning Method for Space Robotic Control with Fuel Sloshing Mitigation

Mahya Ramezani

M. Alandihallaj

Barış Can Yalçın

Miguel Angel Olivares Mendez

Holger Voos

25 Sep 2025

Actor-Critic without Actor

161

25 Sep 2025

Model-Based Reinforcement Learning under Random Observation Delays

132

25 Sep 2025

Teaching RL Agents to Act Better: VLM as Action Advisor for Online Reinforcement Learning

25 Sep 2025

CE-GPPO: Coordinating Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

204

25 Sep 2025

Robot Trajectron V2: A Probabilistic Shared Control Framework for Navigation

110

24 Sep 2025

Failure Modes of Maximum Entropy RLHF

Ömer Veysel Çağatan

Barış Akgün

115

24 Sep 2025

Complexity-Driven Policy Optimization

Luca Serfilippi

Giorgio Franceschelli

Antonio Corradi

Mirco Musolesi

24 Sep 2025

Selective Progress-Aware Querying for Human-in-the-Loop Reinforcement Learning

Anujith Muraleedharan

Anamika J H

24 Sep 2025

Embodied AI: From LLMs to World Models

339

24 Sep 2025

Frictional Q-Learning

Hyunwoo Kim

Hyo Kyung Lee

OffRL

155

24 Sep 2025

Memory-Augmented Potential Field Theory: A Framework for Adaptive Control in Non-Convex Domains

Dongzhe Zheng

Wenjie Mei

109

24 Sep 2025

DexSkin: High-Coverage Conformable Robotic Skin for Learning Contact-Rich Manipulation

180

23 Sep 2025

Efficient Reinforcement Learning by Reducing Forgetting with Elephant Activation Functions

135

23 Sep 2025

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

222

23 Sep 2025

Reduced-Order Model-Guided Reinforcement Learning for Demonstration-Free Humanoid Locomotion

Shuai Liu

Meng Cheng Lau

100

23 Sep 2025

SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

177

23 Sep 2025

Real-Time Reinforcement Learning for Dynamic Tasks with a Parallel Soft Robot

116

23 Sep 2025

RL-augmented Adaptive Model Predictive Control for Bipedal Locomotion over Challenging Terrain

145

22 Sep 2025

Fast Trajectory Planner with a Reinforcement Learning-based Controller for Robotic ManipulatorsEngineering applications of artificial intelligence (EAAI), 2025

Yongliang Wang

Hamidreza Kasaei

113

22 Sep 2025

Preference Distillation via Value based Reinforcement Learning

153

21 Sep 2025

End2Race: Efficient End-to-End Imitation Learning for Real-Time F1Tenth Racing

105

21 Sep 2025

Bayesian Ego-graph Inference for Networked Multi-Agent Reinforcement Learning

212

20 Sep 2025

Mental Accounts for Actions: EWA-Inspired Attention in Decision Transformers

Zahra Aref

Narayan B. Mandayam

OffRL

112

19 Sep 2025