v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,552 papers shown

Free Energy-Inspired Cognitive Risk Integration for AV Navigation in Pedestrian-Rich Environments

199

28 Jul 2025

TADT-CSA: Temporal Advantage Decision Transformer with Contrastive State Abstraction for Generative Recommendation

201

27 Jul 2025

FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning

Alessandro Capurso

Elia Piccoli

Davide Bacciu

121

27 Jul 2025

The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models

Xingcheng Xu

210

27 Jul 2025

Directly Learning Stock Trading Strategies Through Profit Guided Loss Functions

Devroop Kar

Zimeng Lyu

Sheeraja Rajakrishnan

199

25 Jul 2025

Extending Group Relative Policy Optimization to Continuous Control: A Theoretical Framework for Robotic Reinforcement Learning

Rajat Khanda

Mohammad Baqar

Sambuddha Chakrabarti

Satyasaran Changdar

126

25 Jul 2025

Hierarchical Deep Reinforcement Learning Framework for Multi-Year Asset Management Under Budget Constraints

Amir Fard

Arnold X.-X. Yuan

127

25 Jul 2025

Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization

209

25 Jul 2025

HARLF: Hierarchical Reinforcement Learning and Lightweight LLM-Driven Sentiment Integration for Financial Portfolio Optimization

Benjamin Coriat

Eric Benhamou

AIFin

118

24 Jul 2025

Prolonging Tool Life: Learning Skillful Use of General-purpose Tools through Lifespan-guided Reinforcement Learning

151

23 Jul 2025

LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks

155

23 Jul 2025

Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs

210

22 Jul 2025

Multi-agent Reinforcement Learning for Robotized Coral Reef Sample Collection

107

22 Jul 2025

RAD: Retrieval High-quality Demonstrations to Enhance Decision-making

207

21 Jul 2025

Mixture of Autoencoder Experts Guidance using Unlabeled and Incomplete Data for Exploration in Reinforcement Learning

Elias Malomgré

Pieter Simoens

OffRL

154

21 Jul 2025

One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms

Zijian Zhao

Sen Li

189

21 Jul 2025

Hierarchical Multi-Agent Reinforcement Learning with Control Barrier Functions for Safety-Critical Autonomous Systems

Christos G. Cassandras

Wenchao Li

252

20 Jul 2025

Balancing Expressivity and Robustness: Constrained Rational Activations for Reinforcement Learning

193

19 Jul 2025

Age of Information Minimization in UAV-Enabled Integrated Sensing and Communication Systems

174

18 Jul 2025

Signal Temporal Logic Compliant Co-design of Planning and Control

248

17 Jul 2025

Relative Entropy Pathwise Policy Optimization

Amir-massoud Farahmand

Igor Gilitschenski

408

15 Jul 2025

ILCL: Inverse Logic-Constraint Learning from Temporally Constrained DemonstrationsIEEE Robotics and Automation Letters (IEEE RA-L), 2025

Minwoo Cho

Jaehwi Jang

Daehyung Park

229

15 Jul 2025

Real-Time Adaptive Motion Planning via Point Cloud-Guided, Energy-Based Diffusion and Potential FieldsIEEE Robotics and Automation Letters (IEEE RA-L), 2025

264

12 Jul 2025

Optimistic Exploration for Risk-Averse Constrained Reinforcement Learning

180

11 Jul 2025

Reinforcement Learning with Action Chunking

411

10 Jul 2025

"So, Tell Me About Your Policy...": Distillation of interpretable policies from Deep Reinforcement Learning agents

234

10 Jul 2025

Growing Trees with an Agent: Accelerating RRTs with Learned, Multi-Step Episodic Exploration

Xinyu Wu

OffRL

147

09 Jul 2025

Q-STAC: Q-Guided Stein Variational Model Predictive Actor-Critic

188

09 Jul 2025

2048: Reinforcement Learning in a Delayed Reward Environment

213

07 Jul 2025

Planning under Uncertainty to Goal Distributions

Adam Conkey

Tucker Hermans

388

01 Jul 2025

Active Inference AI Systems for Scientific Discovery

Karthik Duraisamy

AI4CE LRM

442

26 Jun 2025

Diverse Mini-Batch Selection in Reinforcement Learning for Efficient Chemical Exploration in de novo Drug Design

Hampus Gummesson Svensson

351

26 Jun 2025

Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning

Prajwal Koirala

Cody Fleming

OffRL

323

26 Jun 2025

Autonomous Cyber Resilience via a Co-Evolutionary Arms Race within a Fortified Digital Twin Sandbox

Malikussaid

Sutiyo

196

25 Jun 2025

TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design

246

24 Jun 2025

DRARL: Disengagement-Reason-Augmented Reinforcement Learning for Efficient Improvement of Autonomous Driving Policy

187

20 Jun 2025

Off-Policy Actor-Critic for Adversarial Observation Robustness: Virtual Alternative Training via Symmetric Policy Evaluation

227

20 Jun 2025

Discrete Compositional Generation via General Soft Operators and Robust Reinforcement Learning

328

20 Jun 2025

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning

184

20 Jun 2025

Robust Dynamic Material Handling via Adaptive Constrained Evolutionary Reinforcement LearningIEEE Transactions on Neural Networks and Learning Systems (IEEE TNNLS), 2025

211

20 Jun 2025

GoalLadder: Incremental Goal Discovery with Vision-Language Models

Alexey Zakharov

Shimon Whiteson

252

19 Jun 2025

Distribution Parameter Actor-Critic: Shifting the Agent-Environment Boundary for Diverse Action Spaces

Jiamin He

A. Rupam Mahmood

Martha White

109

19 Jun 2025

Data-Driven Policy Mapping for Safe RL-based Energy Management SystemsEnergy Reports (Energy Rep.), 2025

Theo Zangato

A. Osmani

Pegah Alizadeh

165

19 Jun 2025

BIDA: A Bi-level Interaction Decision-making Algorithm for Autonomous Vehicles in Dynamic Traffic Scenarios

145

19 Jun 2025

Steering Your Diffusion Policy with Latent Space Reinforcement Learning

330

18 Jun 2025

Learning Task-Agnostic Motifs to Capture the Continuous Nature of Animal Behavior

180

18 Jun 2025

Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

Roger Creus Castanyer

224

18 Jun 2025

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization

Ranting Hu

OffRL

307

18 Jun 2025

Reasoning with Exploration: An Entropy Perspective

337

131

17 Jun 2025

Advancing Safe Mechanical Ventilation Using Offline RL With Hybrid Actions and Clinically Aligned Rewards

Muhammad Hamza Yousuf

201

17 Jun 2025