v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,562 papers shown

Distributions as Actions: A Unified Framework for Diverse Action Spaces

Jiamin He

A. Rupam Mahmood

Martha White

183

19 Jun 2025

CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization

Ranting Hu

OffRL

319

18 Jun 2025

Learning Task-Agnostic Motifs to Capture the Continuous Nature of Animal Behavior

202

18 Jun 2025

Steering Your Diffusion Policy with Latent Space Reinforcement Learning

357

18 Jun 2025

Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

Roger Creus Castanyer

258

18 Jun 2025

Reasoning with Exploration: An Entropy Perspective

370

183

17 Jun 2025

Advancing Safe Mechanical Ventilation Using Offline RL With Hybrid Actions and Clinically Aligned Rewards

Muhammad Hamza Yousuf

240

17 Jun 2025

A Novel Indicator for Quantifying and Minimizing Information Utility Loss of Robot TeamsIEEE Journal on Selected Areas in Communications (JSAC), 2025

17 Jun 2025

Overcoming Overfitting in Reinforcement Learning via Gaussian Process Diffusion PolicySymposium on Software Performance (SP), 2025

Lyudmila S. Mihaylova

162

16 Jun 2025

Learning Swing-up Maneuvers for a Suspended Aerial Manipulation Platform in a Hierarchical Control Framework

Hemjyoti Das

Minh Nhat Vu

Christian Ott

142

16 Jun 2025

Scaling Algorithm Distillation for Continuous Control with Mamba

Samuel Beaussant

Mehdi Mounsif

227

16 Jun 2025

A Novel ViDAR Device With Visual Inertial Encoder Odometry and Reinforcement Learning-Based Active SLAM MethodIEEE Transactions on Industrial Informatics (IEEE TII), 2025

119

16 Jun 2025

Flow-Based Policy for Online Reinforcement Learning

377

15 Jun 2025

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

225

15 Jun 2025

CIRO7.2: A Material Network with Circularity of -7.2 and Reinforcement-Learning-Controlled Robotic Disassembler

Federico Zocco

Monica Malvezzi

193

13 Jun 2025

Palpation Alters Auditory Pain Expressions with Gender-Specific Variations in RobopatientsIEEE Transactions on Medical Robotics and Bionics (TMRB), 2025

Thilina Dulantha Lalitharatne

164

13 Jun 2025

DoublyAware: Dual Planning and Policy Awareness for Temporal Difference Learning in Humanoid Locomotion

242

12 Jun 2025

Efficient Preference-Based Reinforcement Learning: Randomized Exploration Meets Experimental Design

Andreas Schlaginhaufen

Reda Ouhamma

Maryam Kamgarpour

279

11 Jun 2025

Wasserstein Barycenter Soft Actor-Critic

Zahra Shahrooei

Ali Baheri

OffRL

326

11 Jun 2025

Bipedal Balance Control with Whole-body Musculoskeletal Standing and Falling Simulations

239

11 Jun 2025

On a few pitfalls in KL divergence gradient estimation for RL

Yunhao Tang

Rémi Munos

302

11 Jun 2025

MOBODY: Model Based Off-Dynamics Offline Reinforcement Learning

243

10 Jun 2025

Intention-Conditioned Flow Occupancy Models

332

10 Jun 2025

Re4MPC: Reactive Nonlinear MPC for Multi-model Motion Planning via Deep Reinforcement Learning

163

10 Jun 2025

Offline RL with Smooth OOD Generalization in Convex Hull and its NeighborhoodInternational Conference on Learning Representations (ICLR), 2025

245

10 Jun 2025

Dynamical System Optimization

Emo Todorov

183

10 Jun 2025

Your Agent Can Defend Itself against Backdoor Attacks

405

10 Jun 2025

Time-Aware World Model for Adaptive Prediction and Control

242

10 Jun 2025

Deep Reinforcement Learning-Based Motion Planning and PDE Control for Flexible ManipulatorsIEEE Robotics and Automation Letters (IEEE RA-L), 2025

Amir Hossein Barjini

Seyed Adel Alizadeh Kolagar

Sadeq Yaqubi

Jouni Mattila

131

10 Jun 2025

Realistic Urban Traffic Generator using Decentralized Federated Learning for the SUMO simulatorIEEE Open Journal of the Communications Society (IEEE Open J. Commun. Soc.), 2025

Alberto Bazán-Guillén

Carlos Beis-Penedo

Diego Cajaraville-Aboy

Pablo Barbecho-Bautista

R. Redondo

Luis J. de la Cruz Llopis

Ana Fernández-Vilas

Mónica Aguilar Igartua

M. Fernández-Veiga

AI4TS

210

09 Jun 2025

Graph-Assisted Stitching for Offline Hierarchical Reinforcement Learning

312

09 Jun 2025

Monotone and Conservative Policy Iteration Beyond the Tabular Case

330

08 Jun 2025

Learning What Matters Now: A Dual-Critic Context-Aware RL Framework for Priority-Driven Information Gain

Dimitris Panagopoulos

Adolfo Perrusquía

Weisi Guo

139

07 Jun 2025

AMPED: Adaptive Multi-objective Projection for balancing Exploration and skill Diversification

365

06 Jun 2025

Self driving algorithm for an active four wheel drive racecar

Gergely Bari

Laszlo Palkovics

268

06 Jun 2025

Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning

335

06 Jun 2025

When Maximum Entropy Misleads Policy Optimization

Ruipeng Zhang

Ya-Chien Chang

Sicun Gao

195

05 Jun 2025

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Saeed Hedayatian

Stefanos Nikolaidis

154

05 Jun 2025

Self-Predictive Dynamics for Generalization of Vision-based Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2022

189

05 Jun 2025

Confidence-Guided Human-AI Collaboration: Reinforcement Learning with Distributional Proxy Value Propagation for Autonomous Driving

361

04 Jun 2025

Latent Guided Sampling for Combinatorial Optimization

259

04 Jun 2025

Self-Composing Policies for Scalable Continual Reinforcement Learning

386

04 Jun 2025

Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration

Tuan Le

Risal Shahriar Shefin

255

04 Jun 2025

FLIP: Flowability-Informed Powder Weighing

289

04 Jun 2025

An Efficient Task-Oriented Dialogue Policy: Evolutionary Reinforcement Learning Injected by Elite IndividualsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

341

04 Jun 2025

Horizon Reduction Makes RL Scalable

697

04 Jun 2025

Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning

Jan Peters

Carlo DÉramo

CLL

314

04 Jun 2025

Autonomous Vehicle Lateral Control Using Deep Reinforcement Learning with MPC-PID Demonstration

219

04 Jun 2025

Enhancing Sample Efficiency in Multi-Agent RL with Uncertainty Quantification and Selective Exploration

Tom Danino

Nahum Shimkin

248

03 Jun 2025

Think Twice, Act Once: A Co-Evolution Framework of LLM and RL for Large-Scale Decision Making

294

03 Jun 2025