v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,552 papers shown

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

101

04 Dec 2025

Model Whisper: Steering Vectors Unlock Large Language Models' Potential in Test-time

222

04 Dec 2025

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space

160

04 Dec 2025

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Franki Nguimatsia Tiofack

Théotime Le Hellard

Fabian Schramm

Nicolas Perrin-Gilbert

Justin Carpentier

242

03 Dec 2025

Variable-Impedance Muscle Coordination under Slow-Rate Control Frequencies and Limited Observation Conditions Evaluated through Legged Locomotion

Hidaka Asai

Tomoyuki Noda

Jun Morimoto

112

03 Dec 2025

World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observations

380

03 Dec 2025

Deep Reinforcement Learning for Dynamic Algorithm Configuration: A Case Study on Optimizing OneMax with the (1+(

λ

λ

03 Dec 2025

GRAND: Guidance, Rebalancing, and Assignment for Networked Dispatch in Multi-Agent Path Finding

02 Dec 2025

Vehicle Dynamics Embedded World Models for Autonomous Driving

148

02 Dec 2025

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

155

02 Dec 2025

Cross-Domain Offline Policy Adaptation with Dynamics- and Value-Aligned Data Filtering

144

02 Dec 2025

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

02 Dec 2025

Differentiable Weightless Controllers: Learning Logic Circuits for Continuous Control

Fabian Kresse

Christoph H. Lampert

203

01 Dec 2025

How do trout regulate patterns of muscle contraction to optimize propulsive efficiency during steady swimming

01 Dec 2025

On the Tension Between Optimality and Adversarial Robustness in Policy Optimization

139

01 Dec 2025

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

123

01 Dec 2025

Discovering Self-Protective Falling Policy for Humanoid Robot via Deep Reinforcement Learning

Diyuan Shi

Shangke Lyu

Donglin Wang

127

01 Dec 2025

MS-PPO: Morphological-Symmetry-Equivariant Policy for Legged Robot Locomotion

30 Nov 2025

Shielded Controller Units for RL with Operational Constraints Applied to Remote Microgrids

Hadi Nekoei

Alexandre Blondin Massé

Rachid Hassani

Sarath Chandar

Vincent Mai

30 Nov 2025

Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments

30 Nov 2025

An Empirical Study on the Effectiveness of Incorporating Offline RL As Online RL Subroutines

253

29 Nov 2025

MARVO: Marine-Adaptive Radiance-aware Visual Odometry

377

28 Nov 2025

Improving Stochastic Action-Constrained Reinforcement Learning via Truncated Distributions

Roland Stolz

Michael Eichelbeck

Matthias Althoff

27 Nov 2025

Independent policy gradient-based reinforcement learning for economic and reliable energy management of multi-microgrid systems

Junkai Hu

Li Xia

375

26 Nov 2025

Reinforcing Action Policies by Prophesying

233

25 Nov 2025

Multi-Agent Cross-Entropy Method with Monotonic Nonlinear Critic Decomposition

Yan Wang

Ke Deng

Yongli Ren

159

24 Nov 2025

Accelerating Reinforcement Learning via Error-Related Human Brain Signals

207

24 Nov 2025

FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning

373

24 Nov 2025

Active Inference is a Subtype of Variational Inference

Wouter W. L. Nuijten

Mykola Lukashchuk

153

24 Nov 2025

First-order Sobolev Reinforcement Learning

Fabian Schramm

Nicolas Perrin-Gilbert

Justin Carpentier

24 Nov 2025

MOMA-AC: A preference-driven actor-critic framework for continuous multi-objective multi-agent reinforcement learningNeurocomputing (Neurocomputing), 2025

22 Nov 2025

Reward Engineering for Spatial Epidemic Simulations: A Reinforcement Learning Platform for Individual Behavioral Learning

Radman Rakhshandehroo

Daniel Coombs

106

22 Nov 2025

Physical Reinforcement Learning

Sam Dillavou

Shruti Mishra

OffRL

157

21 Nov 2025

Optimizing Operation Recipes with Reinforcement Learning for Safe and Interpretable Control of Chemical Processes

D. Brandner

Sergio Lucia

143

20 Nov 2025

MagBotSim: Physics-Based Simulation and Reinforcement Learning Environments for Magnetic Robotics

Lara Bergmann

Cedric Grothues

Klaus Neumann

109

20 Nov 2025

Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization

132

20 Nov 2025

Limitations of Scalarisation in MORL: A Comparative Study in Discrete Environments

Muhammad Saóod Shah

Asad Jeewa

138

20 Nov 2025

Stabilizing Policy Gradient Methods via Reward Profiling

204

20 Nov 2025

EntroPIC: Towards Stable Long-Term Training of LLMs via Entropy Stabilization with Proportional-Integral Control

237

19 Nov 2025

Task Specific Sharpness Aware O-RAN Resource Management using Multi Agent Reinforcement LearningIEEE Transactions on Machine Learning in Communications and Networking (IEEE TMLCN), 2025

Fatemeh Lotfi

Hossein Rajoli

Fatemeh Afghah

101

19 Nov 2025

IPR-1: Interactive Physical Reasoner

...

402

19 Nov 2025

Learning Human-Like RL Agents Through Trajectory Optimization With Action Quantization

19 Nov 2025

Transformer-Guided Deep Reinforcement Learning for Optimal Takeoff Trajectory Design of an eVTOL Drone

Nathan M. Roberts II

Xiaosong Du

128

18 Nov 2025

$$π^{*}_{0.6}$: a VLA That Learns From Experience$

π^{*}_{0.6}

: a VLA That Learns From Experience

Physical Intelligence

...

897

18 Nov 2025

Reinforcement Learning from Implicit Neural Feedback for Human-Aligned Robot Control

Suzie Kim

OffRL

18 Nov 2025

Soft Conflict-Resolution Decision Transformer for Offline Multi-Task Reinforcement Learning

125

17 Nov 2025

Scalable Multi-Objective and Meta Reinforcement Learning via Gradient Estimation

415

16 Nov 2025

Quantile Q-Learning: Revisiting Offline Extreme Q-Learning with Quantile Regression

109

15 Nov 2025

Reinforcement Learning for Charging Optimization of Inhomogeneous Dicke Quantum Batteries

15 Nov 2025

Intelligent Collaborative Optimization for Rubber Tyre Film Production Based on Multi-path Differentiated Clipping Proximal Policy Optimization

188

15 Nov 2025