v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,552 papers shown

Multi-parameter Control for the

(1+(λ,λ))

-GA on OneMax via Deep Reinforcement LearningFoundations of Genetic Algorithms (FOGA), 2025

388

19 May 2025

TD-GRPC: Temporal Difference Learning with Group Relative Policy Constraint for Humanoid Locomotion

260

19 May 2025

Zero-Shot Adaptation of Behavioral Foundation Models to Unseen Dynamics

234

19 May 2025

Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning

352

19 May 2025

Multi-CALF: A Policy Combination Approach with Statistical Guarantees

235

18 May 2025

Of Mice and Machines: A Comparison of Learning Between Real World Mice and RL Agents

456

18 May 2025

Bench-NPIN: Benchmarking Non-prehensile Interactive Navigation

233

17 May 2025

Q-Policy: Quantum-Enhanced Policy Evaluation for Scalable Reinforcement Learning

Kalyan Cherukuri

Aarav Lala

Yash Yardi

204

17 May 2025

SAINT: Attention-Based Policies for Discrete Combinatorial Action Spaces

225

17 May 2025

Exploration by Random Distribution Distillation

331

16 May 2025

Deep Symbolic Optimization: Reinforcement Learning for Symbolic Mathematics

...

291

16 May 2025

Tool-Aided Evolutionary LLM for Generative Policy Toward Efficient Resource Management in Wireless Federated Learning

369

16 May 2025

Meta-World+: An Improved, Standardized, RL Benchmark

Reginald McLean

Evangelos Chatzaroulas

...

269

16 May 2025

ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks

Feiran You

Hongyang Du

OffRL LRM

239

16 May 2025

ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations

Jiahui Zhang

Yusen Luo

Abrar Anwar

Sumedh Anand Sontakke

426

16 May 2025

Zero-Shot Visual Generalization in Robot Manipulation

Sumeet Batra

Gaurav Sukhatme

231

16 May 2025

Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition

304

16 May 2025

Bi-Level Policy Optimization with Nyström Hypergradients

244

16 May 2025

Reasoning with OmniThought: A Large CoT Dataset with Verbosity and Cognitive Difficulty Annotations

162

16 May 2025

Certifying Stability of Reinforcement Learning Policies using Generalized Lyapunov Functions

Kehan Long

Jorge Cortés

Nikolay Atanasov

447

16 May 2025

Accelerating Visual-Policy Learning through Parallel Differentiable Simulation

Haoxiang You

Yilang Liu

Ian Abraham

399

15 May 2025

Knowledge capture, adaptation and composition (KCAC): A framework for cross-task curriculum learning in robotic manipulation

Xinrui Wang

Yan Jin

342

15 May 2025

Modular Robot Control with Motor Primitives

Moses C. Nah

Johannes Lachner

Neville Hogan

325

15 May 2025

Approximated Behavioral Metric-based State Projection for Federated Reinforcement LearningInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

257

15 May 2025

Preserving Plasticity in Continual Learning with Adaptive Linearity Injection

Seyed Roozbeh Razavi Rohani

213

14 May 2025

General Dynamic Goal Recognition using Goal-Conditioned and Meta Reinforcement Learning

Osher Elhadad

Reuth Mirsky

AI4CE

183

14 May 2025

Learning Like Humans: Advancing LLM Reasoning Capabilities via Adaptive Difficulty Curriculum Learning and Expert-Guided Self-Reformulation

346

13 May 2025

Continuous World Coverage Path Planning for Fixed-Wing UAVs using Deep Reinforcement Learning

Mirco Theile

Andres R. Zapata Rodriguez

Marco Caccamo

Alberto L. Sangiovanni-Vincentelli

257

13 May 2025

Modeling Unseen Environments with Language-guided Composable Causal Components in Reinforcement LearningInternational Conference on Learning Representations (ICLR), 2025

Xinyue Wang

Zhen Zhang

OffRL CML

252

13 May 2025

Adaptive Diffusion Policy Optimization for Robotic Manipulation

Huiyun Jiang

Zhuang Yang

334

13 May 2025

LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation

539

13 May 2025

Generalization in Monitored Markov Decision Processes (Mon-MDPs)

Montaser Mohammedalamen

Michael Bowling

299

13 May 2025

Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models

712

12 May 2025

Drive Fast, Learn Faster: On-Board RL for High Performance Autonomous Racing

242

12 May 2025

Combining Bayesian Inference and Reinforcement Learning for Agent Decision Making: A Review

431

12 May 2025

Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains

227

12 May 2025

A Reinforcement Learning Framework for Application-Specific TCP Congestion-Control

Jinming Xing

Muhammad Shahzad

225

11 May 2025

TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with DemonstrationsIEEE International Conference on Robotics and Automation (ICRA), 2025

271

09 May 2025

Apple: Toward General Active Perception via Reinforcement Learning

Tim Schneider

Cristiana de Farias

Roberto Calandra

Lawrence Yunliang Chen

Jan Peters

1.0K

09 May 2025

DAPPER: Discriminability-Aware Policy-to-Policy Preference-Based Reinforcement Learning for Query-Efficient Robot Skill Acquisition

201

09 May 2025

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

...

238

08 May 2025

A critical assessment of reinforcement learning methods for microswimmer navigation in complex flows

Selim Mecanna

Aurore Loisy

Christophe Eloy

253

08 May 2025

Taming OOD Actions for Offline Reinforcement Learning: An Advantage-Based Approach

489

08 May 2025

A Two-Timescale Primal-Dual Framework for Reinforcement Learning via Online Dual Variable Guidance

Axel Friedrich Wolter

Tobias Sutter

OffRL

244

07 May 2025

Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation

Abdulaziz Almuzairee

Rohan Patil

Dwait Bhatt

Henrik I. Christensen

374

07 May 2025

Optimization of Infectious Disease Intervention Measures Based on Reinforcement Learning - Empirical analysis based on UK COVID-19 epidemic data

467

07 May 2025

Joint Resource Management for Energy-efficient UAV-assisted SWIPT-MEC: A Deep Reinforcement Learning ApproachIEEE Internet of Things Journal (IEEE IoT J.), 2025

506

06 May 2025

Policy-labeled Preference Learning: Is Preference Enough for RLHF?

435

06 May 2025

Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems

Matthew Sgambati

Aleksandar Vakanski

Matthew Anderson

156

06 May 2025

Zero-shot Sim2Real Transfer for Magnet-Based Tactile Sensor on Insertion Tasks

Beining Han

Abhishek Joshi

Gaowen Liu

379

05 May 2025