Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor | Papers With Code 2

Abstract

A platform for Applied Reinforcement Learning (Applied RL)

Results

Task	Dataset	Metric	Value	Model
OpenAI Gym	Humanoid-v4	Average Return	6211.5	SAC
OpenAI Gym	HalfCheetah-v4	Average Return	15836.04	SAC
OpenAI Gym	Ant-v4	Average Return	5208.09	SAC
OpenAI Gym	Walker2d-v4	Average Return	5745.27	SAC
OpenAI Gym	Hopper-v4	Average Return	2882.56	SAC

Related Papers

CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning2025-07-18 Graph-Structured Data Analysis of Component Failure in Autonomous Cargo Ships Based on Feature Fusion2025-07-18 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning2025-07-17 Spectral Bellman Method: Unifying Representation and Exploration in RL2025-07-17 Aligning Humans and Robots via Reinforcement Learning from Implicit Human Feedback2025-07-17 VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks2025-07-17 QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation2025-07-17 Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities2025-07-17