OpenAI Gym on Ant-v4

Metric: Average Return (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Average Return▼	Extra Data	Paper	Date↕	Code
1	MEow	6586.33	No	Maximum Entropy Reinforcement Learning via Energ...	2024-05-22	Code
2	TD3	5942.55	No	Addressing Function Approximation Error in Actor...	2018-02-26	Code
3	SAC	5208.09	No	Soft Actor-Critic: Off-Policy Maximum Entropy De...	2018-01-04	Code
4	DDPG	1712.12	No	Continuous control with deep reinforcement learn...	2015-09-09	Code
5	PPO	608.97	No	Proximal Policy Optimization Algorithms	2017-07-20	Code

#1MEowSOTA
6586.33
Average Return· 2024-05-22
Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow Code
#2TD3SOTA
5942.55
Average Return· 2018-02-26
Addressing Function Approximation Error in Actor-Critic Methods Code
#3SACSOTA
5208.09
Average Return· 2018-01-04
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor Code
#4DDPGSOTA
1712.12
Average Return· 2015-09-09
Continuous control with deep reinforcement learning Code
#5PPO
608.97
Average Return· 2017-07-20
Proximal Policy Optimization Algorithms Code