Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/POP3D

POP3D

Reported on 105 benchmarks across 3 tasks · 1 paper · 7 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Playing Games98 results

Atari GamesonAtari 2600 Boxing
Score· 2018-07-02
97.23
best: 100 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Double Dunk
Score· 2018-07-02
-7.89
best: 24 (UCT)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Ms. Pacman
Score· 2018-07-02
1683.87
best: 243401.1 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Centipede
Score· 2018-07-02
3315.44
best: 1422628 (Go-Explore)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Tutankham
Score· 2018-07-02
241.21
best: 2354.91 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Freeway
Score· 2018-07-02
21.21
best: 34 (TRPO-hash)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Pong
Score· 2018-07-02
20.5
best: 21 (Duel noop)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Enduro
Score· 2018-07-02
459.85
best: 14330 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Krull
Score· 2018-07-02
7715.68
best: 594540 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Breakout
Score· 2018-07-02
458.41
best: 864 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Frostbite
Score· 2018-07-02
316.87
best: 631378.53 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Gopher
Score· 2018-07-02
6207
best: 488830 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Space Invaders
Score· 2018-07-02
1216.15
best: 154380 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 James Bond
Score· 2018-07-02
358.54
best: 620780 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Amidar
Score· 2018-07-02
729.15
best: 29660.08 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Tennis
Score· 2018-07-02
-8.32
best: 24 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Crazy Climber
Score· 2018-07-02
120247.33
best: 565909.85 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Asteroids
Score· 2018-07-02
2488.1
best: 760005 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Gravitar
Score· 2018-07-02
557.17
best: 19213.96 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Time Pilot
Score· 2018-07-02
3770.33
best: 476763.9 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Demon Attack
Score· 2018-07-02
61147.33
best: 787985 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Battle Zone
Score· 2018-07-02
15466.67
best: 934134.88 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Beam Rider
Score· 2018-07-02
4549
best: 454993.53 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Asterix
Score· 2018-07-02
4310.67
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Kung-Fu Master
Score· 2018-07-02
33728
best: 1666665 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Bowling
Score· 2018-07-02
38.99
best: 260.13 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Kangaroo
Score· 2018-07-02
3891.67
best: 24034.16 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Assault
Score· 2018-07-02
5400.13
best: 143972.03 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Alien
Score· 2018-07-02
1510.8
best: 741812.63 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Fishing Derby
Score· 2018-07-02
28.99
best: 91.16 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Seaquest
Score· 2018-07-02
1807.47
best: 1000000 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Chopper Command
Score· 2018-07-02
6308.33
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Video Pinball
Score· 2018-07-02
37780.7
best: 999383.2 (R2D2)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Wizard of Wor
Score· 2018-07-02
4704
best: 197126 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Zaxxon
Score· 2018-07-02
9472
best: 725853.9 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Robotank
Score· 2018-07-02
4.6
best: 131.13 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Name This Game
Score· 2018-07-02
6065.63
best: 157177.85 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Star Gunner
Score· 2018-07-02
48984
best: 839573.53 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Ice Hockey
Score· 2018-07-02
-4.12
best: 481.9 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Atlantis
Score· 2018-07-02
2193605.67
best: 3837300 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Bank Heist
Score· 2018-07-02
1212.23
best: 27219.8 (MuZero (Res2 Adam))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Venture
Score· 2018-07-02
36.33
best: 2623.71 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Private Eye
Score· 2018-07-02
79.67
best: 95756 (Go-Explore)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Q*Bert
Score· 2018-07-02
15396.67
best: 580328.14 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 River Raid
Score· 2018-07-02
8052.23
best: 323417.18 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Road Runner
Score· 2018-07-02
44679.67
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Up and Down
Score· 2018-07-02
242701.51
best: 986440 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Boxing
Score· 2018-07-02
97.23
best: 100 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Double Dunk
Score· 2018-07-02
-7.89
best: 24 (UCT)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Ms. Pacman
Score· 2018-07-02
1683.87
best: 243401.1 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Centipede
Score· 2018-07-02
3315.44
best: 1422628 (Go-Explore)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Tutankham
Score· 2018-07-02
241.21
best: 2354.91 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Freeway
Score· 2018-07-02
21.21
best: 34 (TRPO-hash)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Pong
Score· 2018-07-02
20.5
best: 21 (Duel noop)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Enduro
Score· 2018-07-02
459.85
best: 14330 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Krull
Score· 2018-07-02
7715.68
best: 594540 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Breakout
Score· 2018-07-02
458.41
best: 864 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Frostbite
Score· 2018-07-02
316.87
best: 631378.53 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Gopher
Score· 2018-07-02
6207
best: 488830 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Space Invaders
Score· 2018-07-02
1216.15
best: 154380 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 James Bond
Score· 2018-07-02
358.54
best: 620780 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Amidar
Score· 2018-07-02
729.15
best: 29660.08 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Tennis
Score· 2018-07-02
-8.32
best: 24 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Crazy Climber
Score· 2018-07-02
120247.33
best: 565909.85 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Asteroids
Score· 2018-07-02
2488.1
best: 760005 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Gravitar
Score· 2018-07-02
557.17
best: 19213.96 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Time Pilot
Score· 2018-07-02
3770.33
best: 476763.9 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Demon Attack
Score· 2018-07-02
61147.33
best: 787985 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Battle Zone
Score· 2018-07-02
15466.67
best: 934134.88 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Beam Rider
Score· 2018-07-02
4549
best: 454993.53 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Asterix
Score· 2018-07-02
4310.67
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Kung-Fu Master
Score· 2018-07-02
33728
best: 1666665 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Bowling
Score· 2018-07-02
38.99
best: 260.13 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Kangaroo
Score· 2018-07-02
3891.67
best: 24034.16 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Assault
Score· 2018-07-02
5400.13
best: 143972.03 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Alien
Score· 2018-07-02
1510.8
best: 741812.63 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Fishing Derby
Score· 2018-07-02
28.99
best: 91.16 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Seaquest
Score· 2018-07-02
1807.47
best: 1000000 (GDI-H3(200M frames))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Chopper Command
Score· 2018-07-02
6308.33
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Video Pinball
Score· 2018-07-02
37780.7
best: 999383.2 (R2D2)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Wizard of Wor
Score· 2018-07-02
4704
best: 197126 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Zaxxon
Score· 2018-07-02
9472
best: 725853.9 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Robotank
Score· 2018-07-02
4.6
best: 131.13 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Name This Game
Score· 2018-07-02
6065.63
best: 157177.85 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Star Gunner
Score· 2018-07-02
48984
best: 839573.53 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Ice Hockey
Score· 2018-07-02
-4.12
best: 481.9 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Atlantis
Score· 2018-07-02
2193605.67
best: 3837300 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Bank Heist
Score· 2018-07-02
1212.23
best: 27219.8 (MuZero (Res2 Adam))
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Venture
Score· 2018-07-02
36.33
best: 2623.71 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Private Eye
Score· 2018-07-02
79.67
best: 95756 (Go-Explore)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Q*Bert
Score· 2018-07-02
15396.67
best: 580328.14 (Agent57)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 River Raid
Score· 2018-07-02
8052.23
best: 323417.18 (MuZero)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Road Runner
Score· 2018-07-02
44679.67
best: 999999 (GDI-H3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Video GamesonAtari 2600 Up and Down
Score· 2018-07-02
242701.51
best: 986440 (GDI-I3)
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
Atari GamesonAtari 2600 Montezuma's Revenge
Score
0
best: 43791 (Go-Explore)
Atari GamesonAtari 2600 Pitfall!
Score
0
best: 102571 (Go-Explore)
Video GamesonAtari 2600 Montezuma's Revenge
Score
0
best: 43791 (Go-Explore)
Video GamesonAtari 2600 Pitfall!
Score
0
best: 102571 (Go-Explore)

Robots7 results

MuJoCo GamesonWalker2d
Mean· 2018-07-02
3966.01
best: 5134 (IQ-Learn)
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonSwimmer
Mean· 2018-07-02
111.08
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonHalfCheetah
Mean· 2018-07-02
3184.54
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonInvertedDoublePendulum
Mean· 2018-07-02
4907.64
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonReacher
Mean· 2018-07-02
-4.29
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonInvertedPendulum
Mean· 2018-07-02
741.94
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442
MuJoCo GamesonHopper
Mean· 2018-07-02
1452.09
SOTA
Policy Optimization With Penalized Point Probability Distance: An Alternative To Proximal Policy Optimization arXiv:1807.00442