Learning and Planning in Complex Action Spaces

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver

2021-04-13Game of Go Continuous Control

Abstract

Many important real-world problems have action spaces that are high-dimensional, continuous or both, making full enumeration of all possible actions infeasible. Instead, only small subsets of actions can be sampled for the purpose of policy evaluation and improvement. In this paper, we propose a general framework to reason in a principled way about policy evaluation and improvement over such sampled action subsets. This sample-based policy iteration framework can in principle be applied to any reinforcement learning algorithm based upon policy iteration. Concretely, we propose Sampled MuZero, an extension of the MuZero algorithm that is able to learn in domains with arbitrarily complex action spaces by planning over sampled actions. We demonstrate this approach on the classical board game of Go and on two continuous control benchmark domains: DeepMind Control Suite and Real-World RL Suite.

Results

Task	Dataset	Metric	Value	Model
Continuous Control	walker.walk	Return	975.46	SMuZero
Continuous Control	walker.stand	Return	987.79	SMuZero
Continuous Control	hopper.hop	Return	528.24	SMuZero
Continuous Control	hopper.stand	Return	926.5	SMuZero
Continuous Control	walker.run	Return	931.06	SMuZero
Continuous Control	cheetah.run	Return	914.39	SMuZero
Continuous Control	cartpole.balance_sparse	Return	998.14	SMuZero
Continuous Control	cartpole.swingup	Return	868.87	SMuZero
Continuous Control	quadruped.walk	Return	933.77	SMuZero
Continuous Control	ball_in_cup.catch	Return	977.38	SMuZero
Continuous Control	reacher.easy	Return	982.26	SMuZero
Continuous Control	reacher.hard	Return	971.53	SMuZero
Continuous Control	finger.turn_hard	Return	963.07	SMuZero
Continuous Control	quadruped.run	Return	923.54	SMuZero
Continuous Control	pendulum.swingup	Return	837.76	SMuZero
Continuous Control	cartpole.swingup_sparse	Return	846.91	SMuZero
Continuous Control	finger.turn_easy	Return	972.53	SMuZero
Continuous Control	finger.spin	Return	986.38	SMuZero
Continuous Control	cartpole.balance	Return	984.86	SMuZero
Continuous Control	acrobot.swingup	Return	417.52	SMuZero
3D	walker.walk	Return	975.46	SMuZero
3D	walker.stand	Return	987.79	SMuZero
3D	hopper.hop	Return	528.24	SMuZero
3D	hopper.stand	Return	926.5	SMuZero
3D	walker.run	Return	931.06	SMuZero
3D	cheetah.run	Return	914.39	SMuZero
3D	cartpole.balance_sparse	Return	998.14	SMuZero
3D	cartpole.swingup	Return	868.87	SMuZero
3D	quadruped.walk	Return	933.77	SMuZero
3D	ball_in_cup.catch	Return	977.38	SMuZero
3D	reacher.easy	Return	982.26	SMuZero
3D	reacher.hard	Return	971.53	SMuZero
3D	finger.turn_hard	Return	963.07	SMuZero
3D	quadruped.run	Return	923.54	SMuZero
3D	pendulum.swingup	Return	837.76	SMuZero
3D	cartpole.swingup_sparse	Return	846.91	SMuZero
3D	finger.turn_easy	Return	972.53	SMuZero
3D	finger.spin	Return	986.38	SMuZero
3D	cartpole.balance	Return	984.86	SMuZero
3D	acrobot.swingup	Return	417.52	SMuZero
3D Face Modelling	walker.walk	Return	975.46	SMuZero
3D Face Modelling	walker.stand	Return	987.79	SMuZero
3D Face Modelling	hopper.hop	Return	528.24	SMuZero
3D Face Modelling	hopper.stand	Return	926.5	SMuZero
3D Face Modelling	walker.run	Return	931.06	SMuZero
3D Face Modelling	cheetah.run	Return	914.39	SMuZero
3D Face Modelling	cartpole.balance_sparse	Return	998.14	SMuZero
3D Face Modelling	cartpole.swingup	Return	868.87	SMuZero
3D Face Modelling	quadruped.walk	Return	933.77	SMuZero
3D Face Modelling	ball_in_cup.catch	Return	977.38	SMuZero
3D Face Modelling	reacher.easy	Return	982.26	SMuZero
3D Face Modelling	reacher.hard	Return	971.53	SMuZero
3D Face Modelling	finger.turn_hard	Return	963.07	SMuZero
3D Face Modelling	quadruped.run	Return	923.54	SMuZero
3D Face Modelling	pendulum.swingup	Return	837.76	SMuZero
3D Face Modelling	cartpole.swingup_sparse	Return	846.91	SMuZero
3D Face Modelling	finger.turn_easy	Return	972.53	SMuZero
3D Face Modelling	finger.spin	Return	986.38	SMuZero
3D Face Modelling	cartpole.balance	Return	984.86	SMuZero
3D Face Modelling	acrobot.swingup	Return	417.52	SMuZero

Learning and Planning in Complex Action Spaces

Abstract

Results

Related Papers

Learning and Planning in Complex Action Spaces

Abstract

Results

Related Papers