Smaller World Models for Reinforcement Learning

Jan Robine, Tobias Uelwer, Stefan Harmeling

2020-10-12Reinforcement Learning Atari Games reinforcement-learning

Abstract

Sample efficiency remains a fundamental issue of reinforcement learning. Model-based algorithms try to make better use of data by simulating the environment with a model. We propose a new neural network architecture for world models based on a vector quantized-variational autoencoder (VQ-VAE) to encode observations and a convolutional LSTM to predict the next embedding indices. A model-free PPO agent is trained purely on simulated experience from the world model. We adopt the setup introduced by Kaiser et al. (2020), which only allows 100K interactions with the real environment. We apply our method on 36 Atari environments and show that we reach comparable performance to their SimPLe algorithm, while our model is significantly smaller.

Results

Task	Dataset	Metric	Value	Model
Atari Games	Atari 2600 Freeway	Score	29	Discrete Latent Space World Model (VQ-VAE)
Atari Games	Atari 2600 Pong	Score	20.2	Discrete Latent Space World Model (VQ-VAE)
Atari Games	Atari 2600 Breakout	Score	11.6	Discrete Latent Space World Model (VQ-VAE)
Atari Games	Atari 2600 Crazy Climber	Score	59609.4	Discrete Latent Space World Model (VQ-VAE)
Atari Games	Atari 2600 Seaquest	Score	635	Discrete Latent Space World Model (VQ-VAE)
Atari Games	Atari 2600 Bank Heist	Score	121.6	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Freeway	Score	29	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Pong	Score	20.2	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Breakout	Score	11.6	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Crazy Climber	Score	59609.4	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Seaquest	Score	635	Discrete Latent Space World Model (VQ-VAE)
Video Games	Atari 2600 Bank Heist	Score	121.6	Discrete Latent Space World Model (VQ-VAE)

Smaller World Models for Reinforcement Learning

Abstract

Results

Related Papers

Smaller World Models for Reinforcement Learning

Abstract

Results

Related Papers