DFAC Framework: Factorizing the Value Function via Quantile Mixture for Multi-Agent Distributional Q-Learning

Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee

2021-02-16SMAC+Multi-agent Reinforcement Learning Starcraft Q-Learning SMAC

Abstract

In fully cooperative multi-agent reinforcement learning (MARL) settings, the environments are highly stochastic due to the partial observability of each agent and the continuously changing policies of the other agents. To address the above issues, we integrate distributional RL and value function factorization methods by proposing a Distributional Value Function Factorization (DFAC) framework to generalize expected value function factorization methods to their DFAC variants. DFAC extends the individual utility functions from deterministic variables to random variables, and models the quantile function of the total return as a quantile mixture. To validate DFAC, we demonstrate DFAC's ability to factorize a simple two-step matrix game with stochastic rewards and perform experiments on all Super Hard tasks of StarCraft Multi-Agent Challenge, showing that DFAC is able to outperform expected value function factorization baselines.

Results

Task	Dataset	Metric	Value	Model
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	20.94	DDN
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	94.03	DDN
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	19.7	DMIX
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	91.08	DMIX
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	19.75	VDN
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	89.2	VDN
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	20.16	QMIX
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	67.22	QMIX
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	17.52	DIQL
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	62.22	DIQL
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Average Score	16.54	IQL
Multi-agent Reinforcement Learning	SMAC 3s5z_vs_3s6z	Median Win Rate	29.83	IQL
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	20	DDN
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	95.4	DDN
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	19.68	DIQL
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	91.62	DIQL
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	19.66	DMIX
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	90.45	DMIX
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	19.47	VDN
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	85.34	VDN
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	19.42	IQL
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	84.87	IQL
Multi-agent Reinforcement Learning	SMAC corridor	Average Score	15.07	QMIX
Multi-agent Reinforcement Learning	SMAC corridor	Median Win Rate	37.61	QMIX
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	20.9	DDN
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	97.22	DDN
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	19.87	DMIX
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	95.11	DMIX
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	19.42	QMIX
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	92.44	QMIX
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	19.36	VDN
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	89.2	VDN
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	19.21	DIQL
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	85.23	DIQL
Multi-agent Reinforcement Learning	SMAC MMM2	Average Score	17.5	IQL
Multi-agent Reinforcement Learning	SMAC MMM2	Median Win Rate	68.92	IQL
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	19.4	DDN
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Median Win Rate	83.92	DDN
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	17.14	DMIX
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Median Win Rate	49.43	DMIX
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	14.37	QMIX
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Median Win Rate	12.78	QMIX
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	15.41	VDN
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	14.94	DIQL
Multi-agent Reinforcement Learning	SMAC 6h_vs_8z	Average Score	13.78	IQL
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	19.71	DDN
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	91.48	DDN
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	19.43	DMIX
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	85.45	DMIX
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	19.41	QMIX
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	84.77	QMIX
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	18.45	VDN
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	63.12	VDN
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	14.45	DIQL
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	6.02	DIQL
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Average Score	14.01	IQL
Multi-agent Reinforcement Learning	SMAC 27m_vs_30m	Median Win Rate	2.27	IQL
Multi-agent Reinforcement Learning	Def_Armored_parallel	Median Win Rate	90	DMIX
Multi-agent Reinforcement Learning	Def_Infantry_parallel	Median Win Rate	90	DMIX
Multi-agent Reinforcement Learning	Def_Infantry_parallel	Median Win Rate	20	DDN
Multi-agent Reinforcement Learning	Def_Outnumbered_parallel	Median Win Rate	5	DMIX
Multi-agent Reinforcement Learning	Def_Armored_sequential	Median Win Rate	81.3	DMIX
Multi-agent Reinforcement Learning	Def_Armored_sequential	Median Win Rate	71.9	DDN
Multi-agent Reinforcement Learning	Def_Armored_sequential	Median Win Rate	53.1	DIQL
Multi-agent Reinforcement Learning	Def_Infantry_sequential	Median Win Rate	100	DMIX
Multi-agent Reinforcement Learning	Def_Infantry_sequential	Median Win Rate	93.8	DIQL
Multi-agent Reinforcement Learning	Def_Infantry_sequential	Median Win Rate	90.6	DDN
SMAC	SMAC 3s5z_vs_3s6z	Average Score	20.94	DDN
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	94.03	DDN
SMAC	SMAC 3s5z_vs_3s6z	Average Score	19.7	DMIX
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	91.08	DMIX
SMAC	SMAC 3s5z_vs_3s6z	Average Score	19.75	VDN
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	89.2	VDN
SMAC	SMAC 3s5z_vs_3s6z	Average Score	20.16	QMIX
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	67.22	QMIX
SMAC	SMAC 3s5z_vs_3s6z	Average Score	17.52	DIQL
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	62.22	DIQL
SMAC	SMAC 3s5z_vs_3s6z	Average Score	16.54	IQL
SMAC	SMAC 3s5z_vs_3s6z	Median Win Rate	29.83	IQL
SMAC	SMAC corridor	Average Score	20	DDN
SMAC	SMAC corridor	Median Win Rate	95.4	DDN
SMAC	SMAC corridor	Average Score	19.68	DIQL
SMAC	SMAC corridor	Median Win Rate	91.62	DIQL
SMAC	SMAC corridor	Average Score	19.66	DMIX
SMAC	SMAC corridor	Median Win Rate	90.45	DMIX
SMAC	SMAC corridor	Average Score	19.47	VDN
SMAC	SMAC corridor	Median Win Rate	85.34	VDN
SMAC	SMAC corridor	Average Score	19.42	IQL
SMAC	SMAC corridor	Median Win Rate	84.87	IQL
SMAC	SMAC corridor	Average Score	15.07	QMIX
SMAC	SMAC corridor	Median Win Rate	37.61	QMIX
SMAC	SMAC MMM2	Average Score	20.9	DDN
SMAC	SMAC MMM2	Median Win Rate	97.22	DDN
SMAC	SMAC MMM2	Average Score	19.87	DMIX
SMAC	SMAC MMM2	Median Win Rate	95.11	DMIX
SMAC	SMAC MMM2	Average Score	19.42	QMIX
SMAC	SMAC MMM2	Median Win Rate	92.44	QMIX
SMAC	SMAC MMM2	Average Score	19.36	VDN
SMAC	SMAC MMM2	Median Win Rate	89.2	VDN
SMAC	SMAC MMM2	Average Score	19.21	DIQL
SMAC	SMAC MMM2	Median Win Rate	85.23	DIQL
SMAC	SMAC MMM2	Average Score	17.5	IQL
SMAC	SMAC MMM2	Median Win Rate	68.92	IQL
SMAC	SMAC 6h_vs_8z	Average Score	19.4	DDN
SMAC	SMAC 6h_vs_8z	Median Win Rate	83.92	DDN
SMAC	SMAC 6h_vs_8z	Average Score	17.14	DMIX
SMAC	SMAC 6h_vs_8z	Median Win Rate	49.43	DMIX
SMAC	SMAC 6h_vs_8z	Average Score	14.37	QMIX
SMAC	SMAC 6h_vs_8z	Median Win Rate	12.78	QMIX
SMAC	SMAC 6h_vs_8z	Average Score	15.41	VDN
SMAC	SMAC 6h_vs_8z	Average Score	14.94	DIQL
SMAC	SMAC 6h_vs_8z	Average Score	13.78	IQL
SMAC	SMAC 27m_vs_30m	Average Score	19.71	DDN
SMAC	SMAC 27m_vs_30m	Median Win Rate	91.48	DDN
SMAC	SMAC 27m_vs_30m	Average Score	19.43	DMIX
SMAC	SMAC 27m_vs_30m	Median Win Rate	85.45	DMIX
SMAC	SMAC 27m_vs_30m	Average Score	19.41	QMIX
SMAC	SMAC 27m_vs_30m	Median Win Rate	84.77	QMIX
SMAC	SMAC 27m_vs_30m	Average Score	18.45	VDN
SMAC	SMAC 27m_vs_30m	Median Win Rate	63.12	VDN
SMAC	SMAC 27m_vs_30m	Average Score	14.45	DIQL
SMAC	SMAC 27m_vs_30m	Median Win Rate	6.02	DIQL
SMAC	SMAC 27m_vs_30m	Average Score	14.01	IQL
SMAC	SMAC 27m_vs_30m	Median Win Rate	2.27	IQL
SMAC	Def_Armored_parallel	Median Win Rate	90	DMIX
SMAC	Def_Infantry_parallel	Median Win Rate	90	DMIX
SMAC	Def_Infantry_parallel	Median Win Rate	20	DDN
SMAC	Def_Outnumbered_parallel	Median Win Rate	5	DMIX
SMAC	Def_Armored_sequential	Median Win Rate	81.3	DMIX
SMAC	Def_Armored_sequential	Median Win Rate	71.9	DDN
SMAC	Def_Armored_sequential	Median Win Rate	53.1	DIQL
SMAC	Def_Infantry_sequential	Median Win Rate	100	DMIX
SMAC	Def_Infantry_sequential	Median Win Rate	93.8	DIQL
SMAC	Def_Infantry_sequential	Median Win Rate	90.6	DDN

DFAC Framework: Factorizing the Value Function via Quantile Mixture for Multi-Agent Distributional Q-Learning

Abstract

Results

Related Papers

DFAC Framework: Factorizing the Value Function via Quantile Mixture for Multi-Agent Distributional Q-Learning

Abstract

Results

Related Papers