WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, JianGuang Lou, Chongyang Tao, Xiubo Geng, QIngwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang

2023-08-18Mathematical Reasoning Math Math Word Problem Solving GSM8K Arithmetic Reasoning

Paper PDF Code

Abstract

Large language models (LLMs), such as GPT-4, have shown remarkable performance in natural language processing (NLP) tasks, including challenging mathematical reasoning. However, most existing open-source models are only pre-trained on large-scale internet data and without math-related optimization. In this paper, we present WizardMath, which enhances the mathematical CoT reasoning abilities of LLMs without using external python tools, by applying our proposed Reinforcement Learning from Evol-Instruct Feedback (RLEIF) method to the domain of math. Through extensive experiments on two mathematical reasoning benchmarks, namely GSM8k and MATH, we reveal the extraordinary capabilities of our model. Remarkably, WizardMath-Mistral 7B surpasses top-tier open-source LLMs by a substantial margin with higher data efficiency. Furthermore, WizardMath 70B even outperforms GPT-3.5-Turbo, Claude 2, Gemini Pro and GPT-4-early-version. Additionally, our preliminary exploration highlights the pivotal role of instruction evolution and process supervision in achieving exceptional math performance. For more details refer to https://github.com/nlpxucan/WizardLM

Results

Task	Dataset	Metric	Value	Model
Question Answering	MATH	Accuracy	33	WizardMath-7B-V1.1
Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Question Answering	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Question Answering	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Question Answering	MATH	Accuracy	14	WizardMath-13B-V1.0
Question Answering	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Question Answering	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Math Word Problem Solving	MATH	Accuracy	33	WizardMath-7B-V1.1
Math Word Problem Solving	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Math Word Problem Solving	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Math Word Problem Solving	MATH	Accuracy	14	WizardMath-13B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Math Word Problem Solving	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Mathematical Question Answering	MATH	Accuracy	33	WizardMath-7B-V1.1
Mathematical Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Mathematical Question Answering	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Mathematical Question Answering	MATH	Accuracy	14	WizardMath-13B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Mathematical Question Answering	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Mathematical Reasoning	MATH	Accuracy	33	WizardMath-7B-V1.1
Mathematical Reasoning	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Mathematical Reasoning	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Mathematical Reasoning	MATH	Accuracy	14	WizardMath-13B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Mathematical Reasoning	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	83.2	WizardMath-7B-V1.1
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	WizardMath-7B-V1.1
Arithmetic Reasoning	GSM8K	Accuracy	81.6	WizardMath-70B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	WizardMath-70B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	63.9	WizardMath-13B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	WizardMath-13B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	54.9	WizardMath-7B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	WizardMath-7B-V1.0

Abstract

Results

Task	Dataset	Metric	Value	Model
Question Answering	MATH	Accuracy	33	WizardMath-7B-V1.1
Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Question Answering	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Question Answering	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Question Answering	MATH	Accuracy	14	WizardMath-13B-V1.0
Question Answering	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Question Answering	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Math Word Problem Solving	MATH	Accuracy	33	WizardMath-7B-V1.1
Math Word Problem Solving	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Math Word Problem Solving	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Math Word Problem Solving	MATH	Accuracy	14	WizardMath-13B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Math Word Problem Solving	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Math Word Problem Solving	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Mathematical Question Answering	MATH	Accuracy	33	WizardMath-7B-V1.1
Mathematical Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Mathematical Question Answering	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Mathematical Question Answering	MATH	Accuracy	14	WizardMath-13B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Mathematical Question Answering	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Mathematical Question Answering	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Mathematical Reasoning	MATH	Accuracy	33	WizardMath-7B-V1.1
Mathematical Reasoning	MATH	Parameters (Billions)	7	WizardMath-7B-V1.1
Mathematical Reasoning	MATH	Accuracy	22.7	WizardMath-70B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	70	WizardMath-70B-V1.0
Mathematical Reasoning	MATH	Accuracy	14	WizardMath-13B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	13	WizardMath-13B-V1.0
Mathematical Reasoning	MATH	Accuracy	10.7	WizardMath-7B-V1.0
Mathematical Reasoning	MATH	Parameters (Billions)	7	WizardMath-7B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	83.2	WizardMath-7B-V1.1
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	WizardMath-7B-V1.1
Arithmetic Reasoning	GSM8K	Accuracy	81.6	WizardMath-70B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	WizardMath-70B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	63.9	WizardMath-13B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	WizardMath-13B-V1.0
Arithmetic Reasoning	GSM8K	Accuracy	54.9	WizardMath-7B-V1.0
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	WizardMath-7B-V1.0

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Abstract

Results

Related Papers

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Abstract

Results

Related Papers