OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

Shubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman

2024-02-15Math Math Word Problem Solving GSM8K Arithmetic Reasoning

Abstract

Recent work has shown the immense potential of synthetically generated datasets for training large language models (LLMs), especially for acquiring targeted skills. Current large-scale math instruction tuning datasets such as MetaMathQA (Yu et al., 2024) and MAmmoTH (Yue et al., 2024) are constructed using outputs from closed-source LLMs with commercially restrictive licenses. A key reason limiting the use of open-source LLMs in these data generation pipelines has been the wide gap between the mathematical skills of the best closed-source LLMs, such as GPT-4, and the best open-source LLMs. Building on the recent progress in open-source LLMs, our proposed prompting novelty, and some brute-force scaling, we construct OpenMathInstruct-1, a math instruction tuning dataset with 1.8M problem-solution pairs. The dataset is constructed by synthesizing code-interpreter solutions for GSM8K and MATH, two popular math reasoning benchmarks, using the recently released and permissively licensed Mixtral model. Our best model, OpenMath-CodeLlama-70B, trained on a subset of OpenMathInstruct-1, achieves a score of 84.6% on GSM8K and 50.7% on MATH, which is competitive with the best gpt-distilled models. We release our code, models, and the OpenMathInstruct-1 dataset under a commercially permissive license.

Results

Task	Dataset	Metric	Value	Model
Question Answering	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Question Answering	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Question Answering	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Question Answering	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Question Answering	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Question Answering	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Question Answering	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Math Word Problem Solving	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Math Word Problem Solving	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Math Word Problem Solving	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Math Word Problem Solving	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Mathematical Question Answering	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Mathematical Question Answering	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Mathematical Question Answering	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Mathematical Question Answering	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Mathematical Reasoning	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Mathematical Reasoning	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Mathematical Reasoning	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Mathematical Reasoning	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	90.8	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	90.1	OpenMath-Llama2-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	88	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	86.9	OpenMath-Mistral-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	86.8	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	84.8	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	84.7	OpenMath-Llama2-70B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-Llama2-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	84.6	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	80.7	OpenMath-CodeLlama-34B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	34	OpenMath-CodeLlama-34B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	80.2	OpenMath-Mistral-7B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-Mistral-7B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	78.8	OpenMath-CodeLlama-13B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	OpenMath-CodeLlama-13B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	75.9	OpenMath-CodeLlama-7B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-CodeLlama-7B (w/ code)

Abstract

Results

Task	Dataset	Metric	Value	Model
Question Answering	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Question Answering	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Question Answering	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Question Answering	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Question Answering	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Question Answering	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Question Answering	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Question Answering	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Question Answering	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Math Word Problem Solving	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Math Word Problem Solving	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Math Word Problem Solving	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Math Word Problem Solving	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Math Word Problem Solving	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Math Word Problem Solving	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Math Word Problem Solving	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Math Word Problem Solving	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Question Answering	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Mathematical Question Answering	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Mathematical Question Answering	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Mathematical Question Answering	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Mathematical Question Answering	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Mathematical Question Answering	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Mathematical Question Answering	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Question Answering	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	60.4	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	60.2	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	58.3	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	57.6	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	57.2	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	55.6	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Mathematical Reasoning	MATH	Accuracy	50.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	48.3	OpenMath-CodeLlama-34B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	34	OpenMath-CodeLlama-34B (w/ code)
Mathematical Reasoning	MATH	Accuracy	46.3	OpenMath-Llama2-70B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	70	OpenMath-Llama2-70B (w/ code)
Mathematical Reasoning	MATH	Accuracy	45.5	OpenMath-CodeLlama-13B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	13	OpenMath-CodeLlama-13B (w/ code)
Mathematical Reasoning	MATH	Accuracy	44.5	OpenMath-Mistral-7B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-Mistral-7B (w/ code)
Mathematical Reasoning	MATH	Accuracy	43.6	OpenMath-CodeLlama-7B (w/ code)
Mathematical Reasoning	MATH	Parameters (Billions)	7	OpenMath-CodeLlama-7B (w/ code)
Mathematical Reasoning	MAWPS	Accuracy (%)	95.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	ASDiv-A	Execution Accuracy	84.7	OpenMath-CodeLlama-70B (w/ code)
Mathematical Reasoning	SVAMP	Execution Accuracy	87.8	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	90.8	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-CodeLlama-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	90.1	OpenMath-Llama2-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-Llama2-70B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	88	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	34	OpenMath-CodeLlama-34B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	86.9	OpenMath-Mistral-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-Mistral-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	86.8	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	OpenMath-CodeLlama-13B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	84.8	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-CodeLlama-7B (w/ code, SC, k=50)
Arithmetic Reasoning	GSM8K	Accuracy	84.7	OpenMath-Llama2-70B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-Llama2-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	84.6	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	70	OpenMath-CodeLlama-70B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	80.7	OpenMath-CodeLlama-34B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	34	OpenMath-CodeLlama-34B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	80.2	OpenMath-Mistral-7B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-Mistral-7B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	78.8	OpenMath-CodeLlama-13B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	13	OpenMath-CodeLlama-13B (w/ code)
Arithmetic Reasoning	GSM8K	Accuracy	75.9	OpenMath-CodeLlama-7B (w/ code)
Arithmetic Reasoning	GSM8K	Parameters (Billion)	7	OpenMath-CodeLlama-7B (w/ code)

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

Abstract

Results

Related Papers

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

Abstract

Results

Related Papers