Sentence Ordering on EconLogicQA

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	GPT-4-Turbo	0.5692	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
2	GPT-4	0.5538	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
3	GPT-3.5-Turbo	0.3769	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
4	Llama-3-8B-Instruct	0.3462	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
5	Mistral-7B-Instruct-v0.2	0.3154	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
6	Mistral-7B-v0.1	0.2615	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
7	Mistral-7B-v0.2	0.2615	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
8	Llama-3-8B	0.2385	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
9	Zephyr-7B-Alpha	0.2308	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
10	Yi-6B-Chat	0.2077	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
11	Zephyr-7B-Beta	0.1769	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
12	Mistral-7B-Instruct-v0.1	0.1538	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
13	Llama-2-13B-Chat	0.1462	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
14	Llama-2-7B-Chat	0.0923	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
15	Gemma-2B-IT	0.0846	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
16	Yi-6B	0.0385	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
17	Gemma-7B-IT	0.0231	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code
18	Llama-2-7B	0.0077	No	EconLogicQA: A Question-Answering Benchmark for ...	2024-05-13	Code

#1GPT-4-TurboSOTA
0.5692
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#2GPT-4
0.5538
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#3GPT-3.5-Turbo
0.3769
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#4Llama-3-8B-Instruct
0.3462
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#5Mistral-7B-Instruct-v0.2
0.3154
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#6Mistral-7B-v0.1
0.2615
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#7Mistral-7B-v0.2
0.2615
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#8Llama-3-8B
0.2385
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#9Zephyr-7B-Alpha
0.2308
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#10Yi-6B-Chat
0.2077
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#11Zephyr-7B-Beta
0.1769
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#12Mistral-7B-Instruct-v0.1
0.1538
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#13Llama-2-13B-Chat
0.1462
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#14Llama-2-7B-Chat
0.0923
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#15Gemma-2B-IT
0.0846
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#16Yi-6B
0.0385
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#17Gemma-7B-IT
0.0231
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code
#18Llama-2-7B
0.0077
Accuracy· 2024-05-13
EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning Code