EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

Yinzhu Quan, Zefang Liu

2024-05-13Question Answering Sentence Ordering Management Multiple Choice Question Answering (MCQA)

Abstract

In this paper, we introduce EconLogicQA, a rigorous benchmark designed to assess the sequential reasoning capabilities of large language models (LLMs) within the intricate realms of economics, business, and supply chain management. Diverging from traditional benchmarks that predict subsequent events individually, EconLogicQA poses a more challenging task: it requires models to discern and sequence multiple interconnected events, capturing the complexity of economic logics. EconLogicQA comprises an array of multi-event scenarios derived from economic articles, which necessitate an insightful understanding of both temporal and logical event relationships. Through comprehensive evaluations, we exhibit that EconLogicQA effectively gauges a LLM's proficiency in navigating the sequential complexities inherent in economic contexts. We provide a detailed description of EconLogicQA dataset and shows the outcomes from evaluating the benchmark across various leading-edge LLMs, thereby offering a thorough perspective on their sequential reasoning potential in economic contexts. Our benchmark dataset is available at https://huggingface.co/datasets/yinzhu-quan/econ_logic_qa.

Results

Task	Dataset	Metric	Value	Model
Sentence Ordering	EconLogicQA	Accuracy	0.5692	GPT-4-Turbo
Sentence Ordering	EconLogicQA	Accuracy	0.5538	GPT-4
Sentence Ordering	EconLogicQA	Accuracy	0.3769	GPT-3.5-Turbo
Sentence Ordering	EconLogicQA	Accuracy	0.3462	Llama-3-8B-Instruct
Sentence Ordering	EconLogicQA	Accuracy	0.3154	Mistral-7B-Instruct-v0.2
Sentence Ordering	EconLogicQA	Accuracy	0.2615	Mistral-7B-v0.1
Sentence Ordering	EconLogicQA	Accuracy	0.2615	Mistral-7B-v0.2
Sentence Ordering	EconLogicQA	Accuracy	0.2385	Llama-3-8B
Sentence Ordering	EconLogicQA	Accuracy	0.2308	Zephyr-7B-Alpha
Sentence Ordering	EconLogicQA	Accuracy	0.2077	Yi-6B-Chat
Sentence Ordering	EconLogicQA	Accuracy	0.1769	Zephyr-7B-Beta
Sentence Ordering	EconLogicQA	Accuracy	0.1538	Mistral-7B-Instruct-v0.1
Sentence Ordering	EconLogicQA	Accuracy	0.1462	Llama-2-13B-Chat
Sentence Ordering	EconLogicQA	Accuracy	0.0923	Llama-2-7B-Chat
Sentence Ordering	EconLogicQA	Accuracy	0.0846	Gemma-2B-IT
Sentence Ordering	EconLogicQA	Accuracy	0.0385	Yi-6B
Sentence Ordering	EconLogicQA	Accuracy	0.0231	Gemma-7B-IT
Sentence Ordering	EconLogicQA	Accuracy	0.0077	Llama-2-7B

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

Abstract

Results

Related Papers

EconLogicQA: A Question-Answering Benchmark for Evaluating Large Language Models in Economic Sequential Reasoning

Abstract

Results

Related Papers