EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

Samuel J. Paech

2023-12-11Benchmarking Emotional Intelligence MMLU

Abstract

We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com

Results

Task	Dataset	Metric	Value	Model
Emotional Intelligence	EQ-Bench	EQ-Bench Score	62.52	OpenAI gpt-4-0613
Emotional Intelligence	EQ-Bench	EQ-Bench Score	54.83	migtissera/SynthIA-70B-v1.5
Emotional Intelligence	EQ-Bench	EQ-Bench Score	53.39	OpenAI gpt-4-0314
Emotional Intelligence	EQ-Bench	EQ-Bench Score	52.44	Qwen/Qwen-72B-Chat
Emotional Intelligence	EQ-Bench	EQ-Bench Score	52.14	Anthropic Claude2
Emotional Intelligence	EQ-Bench	EQ-Bench Score	51.56	meta-llama/Llama-2-70b-chat-hf
Emotional Intelligence	EQ-Bench	EQ-Bench Score	51.03	01-ai/Yi-34B-Chat
Emotional Intelligence	EQ-Bench	EQ-Bench Score	49.17	OpenAI gpt-3.5-0613
Emotional Intelligence	EQ-Bench	EQ-Bench Score	47.61	OpenAI gpt-3.5-turbo-0301
Emotional Intelligence	EQ-Bench	EQ-Bench Score	44.4	Open-Orca/Mistral-7B-OpenOrca
Emotional Intelligence	EQ-Bench	EQ-Bench Score	43.76	Qwen/Qwen-14B-Chat
Emotional Intelligence	EQ-Bench	EQ-Bench Score	43.73	OpenAI text-davinci-003
Emotional Intelligence	EQ-Bench	EQ-Bench Score	43.61	Intel/neural-chat-7b-v3-1
Emotional Intelligence	EQ-Bench	EQ-Bench Score	39.44	OpenAI text-davinci-002
Emotional Intelligence	EQ-Bench	EQ-Bench Score	37.08	openchat/openchat 3.5
Emotional Intelligence	EQ-Bench	EQ-Bench Score	36.52	lmsys/vicuna-33b-v1.3
Emotional Intelligence	EQ-Bench	EQ-Bench Score	33.02	meta-llama/Llama-2-13b-chat-hf
Emotional Intelligence	EQ-Bench	EQ-Bench Score	32.85	lmsys/vicuna-13b-v1.1
Emotional Intelligence	EQ-Bench	EQ-Bench Score	25.43	meta-llama/Llama-2-7b-chat-hf
Emotional Intelligence	EQ-Bench	EQ-Bench Score	24.92	Koala 13B
Emotional Intelligence	EQ-Bench	EQ-Bench Score	22.24	lmsys/vicuna-7b-v1.1
Emotional Intelligence	EQ-Bench	EQ-Bench Score	15.19	OpenAI text-davinci-001
Emotional Intelligence	EQ-Bench	EQ-Bench Score	2.25	OpenAI ADA
Emotional Intelligence	EQ-Bench	EQ-Bench Score	2.25	OpenAI ADA

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

Abstract

Results

Related Papers

EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

Abstract

Results

Related Papers