Long-Context Understanding on MMNeedle

Metric: 1 Image, 8*8 Stitching, Exact Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	1 Image, 8*8 Stitching, Exact Accuracy▼	Extra Data	Paper	Date↕	Code
1	Gemini Pro 1.5	29.81	No	Gemini 1.5: Unlocking multimodal understanding a...	2024-03-08	Code
2	GPT-4o	19	No	GPT-4 Technical Report	2023-03-15	Code
3	GPT-4V	7.3	No	GPT-4 Technical Report	2023-03-15	Code
4	LLaVA-Llama-3	3.3	No	LLaVA-UHD: an LMM Perceiving Any Aspect Ratio an...	2024-03-18	Code
5	InstructBLIP-Flan-T5-XXL	2.2	No	InstructBLIP: Towards General-purpose Vision-Lan...	2023-05-11	Code
6	Gemini Pro 1.0	2.11	No	Gemini: A Family of Highly Capable Multimodal Mo...	2023-12-19	Code
7	Claude 3 Opus	1.6	No	-	-	-
8	IDEFICS2-8B	0.9	No	What matters when building vision-language models?	2024-05-03	-
9	mPLUG-Owl-v2	0.7	No	mPLUG-Owl2: Revolutionizing Multi-modal Large La...	2023-11-07	Code
10	CogVLM-17B	0.3	No	CogVLM: Visual Expert for Pretrained Language Mo...	2023-11-06	Code
11	CogVLM2-Llama-3	0.1	No	CogVLM: Visual Expert for Pretrained Language Mo...	2023-11-06	Code
12	InstructBLIP-Vicuna-13B	0	No	-	-	Code

#1Gemini Pro 1.5SOTA
29.81
1 Image, 8*8 Stitching, Exact Accuracy· 2024-03-08
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context Code
#2GPT-4oSOTA
19
1 Image, 8*8 Stitching, Exact Accuracy· 2023-03-15
GPT-4 Technical Report Code
#3GPT-4V
7.3
1 Image, 8*8 Stitching, Exact Accuracy· 2023-03-15
GPT-4 Technical Report Code
#4LLaVA-Llama-3
3.3
1 Image, 8*8 Stitching, Exact Accuracy· 2024-03-18
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images Code
#5InstructBLIP-Flan-T5-XXL
2.2
1 Image, 8*8 Stitching, Exact Accuracy· 2023-05-11
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Code
#6Gemini Pro 1.0
2.11
1 Image, 8*8 Stitching, Exact Accuracy· 2023-12-19
Gemini: A Family of Highly Capable Multimodal Models Code
#7Claude 3 Opus
1.6
1 Image, 8*8 Stitching, Exact Accuracy
No paper
#8IDEFICS2-8B
0.9
1 Image, 8*8 Stitching, Exact Accuracy· 2024-05-03
What matters when building vision-language models?
#9mPLUG-Owl-v2
0.7
1 Image, 8*8 Stitching, Exact Accuracy· 2023-11-07
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Code
#10CogVLM-17B
0.3
1 Image, 8*8 Stitching, Exact Accuracy· 2023-11-06
CogVLM: Visual Expert for Pretrained Language Models Code
#11CogVLM2-Llama-3
0.1
1 Image, 8*8 Stitching, Exact Accuracy· 2023-11-06
CogVLM: Visual Expert for Pretrained Language Models Code
#12InstructBLIP-Vicuna-13B
0
1 Image, 8*8 Stitching, Exact Accuracy
No paperCode