Visual Question Answering (VQA) on VLM2-Bench

Metric: OC-cnt (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	OC-cnt▼	Extra Data	Paper	Date↕	Code
1	GPT-4o	80.62	No	GPT-4o System Card	2024-10-25	-
2	mPLUG-Owl3-7B	62.97	No	mPLUG-Owl3: Towards Long Image-Sequence Understa...	2024-08-09	Code
3	LLaVA-Video-7B	62.47	No	Video Instruction Tuning With Synthetic Data	2024-10-03	-
4	LLaVA-OneVision-7B	56.17	No	LLaVA-OneVision: Easy Visual Task Transfer	2024-08-06	Code
5	InternVL2.5-8B	55.23	No	Expanding Performance Boundaries of Open-Source ...	2024-12-06	Code
6	InternVL2.5-26B	51.48	No	Expanding Performance Boundaries of Open-Source ...	2024-12-06	Code
7	Qwen2-VL-7B	45.99	No	Qwen2-VL: Enhancing Vision-Language Model's Perc...	2024-09-18	Code
8	LongVA-7B	42.53	No	Long Context Transfer from Language to Vision	2024-06-24	Code
9	Qwen2.5-VL-7B	41.72	No	Qwen2.5-VL Technical Report	2025-02-19	Code

#1GPT-4oSOTA
80.62
OC-cnt· 2024-10-25
GPT-4o System Card
#2mPLUG-Owl3-7BSOTA
62.97
OC-cnt· 2024-08-09
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models Code
#3LLaVA-Video-7B
62.47
OC-cnt· 2024-10-03
Video Instruction Tuning With Synthetic Data
#4LLaVA-OneVision-7BSOTA
56.17
OC-cnt· 2024-08-06
LLaVA-OneVision: Easy Visual Task Transfer Code
#5InternVL2.5-8B
55.23
OC-cnt· 2024-12-06
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling Code
#6InternVL2.5-26B
51.48
OC-cnt· 2024-12-06
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling Code
#7Qwen2-VL-7B
45.99
OC-cnt· 2024-09-18
Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution Code
#8LongVA-7BSOTA
42.53
OC-cnt· 2024-06-24
Long Context Transfer from Language to Vision Code
#9Qwen2.5-VL-7B
41.72
OC-cnt· 2025-02-19
Qwen2.5-VL Technical Report Code