Visual Question Answering (VQA) on InfiMM-Eval

Metric: Analogical (higher is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Analogical▼	Extra Data	Paper	Date↕	Code
1	GPT-4V	69.86	No	GPT-4 Technical Report	2023-03-15	Code
2	Qwen-VL-Chat	30.42	No	Qwen-VL: A Versatile Vision-Language Model for U...	2023-08-24	Code
3	CogVLM-Chat	28.75	No	CogVLM: Visual Expert for Pretrained Language Mo...	2023-11-06	Code
4	LLaVA-1.5	24.31	No	Improved Baselines with Visual Instruction Tuning	2023-10-05	Code
5	LLaMA-Adapter V2	22.08	No	LLaMA-Adapter V2: Parameter-Efficient Visual Ins...	2023-04-28	Code
6	SPHINX v2	20.69	No	SPHINX: The Joint Mixing of Weights, Tasks, and ...	2023-11-13	Code
7	InstructBLIP	20.56	No	InstructBLIP: Towards General-purpose Vision-Lan...	2023-05-11	Code
8	InternLM-XComposer-VL	18.61	No	InternLM-XComposer: A Vision-Language Large Mode...	2023-09-26	Code
9	Emu	18.19	No	Emu: Generative Pretraining in Multimodality	2023-07-11	Code
10	Otter	13.33	No	Otter: A Multi-Modal Model with In-Context Instr...	2023-05-05	Code
11	mPLUG-Owl2	7.64	No	mPLUG-Owl2: Revolutionizing Multi-modal Large La...	2023-11-07	Code
12	BLIP-2-OPT2.7B	7.5	No	BLIP-2: Bootstrapping Language-Image Pre-trainin...	2023-01-30	Code
13	MiniGPT-v2	5.69	No	MiniGPT-4: Enhancing Vision-Language Understandi...	2023-04-20	Code
14	OpenFlamingo-v2	1.11	No	OpenFlamingo: An Open-Source Framework for Train...	2023-08-02	Code

#1GPT-4VSOTA
69.86
Analogical· 2023-03-15
GPT-4 Technical Report Code
#2Qwen-VL-Chat
30.42
Analogical· 2023-08-24
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond Code
#3CogVLM-Chat
28.75
Analogical· 2023-11-06
CogVLM: Visual Expert for Pretrained Language Models Code
#4LLaVA-1.5
24.31
Analogical· 2023-10-05
Improved Baselines with Visual Instruction Tuning Code
#5LLaMA-Adapter V2
22.08
Analogical· 2023-04-28
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model Code
#6SPHINX v2
20.69
Analogical· 2023-11-13
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models Code
#7InstructBLIP
20.56
Analogical· 2023-05-11
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Code
#8InternLM-XComposer-VL
18.61
Analogical· 2023-09-26
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Code
#9Emu
18.19
Analogical· 2023-07-11
Emu: Generative Pretraining in Multimodality Code
#10Otter
13.33
Analogical· 2023-05-05
Otter: A Multi-Modal Model with In-Context Instruction Tuning Code
#11mPLUG-Owl2
7.64
Analogical· 2023-11-07
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration Code
#12BLIP-2-OPT2.7BSOTA
7.5
Analogical· 2023-01-30
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Code
#13MiniGPT-v2
5.69
Analogical· 2023-04-20
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Code
#14OpenFlamingo-v2
1.11
Analogical· 2023-08-02
OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models Code