CogVLM: Visual Expert for Pretrained Language Models

Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

2023-11-06Long-Context Understanding Visual Question Answering (VQA)1 Image, 2*2 Stitching FS-MEVQA Language Modelling Visual Question Answering Image Retrieval

Paper PDF Code Code(official)Code Code

Abstract

We introduce CogVLM, a powerful open-source visual language foundation model. Different from the popular shallow alignment method which maps image features into the input space of language model, CogVLM bridges the gap between the frozen pretrained language model and image encoder by a trainable visual expert module in the attention and FFN layers. As a result, CogVLM enables deep fusion of vision language features without sacrificing any performance on NLP tasks. CogVLM-17B achieves state-of-the-art performance on 10 classic cross-modal benchmarks, including NoCaps, Flicker30k captioning, RefCOCO, RefCOCO+, RefCOCOg, Visual7W, GQA, ScienceQA, VizWiz VQA and TDIUC, and ranks the 2nd on VQAv2, OKVQA, TextVQA, COCO captioning, etc., surpassing or matching PaLI-X 55B. Codes and checkpoints are available at https://github.com/THUDM/CogVLM.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	InfiMM-Eval	Abductive	47.88	CogVLM-Chat
Visual Question Answering (VQA)	InfiMM-Eval	Analogical	28.75	CogVLM-Chat
Visual Question Answering (VQA)	InfiMM-Eval	Deductive	36.75	CogVLM-Chat
Visual Question Answering (VQA)	InfiMM-Eval	Overall score	37.16	CogVLM-Chat
Visual Question Answering (VQA)	MM-Vet	GPT-4 score	63.9	GLM4 Vision
Visual Question Answering (VQA)	MM-Vet	GPT-4 score	52.8	CogVLM(Vicuna-7B)
Visual Question Answering (VQA)	SME	#Learning Samples (N)	16	GLM-4V
Visual Question Answering (VQA)	SME	ACC	34.23	GLM-4V
Visual Question Answering (VQA)	SME	BLEU-4	14.45	GLM-4V
Visual Question Answering (VQA)	SME	CIDEr	127.37	GLM-4V
Visual Question Answering (VQA)	SME	Detection	0.89	GLM-4V
Visual Question Answering (VQA)	SME	METEOR	17.53	GLM-4V
Visual Question Answering (VQA)	SME	ROUGE-L	24.28	GLM-4V
Visual Question Answering (VQA)	SME	SPICE	17.7	GLM-4V
Visual Question Answering	MM-Vet	GPT-4 score	63.9	GLM4 Vision
Visual Question Answering	MM-Vet	GPT-4 score	52.8	CogVLM(Vicuna-7B)
Visual Question Answering	SME	#Learning Samples (N)	16	GLM-4V
Visual Question Answering	SME	ACC	34.23	GLM-4V
Visual Question Answering	SME	BLEU-4	14.45	GLM-4V
Visual Question Answering	SME	CIDEr	127.37	GLM-4V
Visual Question Answering	SME	Detection	0.89	GLM-4V
Visual Question Answering	SME	METEOR	17.53	GLM-4V
Visual Question Answering	SME	ROUGE-L	24.28	GLM-4V
Visual Question Answering	SME	SPICE	17.7	GLM-4V
Long-Context Understanding	MMNeedle	1 Image, 2*2 Stitching, Exact Accuracy	7.3	CogVLM2-Llama-3
Long-Context Understanding	MMNeedle	1 Image, 4*4 Stitching, Exact Accuracy	0.9	CogVLM2-Llama-3
Long-Context Understanding	MMNeedle	1 Image, 8*8 Stitching, Exact Accuracy	0.1	CogVLM2-Llama-3
Long-Context Understanding	MMNeedle	1 Image, 4*4 Stitching, Exact Accuracy	0.1	CogVLM-17B
Long-Context Understanding	MMNeedle	1 Image, 8*8 Stitching, Exact Accuracy	0.3	CogVLM-17B
Explanatory Visual Question Answering	SME	#Learning Samples (N)	16	GLM-4V
Explanatory Visual Question Answering	SME	ACC	34.23	GLM-4V
Explanatory Visual Question Answering	SME	BLEU-4	14.45	GLM-4V
Explanatory Visual Question Answering	SME	CIDEr	127.37	GLM-4V
Explanatory Visual Question Answering	SME	Detection	0.89	GLM-4V
Explanatory Visual Question Answering	SME	METEOR	17.53	GLM-4V
Explanatory Visual Question Answering	SME	ROUGE-L	24.28	GLM-4V
Explanatory Visual Question Answering	SME	SPICE	17.7	GLM-4V

CogVLM: Visual Expert for Pretrained Language Models

Abstract

Results

Related Papers

CogVLM: Visual Expert for Pretrained Language Models

Abstract

Results

Related Papers