SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao

2023-11-13Question Answering Described Object Detection Pose Estimation Large Language Model Visual Question Answering (VQA)Language Modelling Visual Question Answering

Paper PDF Code(official)

Abstract

We present SPHINX, a versatile multi-modal large language model (MLLM) with a joint mixing of model weights, tuning tasks, and visual embeddings. First, for stronger vision-language alignment, we unfreeze the large language model (LLM) during pre-training, and introduce a weight mix strategy between LLMs trained by real-world and synthetic data. By directly integrating the weights from two domains, the mixed LLM can efficiently incorporate diverse semantics with favorable robustness. Then, to enable multi-purpose capabilities, we mix a variety of tasks for joint visual instruction tuning, and design task-specific instructions to avoid inter-task conflict. In addition to the basic visual question answering, we include more challenging tasks such as region-level understanding, caption grounding, document layout detection, and human pose estimation, contributing to mutual enhancement over different scenarios. Additionally, we propose to extract comprehensive visual embeddings from various network architectures, pre-training paradigms, and information granularity, providing language models with more robust image representations. Based on our proposed joint mixing, SPHINX exhibits superior multi-modal understanding capabilities on a wide range of applications. On top of this, we further propose an efficient strategy aiming to better capture fine-grained appearances of high-resolution images. With a mixing of different scales and high-resolution sub-images, SPHINX attains exceptional visual parsing and reasoning performance on existing evaluation benchmarks. We hope our work may cast a light on the exploration of joint mixing in future MLLM research. Code is released at https://github.com/Alpha-VLLM/LLaMA2-Accessory.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	InfiMM-Eval	Abductive	49.85	SPHINX v2
Visual Question Answering (VQA)	InfiMM-Eval	Analogical	20.69	SPHINX v2
Visual Question Answering (VQA)	InfiMM-Eval	Deductive	42.17	SPHINX v2
Visual Question Answering (VQA)	InfiMM-Eval	Overall score	39.48	SPHINX v2
Visual Question Answering (VQA)	MM-Vet	GPT-4 score	40.2	SPHINX-2k
Visual Question Answering (VQA)	BenchLMM	GPT-3.5 score	57.43	Sphinx-V2-1K
Object Detection	Description Detection Dataset	Intra-scenario ABS mAP	7.9	SPHINX-7B
Object Detection	Description Detection Dataset	Intra-scenario FULL mAP	10.6	SPHINX-7B
Object Detection	Description Detection Dataset	Intra-scenario PRES mAP	11.4	SPHINX-7B
3D	Description Detection Dataset	Intra-scenario ABS mAP	7.9	SPHINX-7B
3D	Description Detection Dataset	Intra-scenario FULL mAP	10.6	SPHINX-7B
3D	Description Detection Dataset	Intra-scenario PRES mAP	11.4	SPHINX-7B
2D Classification	Description Detection Dataset	Intra-scenario ABS mAP	7.9	SPHINX-7B
2D Classification	Description Detection Dataset	Intra-scenario FULL mAP	10.6	SPHINX-7B
2D Classification	Description Detection Dataset	Intra-scenario PRES mAP	11.4	SPHINX-7B
2D Object Detection	Description Detection Dataset	Intra-scenario ABS mAP	7.9	SPHINX-7B
2D Object Detection	Description Detection Dataset	Intra-scenario FULL mAP	10.6	SPHINX-7B
2D Object Detection	Description Detection Dataset	Intra-scenario PRES mAP	11.4	SPHINX-7B
Visual Question Answering	MM-Vet	GPT-4 score	40.2	SPHINX-2k
Visual Question Answering	BenchLMM	GPT-3.5 score	57.43	Sphinx-V2-1K
16k	Description Detection Dataset	Intra-scenario ABS mAP	7.9	SPHINX-7B
16k	Description Detection Dataset	Intra-scenario FULL mAP	10.6	SPHINX-7B
16k	Description Detection Dataset	Intra-scenario PRES mAP	11.4	SPHINX-7B

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Abstract

Results

Related Papers

SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Abstract

Results

Related Papers