Otter: A Multi-Modal Model with In-Context Instruction Tuning

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

2023-05-05Instruction Following Visual Reasoning Visual Question Answering (VQA)Visual Question Answering

Abstract

Large language models (LLMs) have demonstrated significant universal capabilities as few/zero-shot learners in various tasks due to their pre-training on vast amounts of text data, as exemplified by GPT-3, which boosted to InstrctGPT and ChatGPT, effectively following natural language instructions to accomplish real-world tasks. In this paper, we propose to introduce instruction tuning into multi-modal models, motivated by the Flamingo model's upstream interleaved format pretraining dataset. We adopt a similar approach to construct our MultI-Modal In-Context Instruction Tuning (MIMIC-IT) dataset. We then introduce Otter, a multi-modal model based on OpenFlamingo (open-sourced version of DeepMind's Flamingo), trained on MIMIC-IT and showcasing improved instruction-following ability and in-context learning. We also optimize OpenFlamingo's implementation for researchers, democratizing the required training resources from 1$\times$ A100 GPU to 4$\times$ RTX-3090 GPUs, and integrate both OpenFlamingo and Otter into Huggingface Transformers for more researchers to incorporate the models into their customized training and inference pipelines.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	InfiMM-Eval	Abductive	33.64	Otter
Visual Question Answering (VQA)	InfiMM-Eval	Analogical	13.33	Otter
Visual Question Answering (VQA)	InfiMM-Eval	Deductive	22.49	Otter
Visual Question Answering (VQA)	InfiMM-Eval	Overall score	22.69	Otter
Visual Question Answering (VQA)	BenchLMM	GPT-3.5 score	39.13	Otter-7B
Visual Question Answering	BenchLMM	GPT-3.5 score	39.13	Otter-7B

Otter: A Multi-Modal Model with In-Context Instruction Tuning

Abstract

Results

Related Papers

Otter: A Multi-Modal Model with In-Context Instruction Tuning

Abstract

Results

Related Papers