Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin

2024-04-11CVPR 2024 1Spatial Reasoning Question Answering Descriptive Zero-Shot Region Description Hallucination Video Question Answering Visual Question Answering (VQA)Visual Question Answering

Paper PDF Code

Abstract

Integration of Large Language Models (LLMs) into visual domain tasks, resulting in visual-LLMs (V-LLMs), has enabled exceptional performance in vision-language tasks, particularly for visual question answering (VQA). However, existing V-LLMs (e.g. BLIP-2, LLaVA) demonstrate weak spatial reasoning and localization awareness. Despite generating highly descriptive and elaborate textual answers, these models fail at simple tasks like distinguishing a left vs right location. In this work, we explore how image-space coordinate based instruction fine-tuning objectives could inject spatial awareness into V-LLMs. We discover optimal coordinate representations, data-efficient instruction fine-tuning objectives, and pseudo-data generation strategies that lead to improved spatial awareness in V-LLMs. Additionally, our resulting model improves VQA across image and video domains, reduces undesired hallucination, and generates better contextual object descriptions. Experiments across 5 vision-language tasks involving 14 different datasets establish the clear performance improvements achieved by our proposed framework.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	VQA v2 test-dev	Accuracy	56.2	LocVLM-L
Visual Question Answering (VQA)	GQA	Accuracy	50.2	LocVLM-L
Visual Question Answering (VQA)	VQA v2 val	Accuracy	55.9	LocVLM-L
Video Question Answering	ActivityNet-QA	Accuracy	38.2	LocVLM-Vid-B+
Video Question Answering	ActivityNet-QA	Accuracy	37.4	LocVLM-Vid-B
Video Question Answering	MSVD-QA	Accuracy	66.1	LocVLM-Vid-B
Video Question Answering	TGIF-QA	Accuracy	51.8	LocVLM-Vid-B
Video Question Answering	MSR-VTT	Accuracy	51.2	LocVLM-Vid-B
Visual Question Answering	VQA v2 test-dev	Accuracy	56.2	LocVLM-L
Visual Question Answering	GQA	Accuracy	50.2	LocVLM-L
Visual Question Answering	VQA v2 val	Accuracy	55.9	LocVLM-L

Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

Abstract

Results

Related Papers

Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs

Abstract

Results

Related Papers