SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia

2024-01-22CVPR 2024 1Spatial Reasoning Question Answering Visual Question Answering (VQA)Visual Question Answering

Abstract

Understanding and reasoning about spatial relationships is a fundamental capability for Visual Question Answering (VQA) and robotics. While Vision Language Models (VLM) have demonstrated remarkable performance in certain VQA benchmarks, they still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size differences. We hypothesize that VLMs' limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. To this end, we present a system to facilitate this approach. We first develop an automatic 3D spatial VQA data generation framework that scales up to 2 billion VQA examples on 10 million real-world images. We then investigate various factors in the training recipe, including data quality, training pipeline, and VLM architecture. Our work features the first internet-scale 3D spatial reasoning dataset in metric space. By training a VLM on such data, we significantly enhance its ability on both qualitative and quantitative spatial VQA. Finally, we demonstrate that this VLM unlocks novel downstream applications in chain-of-thought spatial reasoning and robotics due to its quantitative estimation capability. Project website: https://spatial-vlm.github.io/

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	6-DoF SpatialBench	Orientation-abs	25	SpaceMantis
Visual Question Answering (VQA)	6-DoF SpatialBench	Orientation-rel	27.2	SpaceMantis
Visual Question Answering (VQA)	6-DoF SpatialBench	Position-abs	29.2	SpaceMantis
Visual Question Answering (VQA)	6-DoF SpatialBench	Position-rel	33.6	SpaceMantis
Visual Question Answering (VQA)	6-DoF SpatialBench	Total	28.9	SpaceMantis
Visual Question Answering (VQA)	6-DoF SpatialBench	Orientation-abs	24.9	SpaceLLaVA
Visual Question Answering (VQA)	6-DoF SpatialBench	Orientation-rel	30.9	SpaceLLaVA
Visual Question Answering (VQA)	6-DoF SpatialBench	Position-abs	30.5	SpaceLLaVA
Visual Question Answering (VQA)	6-DoF SpatialBench	Position-rel	32.4	SpaceLLaVA
Visual Question Answering (VQA)	6-DoF SpatialBench	Total	28.2	SpaceLLaVA
Visual Question Answering	6-DoF SpatialBench	Orientation-abs	25	SpaceMantis
Visual Question Answering	6-DoF SpatialBench	Orientation-rel	27.2	SpaceMantis
Visual Question Answering	6-DoF SpatialBench	Position-abs	29.2	SpaceMantis
Visual Question Answering	6-DoF SpatialBench	Position-rel	33.6	SpaceMantis
Visual Question Answering	6-DoF SpatialBench	Total	28.9	SpaceMantis
Visual Question Answering	6-DoF SpatialBench	Orientation-abs	24.9	SpaceLLaVA
Visual Question Answering	6-DoF SpatialBench	Orientation-rel	30.9	SpaceLLaVA
Visual Question Answering	6-DoF SpatialBench	Position-abs	30.5	SpaceLLaVA
Visual Question Answering	6-DoF SpatialBench	Position-rel	32.4	SpaceLLaVA
Visual Question Answering	6-DoF SpatialBench	Total	28.2	SpaceLLaVA

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Abstract

Results

Related Papers

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

Abstract

Results

Related Papers