FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez

2023-08-08Autonomous Driving object-detection 3D Object Detection Object Detection

Abstract

False negatives (FN) in 3D object detection, {\em e.g.}, missing predictions of pedestrians, vehicles, or other obstacles, can lead to potentially dangerous situations in autonomous driving. While being fatal, this issue is understudied in many current 3D detection methods. In this work, we propose Hard Instance Probing (HIP), a general pipeline that identifies \textit{FN} in a multi-stage manner and guides the models to focus on excavating difficult instances. For 3D object detection, we instantiate this method as FocalFormer3D, a simple yet effective detector that excels at excavating difficult objects and improving prediction recall. FocalFormer3D features a multi-stage query generation to discover hard objects and a box-level transformer decoder to efficiently distinguish objects from massive object candidates. Experimental results on the nuScenes and Waymo datasets validate the superior performance of FocalFormer3D. The advantage leads to strong performance on both detection and tracking, in both LiDAR and multi-modal settings. Notably, FocalFormer3D achieves a 70.5 mAP and 73.9 NDS on nuScenes detection benchmark, while the nuScenes tracking benchmark shows 72.1 AMOTA, both ranking 1st place on the nuScenes LiDAR leaderboard. Our code is available at \url{https://github.com/NVlabs/FocalFormer3D}.

Results

Task	Dataset	Metric	Value	Model
Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
3D	nuScenes	NDS	0.75	FocalFormer3D-F
3D	nuScenes	mAAE	0.13	FocalFormer3D-F
3D	nuScenes	mAOE	0.33	FocalFormer3D-F
3D	nuScenes	mAP	0.72	FocalFormer3D-F
3D	nuScenes	mASE	0.24	FocalFormer3D-F
3D	nuScenes	mATE	0.25	FocalFormer3D-F
3D	nuScenes	mAVE	0.23	FocalFormer3D-F
3D	nuScenes	NDS	0.74	FocalFormer3D-TTA
3D	nuScenes	mAAE	0.13	FocalFormer3D-TTA
3D	nuScenes	mAOE	0.32	FocalFormer3D-TTA
3D	nuScenes	mAP	0.71	FocalFormer3D-TTA
3D	nuScenes	mASE	0.24	FocalFormer3D-TTA
3D	nuScenes	mATE	0.24	FocalFormer3D-TTA
3D	nuScenes	mAVE	0.2	FocalFormer3D-TTA
3D	nuScenes	NDS	0.73	FocalFormer3D-L
3D	nuScenes	mAAE	0.13	FocalFormer3D-L
3D	nuScenes	mAOE	0.34	FocalFormer3D-L
3D	nuScenes	mAP	0.69	FocalFormer3D-L
3D	nuScenes	mASE	0.24	FocalFormer3D-L
3D	nuScenes	mATE	0.25	FocalFormer3D-L
3D	nuScenes	mAVE	0.22	FocalFormer3D-L
3D Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
3D Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
3D Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
3D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
3D Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
3D Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
3D Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
3D Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
3D Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
3D Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
3D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
3D Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
2D Classification	nuScenes	NDS	0.75	FocalFormer3D-F
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-F
2D Classification	nuScenes	mAOE	0.33	FocalFormer3D-F
2D Classification	nuScenes	mAP	0.72	FocalFormer3D-F
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-F
2D Classification	nuScenes	mATE	0.25	FocalFormer3D-F
2D Classification	nuScenes	mAVE	0.23	FocalFormer3D-F
2D Classification	nuScenes	NDS	0.74	FocalFormer3D-TTA
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-TTA
2D Classification	nuScenes	mAOE	0.32	FocalFormer3D-TTA
2D Classification	nuScenes	mAP	0.71	FocalFormer3D-TTA
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-TTA
2D Classification	nuScenes	mATE	0.24	FocalFormer3D-TTA
2D Classification	nuScenes	mAVE	0.2	FocalFormer3D-TTA
2D Classification	nuScenes	NDS	0.73	FocalFormer3D-L
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-L
2D Classification	nuScenes	mAOE	0.34	FocalFormer3D-L
2D Classification	nuScenes	mAP	0.69	FocalFormer3D-L
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-L
2D Classification	nuScenes	mATE	0.25	FocalFormer3D-L
2D Classification	nuScenes	mAVE	0.22	FocalFormer3D-L
2D Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
2D Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
2D Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
2D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
2D Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
2D Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
2D Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
2D Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
2D Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
2D Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
2D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
2D Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
16k	nuScenes	NDS	0.75	FocalFormer3D-F
16k	nuScenes	mAAE	0.13	FocalFormer3D-F
16k	nuScenes	mAOE	0.33	FocalFormer3D-F
16k	nuScenes	mAP	0.72	FocalFormer3D-F
16k	nuScenes	mASE	0.24	FocalFormer3D-F
16k	nuScenes	mATE	0.25	FocalFormer3D-F
16k	nuScenes	mAVE	0.23	FocalFormer3D-F
16k	nuScenes	NDS	0.74	FocalFormer3D-TTA
16k	nuScenes	mAAE	0.13	FocalFormer3D-TTA
16k	nuScenes	mAOE	0.32	FocalFormer3D-TTA
16k	nuScenes	mAP	0.71	FocalFormer3D-TTA
16k	nuScenes	mASE	0.24	FocalFormer3D-TTA
16k	nuScenes	mATE	0.24	FocalFormer3D-TTA
16k	nuScenes	mAVE	0.2	FocalFormer3D-TTA
16k	nuScenes	NDS	0.73	FocalFormer3D-L
16k	nuScenes	mAAE	0.13	FocalFormer3D-L
16k	nuScenes	mAOE	0.34	FocalFormer3D-L
16k	nuScenes	mAP	0.69	FocalFormer3D-L
16k	nuScenes	mASE	0.24	FocalFormer3D-L
16k	nuScenes	mATE	0.25	FocalFormer3D-L
16k	nuScenes	mAVE	0.22	FocalFormer3D-L

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
3D	nuScenes	NDS	0.75	FocalFormer3D-F
3D	nuScenes	mAAE	0.13	FocalFormer3D-F
3D	nuScenes	mAOE	0.33	FocalFormer3D-F
3D	nuScenes	mAP	0.72	FocalFormer3D-F
3D	nuScenes	mASE	0.24	FocalFormer3D-F
3D	nuScenes	mATE	0.25	FocalFormer3D-F
3D	nuScenes	mAVE	0.23	FocalFormer3D-F
3D	nuScenes	NDS	0.74	FocalFormer3D-TTA
3D	nuScenes	mAAE	0.13	FocalFormer3D-TTA
3D	nuScenes	mAOE	0.32	FocalFormer3D-TTA
3D	nuScenes	mAP	0.71	FocalFormer3D-TTA
3D	nuScenes	mASE	0.24	FocalFormer3D-TTA
3D	nuScenes	mATE	0.24	FocalFormer3D-TTA
3D	nuScenes	mAVE	0.2	FocalFormer3D-TTA
3D	nuScenes	NDS	0.73	FocalFormer3D-L
3D	nuScenes	mAAE	0.13	FocalFormer3D-L
3D	nuScenes	mAOE	0.34	FocalFormer3D-L
3D	nuScenes	mAP	0.69	FocalFormer3D-L
3D	nuScenes	mASE	0.24	FocalFormer3D-L
3D	nuScenes	mATE	0.25	FocalFormer3D-L
3D	nuScenes	mAVE	0.22	FocalFormer3D-L
3D Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
3D Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
3D Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
3D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
3D Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
3D Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
3D Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
3D Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
3D Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
3D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
3D Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
3D Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
3D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
3D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
3D Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
2D Classification	nuScenes	NDS	0.75	FocalFormer3D-F
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-F
2D Classification	nuScenes	mAOE	0.33	FocalFormer3D-F
2D Classification	nuScenes	mAP	0.72	FocalFormer3D-F
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-F
2D Classification	nuScenes	mATE	0.25	FocalFormer3D-F
2D Classification	nuScenes	mAVE	0.23	FocalFormer3D-F
2D Classification	nuScenes	NDS	0.74	FocalFormer3D-TTA
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-TTA
2D Classification	nuScenes	mAOE	0.32	FocalFormer3D-TTA
2D Classification	nuScenes	mAP	0.71	FocalFormer3D-TTA
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-TTA
2D Classification	nuScenes	mATE	0.24	FocalFormer3D-TTA
2D Classification	nuScenes	mAVE	0.2	FocalFormer3D-TTA
2D Classification	nuScenes	NDS	0.73	FocalFormer3D-L
2D Classification	nuScenes	mAAE	0.13	FocalFormer3D-L
2D Classification	nuScenes	mAOE	0.34	FocalFormer3D-L
2D Classification	nuScenes	mAP	0.69	FocalFormer3D-L
2D Classification	nuScenes	mASE	0.24	FocalFormer3D-L
2D Classification	nuScenes	mATE	0.25	FocalFormer3D-L
2D Classification	nuScenes	mAVE	0.22	FocalFormer3D-L
2D Object Detection	nuScenes	NDS	0.75	FocalFormer3D-F
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-F
2D Object Detection	nuScenes	mAOE	0.33	FocalFormer3D-F
2D Object Detection	nuScenes	mAP	0.72	FocalFormer3D-F
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-F
2D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-F
2D Object Detection	nuScenes	mAVE	0.23	FocalFormer3D-F
2D Object Detection	nuScenes	NDS	0.74	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAOE	0.32	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAP	0.71	FocalFormer3D-TTA
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-TTA
2D Object Detection	nuScenes	mATE	0.24	FocalFormer3D-TTA
2D Object Detection	nuScenes	mAVE	0.2	FocalFormer3D-TTA
2D Object Detection	nuScenes	NDS	0.73	FocalFormer3D-L
2D Object Detection	nuScenes	mAAE	0.13	FocalFormer3D-L
2D Object Detection	nuScenes	mAOE	0.34	FocalFormer3D-L
2D Object Detection	nuScenes	mAP	0.69	FocalFormer3D-L
2D Object Detection	nuScenes	mASE	0.24	FocalFormer3D-L
2D Object Detection	nuScenes	mATE	0.25	FocalFormer3D-L
2D Object Detection	nuScenes	mAVE	0.22	FocalFormer3D-L
16k	nuScenes	NDS	0.75	FocalFormer3D-F
16k	nuScenes	mAAE	0.13	FocalFormer3D-F
16k	nuScenes	mAOE	0.33	FocalFormer3D-F
16k	nuScenes	mAP	0.72	FocalFormer3D-F
16k	nuScenes	mASE	0.24	FocalFormer3D-F
16k	nuScenes	mATE	0.25	FocalFormer3D-F
16k	nuScenes	mAVE	0.23	FocalFormer3D-F
16k	nuScenes	NDS	0.74	FocalFormer3D-TTA
16k	nuScenes	mAAE	0.13	FocalFormer3D-TTA
16k	nuScenes	mAOE	0.32	FocalFormer3D-TTA
16k	nuScenes	mAP	0.71	FocalFormer3D-TTA
16k	nuScenes	mASE	0.24	FocalFormer3D-TTA
16k	nuScenes	mATE	0.24	FocalFormer3D-TTA
16k	nuScenes	mAVE	0.2	FocalFormer3D-TTA
16k	nuScenes	NDS	0.73	FocalFormer3D-L
16k	nuScenes	mAAE	0.13	FocalFormer3D-L
16k	nuScenes	mAOE	0.34	FocalFormer3D-L
16k	nuScenes	mAP	0.69	FocalFormer3D-L
16k	nuScenes	mASE	0.24	FocalFormer3D-L
16k	nuScenes	mATE	0.25	FocalFormer3D-L
16k	nuScenes	mAVE	0.22	FocalFormer3D-L

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

Abstract

Results

Related Papers

FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

Abstract

Results

Related Papers