Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking

Xin Chen, Ben Kang, Jiawen Zhu, Dong Wang, Houwen Peng, Huchuan Lu

2023-04-27CVPR 2023 1Visual Object Tracking Visual Tracking Rgb-T Tracking Object Tracking

Abstract

In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.

Results

Task	Dataset	Metric	Value	Model
Visual Tracking	LasHeR	Precision	76.7	SeqTrackv2-L384
Visual Tracking	LasHeR	Success	61	SeqTrackv2-L384
Visual Tracking	LasHeR	Precision	74.1	SeqTrackv2-L256
Visual Tracking	LasHeR	Success	58.8	SeqTrackv2-L256
Visual Tracking	LasHeR	Precision	71.5	SeqTrackv2-B384
Visual Tracking	LasHeR	Success	56.2	SeqTrackv2-B384
Visual Tracking	LasHeR	Precision	70.4	SeqTrackv2-B256
Visual Tracking	LasHeR	Success	55.8	SeqTrackv2-B256
Visual Tracking	RGBT234	Precision	92.3	SeqTrackv2-L256
Visual Tracking	RGBT234	Success	68.5	SeqTrackv2-L256
Visual Tracking	RGBT234	Precision	91.3	SeqTrackv2-L384
Visual Tracking	RGBT234	Success	68	SeqTrackv2-L384
Visual Tracking	RGBT234	Precision	90	SeqTrackv2-B384
Visual Tracking	RGBT234	Success	66.3	SeqTrackv2-B384
Visual Tracking	RGBT234	Precision	88	SeqTrackv2-B256
Visual Tracking	RGBT234	Success	64.7	SeqTrackv2-B256
Object Tracking	TNL2K	AUC	57.8	SeqTrack-L384
Object Tracking	UAV123	AUC	0.685	SeqTrack-L384
Object Tracking	LaSOT	AUC	72.5	SeqTrack-L384
Object Tracking	LaSOT	Normalized Precision	81.5	SeqTrack-L384
Object Tracking	LaSOT	Precision	79.3	SeqTrack-L384
Object Tracking	NeedForSpeed	AUC	0.662	SeqTrack-L384
Object Tracking	GOT-10k	Average Overlap	74.8	SeqTrack-L384
Object Tracking	GOT-10k	Success Rate 0.5	81.9	SeqTrack-L384
Object Tracking	GOT-10k	Success Rate 0.75	72.2	SeqTrack-L384
Object Tracking	LaSOT-ext	AUC	50.7	SeqTrack-L384
Object Tracking	LaSOT-ext	Normalized Precision	61.6	SeqTrack-L384
Object Tracking	LaSOT-ext	Precision	57.5	SeqTrack-L384
Object Tracking	TrackingNet	Accuracy	85.5	SeqTrack-L384
Object Tracking	TrackingNet	Normalized Precision	89.8	SeqTrack-L384
Object Tracking	TrackingNet	Precision	85.8	SeqTrack-L384
Object Tracking	OTB-2015	AUC	0.683	SeqTrack-L384
Visual Object Tracking	TNL2K	AUC	57.8	SeqTrack-L384
Visual Object Tracking	UAV123	AUC	0.685	SeqTrack-L384
Visual Object Tracking	LaSOT	AUC	72.5	SeqTrack-L384
Visual Object Tracking	LaSOT	Normalized Precision	81.5	SeqTrack-L384
Visual Object Tracking	LaSOT	Precision	79.3	SeqTrack-L384
Visual Object Tracking	NeedForSpeed	AUC	0.662	SeqTrack-L384
Visual Object Tracking	GOT-10k	Average Overlap	74.8	SeqTrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.5	81.9	SeqTrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.75	72.2	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	AUC	50.7	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	Normalized Precision	61.6	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	Precision	57.5	SeqTrack-L384
Visual Object Tracking	TrackingNet	Accuracy	85.5	SeqTrack-L384
Visual Object Tracking	TrackingNet	Normalized Precision	89.8	SeqTrack-L384
Visual Object Tracking	TrackingNet	Precision	85.8	SeqTrack-L384
Visual Object Tracking	OTB-2015	AUC	0.683	SeqTrack-L384

Abstract

Results

Task	Dataset	Metric	Value	Model
Visual Tracking	LasHeR	Precision	76.7	SeqTrackv2-L384
Visual Tracking	LasHeR	Success	61	SeqTrackv2-L384
Visual Tracking	LasHeR	Precision	74.1	SeqTrackv2-L256
Visual Tracking	LasHeR	Success	58.8	SeqTrackv2-L256
Visual Tracking	LasHeR	Precision	71.5	SeqTrackv2-B384
Visual Tracking	LasHeR	Success	56.2	SeqTrackv2-B384
Visual Tracking	LasHeR	Precision	70.4	SeqTrackv2-B256
Visual Tracking	LasHeR	Success	55.8	SeqTrackv2-B256
Visual Tracking	RGBT234	Precision	92.3	SeqTrackv2-L256
Visual Tracking	RGBT234	Success	68.5	SeqTrackv2-L256
Visual Tracking	RGBT234	Precision	91.3	SeqTrackv2-L384
Visual Tracking	RGBT234	Success	68	SeqTrackv2-L384
Visual Tracking	RGBT234	Precision	90	SeqTrackv2-B384
Visual Tracking	RGBT234	Success	66.3	SeqTrackv2-B384
Visual Tracking	RGBT234	Precision	88	SeqTrackv2-B256
Visual Tracking	RGBT234	Success	64.7	SeqTrackv2-B256
Object Tracking	TNL2K	AUC	57.8	SeqTrack-L384
Object Tracking	UAV123	AUC	0.685	SeqTrack-L384
Object Tracking	LaSOT	AUC	72.5	SeqTrack-L384
Object Tracking	LaSOT	Normalized Precision	81.5	SeqTrack-L384
Object Tracking	LaSOT	Precision	79.3	SeqTrack-L384
Object Tracking	NeedForSpeed	AUC	0.662	SeqTrack-L384
Object Tracking	GOT-10k	Average Overlap	74.8	SeqTrack-L384
Object Tracking	GOT-10k	Success Rate 0.5	81.9	SeqTrack-L384
Object Tracking	GOT-10k	Success Rate 0.75	72.2	SeqTrack-L384
Object Tracking	LaSOT-ext	AUC	50.7	SeqTrack-L384
Object Tracking	LaSOT-ext	Normalized Precision	61.6	SeqTrack-L384
Object Tracking	LaSOT-ext	Precision	57.5	SeqTrack-L384
Object Tracking	TrackingNet	Accuracy	85.5	SeqTrack-L384
Object Tracking	TrackingNet	Normalized Precision	89.8	SeqTrack-L384
Object Tracking	TrackingNet	Precision	85.8	SeqTrack-L384
Object Tracking	OTB-2015	AUC	0.683	SeqTrack-L384
Visual Object Tracking	TNL2K	AUC	57.8	SeqTrack-L384
Visual Object Tracking	UAV123	AUC	0.685	SeqTrack-L384
Visual Object Tracking	LaSOT	AUC	72.5	SeqTrack-L384
Visual Object Tracking	LaSOT	Normalized Precision	81.5	SeqTrack-L384
Visual Object Tracking	LaSOT	Precision	79.3	SeqTrack-L384
Visual Object Tracking	NeedForSpeed	AUC	0.662	SeqTrack-L384
Visual Object Tracking	GOT-10k	Average Overlap	74.8	SeqTrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.5	81.9	SeqTrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.75	72.2	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	AUC	50.7	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	Normalized Precision	61.6	SeqTrack-L384
Visual Object Tracking	LaSOT-ext	Precision	57.5	SeqTrack-L384
Visual Object Tracking	TrackingNet	Accuracy	85.5	SeqTrack-L384
Visual Object Tracking	TrackingNet	Normalized Precision	89.8	SeqTrack-L384
Visual Object Tracking	TrackingNet	Precision	85.8	SeqTrack-L384
Visual Object Tracking	OTB-2015	AUC	0.683	SeqTrack-L384

Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking

Abstract

Results

Related Papers

Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking

Abstract

Results

Related Papers