Learning Spatio-Temporal Transformer for Visual Tracking

Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, Huchuan Lu

2021-03-31ICCV 2021 10Visual Object Tracking Visual Tracking Object Tracking Video Object Tracking

Abstract

In this paper, we present a new tracking architecture with an encoder-decoder transformer as the key component. The encoder models the global spatio-temporal feature dependencies between target objects and search regions, while the decoder learns a query embedding to predict the spatial positions of the target objects. Our method casts object tracking as a direct bounding box prediction problem, without using any proposals or predefined anchors. With the encoder-decoder transformer, the prediction of objects just uses a simple fully-convolutional network, which estimates the corners of objects directly. The whole method is end-to-end, does not need any postprocessing steps such as cosine window and bounding box smoothing, thus largely simplifying existing tracking pipelines. The proposed tracker achieves state-of-the-art performance on five challenging short-term and long-term benchmarks, while running at real-time speed, being 6x faster than Siam R-CNN. Code and models are open-sourced at https://github.com/researchmm/Stark.

Results

Task	Dataset	Metric	Value	Model
Video	NT-VOT211	AUC	38.26	STARK
Video	NT-VOT211	Precision	51.37	STARK
Object Tracking	LaSOT	AUC	67.1	STARK
Object Tracking	LaSOT	Normalized Precision	77	STARK
Object Tracking	GOT-10k	Average Overlap	68.8	STARK
Object Tracking	GOT-10k	Success Rate 0.5	78.1	STARK
Object Tracking	AVisT	Success Rate	50.5	STARK-ST-101
Object Tracking	TrackingNet	Accuracy	82	STARK
Object Tracking	TrackingNet	Normalized Precision	86.9	STARK
Object Tracking	TrackingNet	Precision	79.1	STARK
Object Tracking	NT-VOT211	AUC	38.26	STARK
Object Tracking	NT-VOT211	Precision	51.37	STARK
Visual Object Tracking	LaSOT	AUC	67.1	STARK
Visual Object Tracking	LaSOT	Normalized Precision	77	STARK
Visual Object Tracking	GOT-10k	Average Overlap	68.8	STARK
Visual Object Tracking	GOT-10k	Success Rate 0.5	78.1	STARK
Visual Object Tracking	AVisT	Success Rate	50.5	STARK-ST-101
Visual Object Tracking	TrackingNet	Accuracy	82	STARK
Visual Object Tracking	TrackingNet	Normalized Precision	86.9	STARK
Visual Object Tracking	TrackingNet	Precision	79.1	STARK

Learning Spatio-Temporal Transformer for Visual Tracking

Abstract

Results

Related Papers

Learning Spatio-Temporal Transformer for Visual Tracking

Abstract

Results

Related Papers