SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Liting Lin, Heng Fan, Zhipeng Zhang, Yong Xu, Haibin Ling

2021-12-02Visual Object Tracking Visual Tracking Representation Learning

Abstract

Recently Transformer has been largely explored in tracking and shown state-of-the-art (SOTA) performance. However, existing efforts mainly focus on fusing and enhancing features generated by convolutional neural networks (CNNs). The potential of Transformer in representation learning remains under-explored. In this paper, we aim to further unleash the power of Transformer by proposing a simple yet efficient fully-attentional tracker, dubbed SwinTrack, within classic Siamese framework. In particular, both representation learning and feature fusion in SwinTrack leverage the Transformer architecture, enabling better feature interactions for tracking than pure CNN or hybrid CNN-Transformer frameworks. Besides, to further enhance robustness, we present a novel motion token that embeds historical target trajectory to improve tracking by providing temporal context. Our motion token is lightweight with negligible computation but brings clear gains. In our thorough experiments, SwinTrack exceeds existing approaches on multiple benchmarks. Particularly, on the challenging LaSOT, SwinTrack sets a new record with 0.713 SUC score. It also achieves SOTA results on other benchmarks. We expect SwinTrack to serve as a solid baseline for Transformer tracking and facilitate future research. Our codes and results are released at https://github.com/LitingLin/SwinTrack.

Results

Task	Dataset	Metric	Value	Model
Object Tracking	LaSOT	AUC	70.2	SwinTrack-B-384
Object Tracking	LaSOT	Normalized Precision	78.4	SwinTrack-B-384
Object Tracking	LaSOT	Precision	75.3	SwinTrack-B-384
Object Tracking	GOT-10k	Average Overlap	69.4	SwinTrack-B
Object Tracking	GOT-10k	Success Rate 0.5	78	SwinTrack-B
Object Tracking	GOT-10k	Success Rate 0.75	64.3	SwinTrack-B
Object Tracking	TrackingNet	Accuracy	84	SwinTrack-B-384
Object Tracking	TrackingNet	Normalized Precision	88.2	SwinTrack-B-384
Object Tracking	TrackingNet	Precision	83.2	SwinTrack-B-384
Visual Object Tracking	LaSOT	AUC	70.2	SwinTrack-B-384
Visual Object Tracking	LaSOT	Normalized Precision	78.4	SwinTrack-B-384
Visual Object Tracking	LaSOT	Precision	75.3	SwinTrack-B-384
Visual Object Tracking	GOT-10k	Average Overlap	69.4	SwinTrack-B
Visual Object Tracking	GOT-10k	Success Rate 0.5	78	SwinTrack-B
Visual Object Tracking	GOT-10k	Success Rate 0.75	64.3	SwinTrack-B
Visual Object Tracking	TrackingNet	Accuracy	84	SwinTrack-B-384
Visual Object Tracking	TrackingNet	Normalized Precision	88.2	SwinTrack-B-384
Visual Object Tracking	TrackingNet	Precision	83.2	SwinTrack-B-384

SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Abstract

Results

Related Papers

SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Abstract

Results

Related Papers