ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Yaozong Zheng, Bineng Zhong, Qihua Liang, Zhiyi Mo, Shengping Zhang, Xianxian Li

2024-01-03Visual Object Tracking Semi-Supervised Video Object Segmentation Visual Tracking Video Object Tracking

Abstract

Online contextual reasoning and association across consecutive video frames are critical to perceive instances in visual tracking. However, most current top-performing trackers persistently lean on sparse temporal relationships between reference and search frames via an offline mode. Consequently, they can only interact independently within each image-pair and establish limited temporal correlations. To alleviate the above problem, we propose a simple, flexible and effective video-level tracking pipeline, named \textbf{ODTrack}, which densely associates the contextual relationships of video frames in an online token propagation manner. ODTrack receives video frames of arbitrary length to capture the spatio-temporal trajectory relationships of an instance, and compresses the discrimination features (localization information) of a target into a token sequence to achieve frame-to-frame association. This new solution brings the following benefits: 1) the purified token sequences can serve as prompts for the inference in the next video frame, whereby past information is leveraged to guide future inference; 2) the complex online update strategies are effectively avoided by the iterative propagation of token sequences, and thus we can achieve more efficient model representation and computation. ODTrack achieves a new \textit{SOTA} performance on seven benchmarks, while running at real-time speed. Code and models are available at \url{https://github.com/GXNU-ZhongLab/ODTrack}.

Results

Task	Dataset	Metric	Value	Model
Video	VOT2020	EAO	0.605	ODTrack-L
Video	VOT2020	EAO	0.581	ODTrack-B
Video	NT-VOT211	AUC	39.6	ODTrack
Video	NT-VOT211	Precision	55.8	ODTrack
Object Tracking	TNL2K	AUC	61.7	ODTrack-L
Object Tracking	TNL2K	AUC	60.9	ODTrack-B
Object Tracking	LaSOT	AUC	74	ODTrack-L
Object Tracking	LaSOT	AUC	73.2	ODTrack-B
Object Tracking	DiDi	Tracking quality	0.608	ODTrack
Object Tracking	GOT-10k	Average Overlap	78.2	ODTrack-L
Object Tracking	GOT-10k	Average Overlap	77	ODTrack-B
Object Tracking	LaSOT-ext	AUC	53.9	ODTrack-L
Object Tracking	LaSOT-ext	AUC	52.4	ODTrack-B
Object Tracking	TrackingNet	Accuracy	86.1	ODTrack-L
Object Tracking	TrackingNet	Accuracy	85.1	ODTrack-B
Object Tracking	OTB-2015	AUC	0.724	ODTrack-L
Object Tracking	OTB-2015	AUC	0.723	ODTrack-B
Object Tracking	NT-VOT211	AUC	39.6	ODTrack
Object Tracking	NT-VOT211	Precision	55.8	ODTrack
Video Object Segmentation	VOT2020	EAO	0.605	ODTrack-L
Video Object Segmentation	VOT2020	EAO	0.581	ODTrack-B
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.605	ODTrack-L
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.581	ODTrack-B
Visual Object Tracking	TNL2K	AUC	61.7	ODTrack-L
Visual Object Tracking	TNL2K	AUC	60.9	ODTrack-B
Visual Object Tracking	LaSOT	AUC	74	ODTrack-L
Visual Object Tracking	LaSOT	AUC	73.2	ODTrack-B
Visual Object Tracking	DiDi	Tracking quality	0.608	ODTrack
Visual Object Tracking	GOT-10k	Average Overlap	78.2	ODTrack-L
Visual Object Tracking	GOT-10k	Average Overlap	77	ODTrack-B
Visual Object Tracking	LaSOT-ext	AUC	53.9	ODTrack-L
Visual Object Tracking	LaSOT-ext	AUC	52.4	ODTrack-B
Visual Object Tracking	TrackingNet	Accuracy	86.1	ODTrack-L
Visual Object Tracking	TrackingNet	Accuracy	85.1	ODTrack-B
Visual Object Tracking	OTB-2015	AUC	0.724	ODTrack-L
Visual Object Tracking	OTB-2015	AUC	0.723	ODTrack-B

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Abstract

Results

Related Papers

ODTrack: Online Dense Temporal Token Learning for Visual Tracking

Abstract

Results

Related Papers