Exploring Enhanced Contextual Information for Video-Level Object Tracking

Ben Kang, Xin Chen, Simiao Lai, Yang Liu, Yi Liu, Dong Wang

2024-12-15AAAI2025 2024 12Visual Object Tracking Semi-Supervised Video Object Segmentation Visual Tracking Object Tracking Video Object Tracking

Paper PDF Code(official)

Abstract

Contextual information at the video level has become increasingly crucial for visual object tracking. However, existing methods typically use only a few tokens to convey this information, which can lead to information loss and limit their ability to fully capture the context. To address this issue, we propose a new video-level visual object tracking framework called MCITrack. It leverages Mamba's hidden states to continuously record and transmit extensive contextual information throughout the video stream, resulting in more robust object tracking. The core component of MCITrack is the Contextual Information Fusion module, which consists of the mamba layer and the cross-attention layer. The mamba layer stores historical contextual information, while the cross-attention layer integrates this information into the current visual features of each backbone block. This module enhances the model's ability to capture and utilize contextual information at multiple levels through deep integration with the backbone. Experiments demonstrate that MCITrack achieves competitive performance across numerous benchmarks. For instance, it gets 76.6% AUC on LaSOT and 80.0% AO on GOT-10k, establishing a new state-of-the-art performance. Code and models are available at https://github.com/kangben258/MCITrack.

Results

Task	Dataset	Metric	Value	Model
Video	VOT2020	EAO	0.624	MCITrack-L384
Video	VOT2020	EAO	0.619	MCITrack-B224
Object Tracking	TNL2K	AUC	65.3	MCITrack-L384
Object Tracking	TNL2K	AUC	62.9	MCITrack-B224
Object Tracking	LaSOT	AUC	76.6	MCITrack-L384
Object Tracking	LaSOT	Normalized Precision	86.1	MCITrack-L384
Object Tracking	LaSOT	Precision	85	MCITrack-L384
Object Tracking	LaSOT	AUC	75.3	MCITrack-B224
Object Tracking	LaSOT	Normalized Precision	85.6	MCITrack-B224
Object Tracking	LaSOT	Precision	83.3	MCITrack-B224
Object Tracking	GOT-10k	Average Overlap	80	MCITrack-L384
Object Tracking	GOT-10k	Success Rate 0.5	88.5	MCITrack-L384
Object Tracking	GOT-10k	Success Rate 0.75	80.2	MCITrack-L384
Object Tracking	GOT-10k	Average Overlap	77.9	MCITrack-B224
Object Tracking	GOT-10k	Success Rate 0.5	88.2	MCITrack-B224
Object Tracking	GOT-10k	Success Rate 0.75	76.8	MCITrack-B224
Object Tracking	LaSOT-ext	AUC	55.7	MCITrack-L384
Object Tracking	LaSOT-ext	Normalized Precision	66.5	MCITrack-L384
Object Tracking	LaSOT-ext	Precision	62.9	MCITrack-L384
Object Tracking	LaSOT-ext	AUC	54.6	MCITrack-B224
Object Tracking	LaSOT-ext	Normalized Precision	65.7	MCITrack-B224
Object Tracking	LaSOT-ext	Precision	62.1	MCITrack-B224
Object Tracking	TrackingNet	Accuracy	87.9	MCITrack-L384
Object Tracking	TrackingNet	Normalized Precision	92.1	MCITrack-L384
Object Tracking	TrackingNet	Precision	89.2	MCITrack-L384
Object Tracking	TrackingNet	Accuracy	86.3	MCITrack-B224
Object Tracking	TrackingNet	Normalized Precision	90.9	MCITrack-B224
Object Tracking	TrackingNet	Precision	86.1	MCITrack-B224
Video Object Segmentation	VOT2020	EAO	0.624	MCITrack-L384
Video Object Segmentation	VOT2020	EAO	0.619	MCITrack-B224
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.624	MCITrack-L384
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.619	MCITrack-B224
Visual Object Tracking	TNL2K	AUC	65.3	MCITrack-L384
Visual Object Tracking	TNL2K	AUC	62.9	MCITrack-B224
Visual Object Tracking	LaSOT	AUC	76.6	MCITrack-L384
Visual Object Tracking	LaSOT	Normalized Precision	86.1	MCITrack-L384
Visual Object Tracking	LaSOT	Precision	85	MCITrack-L384
Visual Object Tracking	LaSOT	AUC	75.3	MCITrack-B224
Visual Object Tracking	LaSOT	Normalized Precision	85.6	MCITrack-B224
Visual Object Tracking	LaSOT	Precision	83.3	MCITrack-B224
Visual Object Tracking	GOT-10k	Average Overlap	80	MCITrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.5	88.5	MCITrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.75	80.2	MCITrack-L384
Visual Object Tracking	GOT-10k	Average Overlap	77.9	MCITrack-B224
Visual Object Tracking	GOT-10k	Success Rate 0.5	88.2	MCITrack-B224
Visual Object Tracking	GOT-10k	Success Rate 0.75	76.8	MCITrack-B224
Visual Object Tracking	LaSOT-ext	AUC	55.7	MCITrack-L384
Visual Object Tracking	LaSOT-ext	Normalized Precision	66.5	MCITrack-L384
Visual Object Tracking	LaSOT-ext	Precision	62.9	MCITrack-L384
Visual Object Tracking	LaSOT-ext	AUC	54.6	MCITrack-B224
Visual Object Tracking	LaSOT-ext	Normalized Precision	65.7	MCITrack-B224
Visual Object Tracking	LaSOT-ext	Precision	62.1	MCITrack-B224
Visual Object Tracking	TrackingNet	Accuracy	87.9	MCITrack-L384
Visual Object Tracking	TrackingNet	Normalized Precision	92.1	MCITrack-L384
Visual Object Tracking	TrackingNet	Precision	89.2	MCITrack-L384
Visual Object Tracking	TrackingNet	Accuracy	86.3	MCITrack-B224
Visual Object Tracking	TrackingNet	Normalized Precision	90.9	MCITrack-B224
Visual Object Tracking	TrackingNet	Precision	86.1	MCITrack-B224

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	VOT2020	EAO	0.624	MCITrack-L384
Video	VOT2020	EAO	0.619	MCITrack-B224
Object Tracking	TNL2K	AUC	65.3	MCITrack-L384
Object Tracking	TNL2K	AUC	62.9	MCITrack-B224
Object Tracking	LaSOT	AUC	76.6	MCITrack-L384
Object Tracking	LaSOT	Normalized Precision	86.1	MCITrack-L384
Object Tracking	LaSOT	Precision	85	MCITrack-L384
Object Tracking	LaSOT	AUC	75.3	MCITrack-B224
Object Tracking	LaSOT	Normalized Precision	85.6	MCITrack-B224
Object Tracking	LaSOT	Precision	83.3	MCITrack-B224
Object Tracking	GOT-10k	Average Overlap	80	MCITrack-L384
Object Tracking	GOT-10k	Success Rate 0.5	88.5	MCITrack-L384
Object Tracking	GOT-10k	Success Rate 0.75	80.2	MCITrack-L384
Object Tracking	GOT-10k	Average Overlap	77.9	MCITrack-B224
Object Tracking	GOT-10k	Success Rate 0.5	88.2	MCITrack-B224
Object Tracking	GOT-10k	Success Rate 0.75	76.8	MCITrack-B224
Object Tracking	LaSOT-ext	AUC	55.7	MCITrack-L384
Object Tracking	LaSOT-ext	Normalized Precision	66.5	MCITrack-L384
Object Tracking	LaSOT-ext	Precision	62.9	MCITrack-L384
Object Tracking	LaSOT-ext	AUC	54.6	MCITrack-B224
Object Tracking	LaSOT-ext	Normalized Precision	65.7	MCITrack-B224
Object Tracking	LaSOT-ext	Precision	62.1	MCITrack-B224
Object Tracking	TrackingNet	Accuracy	87.9	MCITrack-L384
Object Tracking	TrackingNet	Normalized Precision	92.1	MCITrack-L384
Object Tracking	TrackingNet	Precision	89.2	MCITrack-L384
Object Tracking	TrackingNet	Accuracy	86.3	MCITrack-B224
Object Tracking	TrackingNet	Normalized Precision	90.9	MCITrack-B224
Object Tracking	TrackingNet	Precision	86.1	MCITrack-B224
Video Object Segmentation	VOT2020	EAO	0.624	MCITrack-L384
Video Object Segmentation	VOT2020	EAO	0.619	MCITrack-B224
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.624	MCITrack-L384
Semi-Supervised Video Object Segmentation	VOT2020	EAO	0.619	MCITrack-B224
Visual Object Tracking	TNL2K	AUC	65.3	MCITrack-L384
Visual Object Tracking	TNL2K	AUC	62.9	MCITrack-B224
Visual Object Tracking	LaSOT	AUC	76.6	MCITrack-L384
Visual Object Tracking	LaSOT	Normalized Precision	86.1	MCITrack-L384
Visual Object Tracking	LaSOT	Precision	85	MCITrack-L384
Visual Object Tracking	LaSOT	AUC	75.3	MCITrack-B224
Visual Object Tracking	LaSOT	Normalized Precision	85.6	MCITrack-B224
Visual Object Tracking	LaSOT	Precision	83.3	MCITrack-B224
Visual Object Tracking	GOT-10k	Average Overlap	80	MCITrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.5	88.5	MCITrack-L384
Visual Object Tracking	GOT-10k	Success Rate 0.75	80.2	MCITrack-L384
Visual Object Tracking	GOT-10k	Average Overlap	77.9	MCITrack-B224
Visual Object Tracking	GOT-10k	Success Rate 0.5	88.2	MCITrack-B224
Visual Object Tracking	GOT-10k	Success Rate 0.75	76.8	MCITrack-B224
Visual Object Tracking	LaSOT-ext	AUC	55.7	MCITrack-L384
Visual Object Tracking	LaSOT-ext	Normalized Precision	66.5	MCITrack-L384
Visual Object Tracking	LaSOT-ext	Precision	62.9	MCITrack-L384
Visual Object Tracking	LaSOT-ext	AUC	54.6	MCITrack-B224
Visual Object Tracking	LaSOT-ext	Normalized Precision	65.7	MCITrack-B224
Visual Object Tracking	LaSOT-ext	Precision	62.1	MCITrack-B224
Visual Object Tracking	TrackingNet	Accuracy	87.9	MCITrack-L384
Visual Object Tracking	TrackingNet	Normalized Precision	92.1	MCITrack-L384
Visual Object Tracking	TrackingNet	Precision	89.2	MCITrack-L384
Visual Object Tracking	TrackingNet	Accuracy	86.3	MCITrack-B224
Visual Object Tracking	TrackingNet	Normalized Precision	90.9	MCITrack-B224
Visual Object Tracking	TrackingNet	Precision	86.1	MCITrack-B224

Exploring Enhanced Contextual Information for Video-Level Object Tracking

Abstract

Results

Related Papers

Exploring Enhanced Contextual Information for Video-Level Object Tracking

Abstract

Results

Related Papers