MixFormer: End-to-End Tracking with Iterative Mixed Attention

Yutao Cui, Cheng Jiang, Gangshan Wu, LiMin Wang

2023-02-06Visual Object Tracking Object Tracking

Abstract

Visual object tracking often employs a multi-stage pipeline of feature extraction, target information integration, and bounding box estimation. To simplify this pipeline and unify the process of feature extraction and target information integration, in this paper, we present a compact tracking framework, termed as MixFormer, built upon transformers. Our core design is to utilize the flexibility of attention operations, and propose a Mixed Attention Module (MAM) for simultaneous feature extraction and target information integration. This synchronous modeling scheme allows to extract target-specific discriminative features and perform extensive communication between target and search area. Based on MAM, we build our MixFormer trackers simply by stacking multiple MAMs and placing a localization head on top. Specifically, we instantiate two types of MixFormer trackers, a hierarchical tracker MixCvT, and a non-hierarchical tracker MixViT. For these two trackers, we investigate a series of pre-training methods and uncover the different behaviors between supervised pre-training and self-supervised pre-training in our MixFormer trackers. We also extend the masked pre-training to our MixFormer trackers and design the competitive TrackMAE pre-training technique. Finally, to handle multiple target templates during online tracking, we devise an asymmetric attention scheme in MAM to reduce computational cost, and propose an effective score prediction module to select high-quality templates. Our MixFormer trackers set a new state-of-the-art performance on seven tracking benchmarks, including LaSOT, TrackingNet, VOT2020, GOT-10k, OTB100 and UAV123. In particular, our MixViT-L achieves AUC score of 73.3% on LaSOT, 86.1% on TrackingNet, EAO of 0.584 on VOT2020, and AO of 75.7% on GOT-10k. Code and trained models are publicly available at https://github.com/MCG-NJU/MixFormer.

Results

Task	Dataset	Metric	Value	Model
Object Tracking	LaSOT	AUC	73.3	MixViT-L(ConvMAE)
Object Tracking	LaSOT	Normalized Precision	82.8	MixViT-L(ConvMAE)
Object Tracking	LaSOT	Precision	80.3	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Average Overlap	75.7	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Success Rate 0.5	85.3	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Success Rate 0.75	75.1	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Accuracy	86.1	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Normalized Precision	90.3	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Precision	86	MixViT-L(ConvMAE)
Object Tracking	VOT2022	EAO	0.589	MixFormerM
Visual Object Tracking	LaSOT	AUC	73.3	MixViT-L(ConvMAE)
Visual Object Tracking	LaSOT	Normalized Precision	82.8	MixViT-L(ConvMAE)
Visual Object Tracking	LaSOT	Precision	80.3	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Average Overlap	75.7	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Success Rate 0.5	85.3	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Success Rate 0.75	75.1	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Accuracy	86.1	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Normalized Precision	90.3	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Precision	86	MixViT-L(ConvMAE)
Visual Object Tracking	VOT2022	EAO	0.589	MixFormerM

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Tracking	LaSOT	AUC	73.3	MixViT-L(ConvMAE)
Object Tracking	LaSOT	Normalized Precision	82.8	MixViT-L(ConvMAE)
Object Tracking	LaSOT	Precision	80.3	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Average Overlap	75.7	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Success Rate 0.5	85.3	MixViT-L(ConvMAE)
Object Tracking	GOT-10k	Success Rate 0.75	75.1	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Accuracy	86.1	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Normalized Precision	90.3	MixViT-L(ConvMAE)
Object Tracking	TrackingNet	Precision	86	MixViT-L(ConvMAE)
Object Tracking	VOT2022	EAO	0.589	MixFormerM
Visual Object Tracking	LaSOT	AUC	73.3	MixViT-L(ConvMAE)
Visual Object Tracking	LaSOT	Normalized Precision	82.8	MixViT-L(ConvMAE)
Visual Object Tracking	LaSOT	Precision	80.3	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Average Overlap	75.7	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Success Rate 0.5	85.3	MixViT-L(ConvMAE)
Visual Object Tracking	GOT-10k	Success Rate 0.75	75.1	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Accuracy	86.1	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Normalized Precision	90.3	MixViT-L(ConvMAE)
Visual Object Tracking	TrackingNet	Precision	86	MixViT-L(ConvMAE)
Visual Object Tracking	VOT2022	EAO	0.589	MixFormerM

MixFormer: End-to-End Tracking with Iterative Mixed Attention

Abstract

Results

Related Papers

MixFormer: End-to-End Tracking with Iterative Mixed Attention

Abstract

Results

Related Papers