Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

Liting Lin, Heng Fan, Zhipeng Zhang, YaoWei Wang, Yong Xu, Haibin Ling

2024-03-08Visual Object Tracking Visual Tracking parameter-efficient fine-tuning

Abstract

Motivated by the Parameter-Efficient Fine-Tuning (PEFT) in large language models, we propose LoRAT, a method that unveils the power of large ViT model for tracking within laboratory-level resources. The essence of our work lies in adapting LoRA, a technique that fine-tunes a small subset of model parameters without adding inference latency, to the domain of visual tracking. However, unique challenges and potential domain gaps make this transfer not as easy as the first intuition. Firstly, a transformer-based tracker constructs unshared position embedding for template and search image. This poses a challenge for the transfer of LoRA, usually requiring consistency in the design when applied to the pre-trained backbone, to downstream tasks. Secondly, the inductive bias inherent in convolutional heads diminishes the effectiveness of parameter-efficient fine-tuning in tracking models. To overcome these limitations, we first decouple the position embeddings in transformer-based trackers into shared spatial ones and independent type ones. The shared embeddings, which describe the absolute coordinates of multi-resolution images (namely, the template and search images), are inherited from the pre-trained backbones. In contrast, the independent embeddings indicate the sources of each token and are learned from scratch. Furthermore, we design an anchor-free head solely based on MLP to adapt PETR, enabling better performance with less computational overhead. With our design, 1) it becomes practical to train trackers with the ViT-g backbone on GPUs with only memory of 25.8GB (batch size of 16); 2) we reduce the training time of the L-224 variant from 35.0 to 10.8 GPU hours; 3) we improve the LaSOT SUC score from 0.703 to 0.742 with the L-224 variant; 4) we fast the inference speed of the L-224 variant from 52 to 119 FPS. Code and models are available at https://github.com/LitingLin/LoRAT.

Results

Task	Dataset	Metric	Value	Model
Object Tracking	TNL2K	AUC	62.7	LoRAT-g-378
Object Tracking	TNL2K	precision	67.8	LoRAT-g-378
Object Tracking	TNL2K	AUC	62.3	LoRAT-L-378
Object Tracking	TNL2K	precision	67	LoRAT-L-378
Object Tracking	UAV123	AUC	0.739	LoRAT-g-378
Object Tracking	UAV123	AUC	0.725	LoRAT-L-378
Object Tracking	LaSOT	AUC	76.2	LoRAT-g-378
Object Tracking	LaSOT	Normalized Precision	85.3	LoRAT-g-378
Object Tracking	LaSOT	Precision	83.5	LoRAT-g-378
Object Tracking	LaSOT	AUC	75.1	LoRAT-L-378
Object Tracking	LaSOT	Normalized Precision	84.1	LoRAT-L-378
Object Tracking	LaSOT	Precision	82	LoRAT-L-378
Object Tracking	NeedForSpeed	AUC	0.681	LoRAT-g-378
Object Tracking	NeedForSpeed	AUC	0.667	LoRAT-L-378
Object Tracking	GOT-10k	Average Overlap	78.9	LoRAT-g-378
Object Tracking	GOT-10k	Success Rate 0.5	87.8	LoRAT-g-378
Object Tracking	GOT-10k	Success Rate 0.75	80.7	LoRAT-g-378
Object Tracking	GOT-10k	Average Overlap	77.5	LoRAT-L-378
Object Tracking	GOT-10k	Success Rate 0.5	86.2	LoRAT-L-378
Object Tracking	GOT-10k	Success Rate 0.75	78.1	LoRAT-L-378
Object Tracking	LaSOT-ext	AUC	56.6	LoRAT-L-378
Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-L-378
Object Tracking	LaSOT-ext	Precision	65.1	LoRAT-L-378
Object Tracking	LaSOT-ext	AUC	56.5	LoRAT-g-378
Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-g-378
Object Tracking	LaSOT-ext	Precision	64.9	LoRAT-g-378
Object Tracking	TrackingNet	Accuracy	86	LoRAT-g-378
Object Tracking	TrackingNet	Normalized Precision	90.2	LoRAT-g-378
Object Tracking	TrackingNet	Precision	86.1	LoRAT-g-378
Object Tracking	TrackingNet	Accuracy	85.6	LoRAT-L-378
Object Tracking	TrackingNet	Normalized Precision	89.7	LoRAT-L-378
Object Tracking	TrackingNet	Precision	85.4	LoRAT-L-378
Visual Object Tracking	TNL2K	AUC	62.7	LoRAT-g-378
Visual Object Tracking	TNL2K	precision	67.8	LoRAT-g-378
Visual Object Tracking	TNL2K	AUC	62.3	LoRAT-L-378
Visual Object Tracking	TNL2K	precision	67	LoRAT-L-378
Visual Object Tracking	UAV123	AUC	0.739	LoRAT-g-378
Visual Object Tracking	UAV123	AUC	0.725	LoRAT-L-378
Visual Object Tracking	LaSOT	AUC	76.2	LoRAT-g-378
Visual Object Tracking	LaSOT	Normalized Precision	85.3	LoRAT-g-378
Visual Object Tracking	LaSOT	Precision	83.5	LoRAT-g-378
Visual Object Tracking	LaSOT	AUC	75.1	LoRAT-L-378
Visual Object Tracking	LaSOT	Normalized Precision	84.1	LoRAT-L-378
Visual Object Tracking	LaSOT	Precision	82	LoRAT-L-378
Visual Object Tracking	NeedForSpeed	AUC	0.681	LoRAT-g-378
Visual Object Tracking	NeedForSpeed	AUC	0.667	LoRAT-L-378
Visual Object Tracking	GOT-10k	Average Overlap	78.9	LoRAT-g-378
Visual Object Tracking	GOT-10k	Success Rate 0.5	87.8	LoRAT-g-378
Visual Object Tracking	GOT-10k	Success Rate 0.75	80.7	LoRAT-g-378
Visual Object Tracking	GOT-10k	Average Overlap	77.5	LoRAT-L-378
Visual Object Tracking	GOT-10k	Success Rate 0.5	86.2	LoRAT-L-378
Visual Object Tracking	GOT-10k	Success Rate 0.75	78.1	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	AUC	56.6	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	Precision	65.1	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	AUC	56.5	LoRAT-g-378
Visual Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-g-378
Visual Object Tracking	LaSOT-ext	Precision	64.9	LoRAT-g-378
Visual Object Tracking	TrackingNet	Accuracy	86	LoRAT-g-378
Visual Object Tracking	TrackingNet	Normalized Precision	90.2	LoRAT-g-378
Visual Object Tracking	TrackingNet	Precision	86.1	LoRAT-g-378
Visual Object Tracking	TrackingNet	Accuracy	85.6	LoRAT-L-378
Visual Object Tracking	TrackingNet	Normalized Precision	89.7	LoRAT-L-378
Visual Object Tracking	TrackingNet	Precision	85.4	LoRAT-L-378

Abstract

Results

Task	Dataset	Metric	Value	Model
Object Tracking	TNL2K	AUC	62.7	LoRAT-g-378
Object Tracking	TNL2K	precision	67.8	LoRAT-g-378
Object Tracking	TNL2K	AUC	62.3	LoRAT-L-378
Object Tracking	TNL2K	precision	67	LoRAT-L-378
Object Tracking	UAV123	AUC	0.739	LoRAT-g-378
Object Tracking	UAV123	AUC	0.725	LoRAT-L-378
Object Tracking	LaSOT	AUC	76.2	LoRAT-g-378
Object Tracking	LaSOT	Normalized Precision	85.3	LoRAT-g-378
Object Tracking	LaSOT	Precision	83.5	LoRAT-g-378
Object Tracking	LaSOT	AUC	75.1	LoRAT-L-378
Object Tracking	LaSOT	Normalized Precision	84.1	LoRAT-L-378
Object Tracking	LaSOT	Precision	82	LoRAT-L-378
Object Tracking	NeedForSpeed	AUC	0.681	LoRAT-g-378
Object Tracking	NeedForSpeed	AUC	0.667	LoRAT-L-378
Object Tracking	GOT-10k	Average Overlap	78.9	LoRAT-g-378
Object Tracking	GOT-10k	Success Rate 0.5	87.8	LoRAT-g-378
Object Tracking	GOT-10k	Success Rate 0.75	80.7	LoRAT-g-378
Object Tracking	GOT-10k	Average Overlap	77.5	LoRAT-L-378
Object Tracking	GOT-10k	Success Rate 0.5	86.2	LoRAT-L-378
Object Tracking	GOT-10k	Success Rate 0.75	78.1	LoRAT-L-378
Object Tracking	LaSOT-ext	AUC	56.6	LoRAT-L-378
Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-L-378
Object Tracking	LaSOT-ext	Precision	65.1	LoRAT-L-378
Object Tracking	LaSOT-ext	AUC	56.5	LoRAT-g-378
Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-g-378
Object Tracking	LaSOT-ext	Precision	64.9	LoRAT-g-378
Object Tracking	TrackingNet	Accuracy	86	LoRAT-g-378
Object Tracking	TrackingNet	Normalized Precision	90.2	LoRAT-g-378
Object Tracking	TrackingNet	Precision	86.1	LoRAT-g-378
Object Tracking	TrackingNet	Accuracy	85.6	LoRAT-L-378
Object Tracking	TrackingNet	Normalized Precision	89.7	LoRAT-L-378
Object Tracking	TrackingNet	Precision	85.4	LoRAT-L-378
Visual Object Tracking	TNL2K	AUC	62.7	LoRAT-g-378
Visual Object Tracking	TNL2K	precision	67.8	LoRAT-g-378
Visual Object Tracking	TNL2K	AUC	62.3	LoRAT-L-378
Visual Object Tracking	TNL2K	precision	67	LoRAT-L-378
Visual Object Tracking	UAV123	AUC	0.739	LoRAT-g-378
Visual Object Tracking	UAV123	AUC	0.725	LoRAT-L-378
Visual Object Tracking	LaSOT	AUC	76.2	LoRAT-g-378
Visual Object Tracking	LaSOT	Normalized Precision	85.3	LoRAT-g-378
Visual Object Tracking	LaSOT	Precision	83.5	LoRAT-g-378
Visual Object Tracking	LaSOT	AUC	75.1	LoRAT-L-378
Visual Object Tracking	LaSOT	Normalized Precision	84.1	LoRAT-L-378
Visual Object Tracking	LaSOT	Precision	82	LoRAT-L-378
Visual Object Tracking	NeedForSpeed	AUC	0.681	LoRAT-g-378
Visual Object Tracking	NeedForSpeed	AUC	0.667	LoRAT-L-378
Visual Object Tracking	GOT-10k	Average Overlap	78.9	LoRAT-g-378
Visual Object Tracking	GOT-10k	Success Rate 0.5	87.8	LoRAT-g-378
Visual Object Tracking	GOT-10k	Success Rate 0.75	80.7	LoRAT-g-378
Visual Object Tracking	GOT-10k	Average Overlap	77.5	LoRAT-L-378
Visual Object Tracking	GOT-10k	Success Rate 0.5	86.2	LoRAT-L-378
Visual Object Tracking	GOT-10k	Success Rate 0.75	78.1	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	AUC	56.6	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	Precision	65.1	LoRAT-L-378
Visual Object Tracking	LaSOT-ext	AUC	56.5	LoRAT-g-378
Visual Object Tracking	LaSOT-ext	Normalized Precision	69	LoRAT-g-378
Visual Object Tracking	LaSOT-ext	Precision	64.9	LoRAT-g-378
Visual Object Tracking	TrackingNet	Accuracy	86	LoRAT-g-378
Visual Object Tracking	TrackingNet	Normalized Precision	90.2	LoRAT-g-378
Visual Object Tracking	TrackingNet	Precision	86.1	LoRAT-g-378
Visual Object Tracking	TrackingNet	Accuracy	85.6	LoRAT-L-378
Visual Object Tracking	TrackingNet	Normalized Precision	89.7	LoRAT-L-378
Visual Object Tracking	TrackingNet	Precision	85.4	LoRAT-L-378

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

Abstract

Results

Related Papers

Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance

Abstract

Results

Related Papers