CoTracker: It is Better to Track Together

Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht

2023-07-14Point Tracking Optical Flow Estimation motion prediction Object Tracking

Abstract

We introduce CoTracker, a transformer-based model that tracks a large number of 2D points in long video sequences. Differently from most existing approaches that track points independently, CoTracker tracks them jointly, accounting for their dependencies. We show that joint tracking significantly improves tracking accuracy and robustness, and allows CoTracker to track occluded points and points outside of the camera view. We also introduce several innovations for this class of trackers, including using token proxies that significantly improve memory efficiency and allow CoTracker to track 70k points jointly and simultaneously at inference on a single GPU. CoTracker is an online algorithm that operates causally on short windows. However, it is trained utilizing unrolled windows as a recurrent network, maintaining tracks for long periods of time even when points are occluded or leave the field of view. Quantitatively, CoTracker substantially outperforms prior trackers on standard point-tracking benchmarks.

Results

Task	Dataset	Metric	Value	Model
Visual Tracking	TAP-Vid-DAVIS-First	Average Jaccard	62.2	CoTracker
Visual Tracking	TAP-Vid-DAVIS-First	Average PCK	75.7	CoTracker
Visual Tracking	TAP-Vid-DAVIS-First	Occlusion Accuracy	89.3	CoTracker
Visual Tracking	TAP-Vid-DAVIS	Average Jaccard	65.9	CoTracker
Visual Tracking	TAP-Vid-DAVIS	Average PCK	79.4	CoTracker
Visual Tracking	TAP-Vid-DAVIS	Occlusion Accuracy	89.9	CoTracker
Visual Tracking	TAP-Vid-Kinetics-First	Average Jaccard	48.8	CoTracker
Visual Tracking	TAP-Vid-Kinetics-First	Average PCK	64.5	CoTracker
Visual Tracking	TAP-Vid-Kinetics-First	Occlusion Accuracy	85.8	CoTracker
Point Tracking	TAP-Vid-DAVIS-First	Average Jaccard	62.2	CoTracker
Point Tracking	TAP-Vid-DAVIS-First	Average PCK	75.7	CoTracker
Point Tracking	TAP-Vid-DAVIS-First	Occlusion Accuracy	89.3	CoTracker
Point Tracking	TAP-Vid-DAVIS	Average Jaccard	65.9	CoTracker
Point Tracking	TAP-Vid-DAVIS	Average PCK	79.4	CoTracker
Point Tracking	TAP-Vid-DAVIS	Occlusion Accuracy	89.9	CoTracker
Point Tracking	TAP-Vid-Kinetics-First	Average Jaccard	48.8	CoTracker
Point Tracking	TAP-Vid-Kinetics-First	Average PCK	64.5	CoTracker
Point Tracking	TAP-Vid-Kinetics-First	Occlusion Accuracy	85.8	CoTracker

CoTracker: It is Better to Track Together

Abstract

Results

Related Papers

CoTracker: It is Better to Track Together

Abstract

Results

Related Papers