Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu

2021-06-18Video Retrieval Representation Learning Optical Flow Estimation Video Recognition Self-Supervised Learning Data Augmentation Contrastive Learning Video Classification Action Recognition Retrieval Action Recognition In Videos Self-supervised Video Retrieval Self-Supervised Action Recognition

Paper PDF Code(official)

Abstract

Instance-level contrastive learning techniques, which rely on data augmentation and a contrastive loss function, have found great success in the domain of visual representation learning. They are not suitable for exploiting the rich dynamical structure of video however, as operations are done on many augmented instances. In this paper we propose "Video Cross-Stream Prototypical Contrasting", a novel method which predicts consistent prototype assignments from both RGB and optical flow views, operating on sets of samples. Specifically, we alternate the optimization process; while optimizing one of the streams, all views are mapped to one set of stream prototype vectors. Each of the assignments is predicted with all views except the one matching the prediction, pushing representations closer to their assigned prototypes. As a result, more efficient video embeddings with ingrained motion information are learned, without the explicit need for optical flow computation during inference. We obtain state-of-the-art results on nearest-neighbour video retrieval and action recognition, outperforming previous best by +3.2% on UCF101 using the S3D backbone (90.5% Top-1 acc), and by +7.2% on UCF101 and +15.1% on HMDB51 using the R(2+1)D backbone.

Results

Task	Dataset	Metric	Value	Model
Activity Recognition	UCF101 (finetuned)	3-fold Accuracy	90.5	ViCC (S3D; R+F)
Activity Recognition	UCF101 (finetuned)	3-fold Accuracy	88.8	ViCC (R2+1D; R+F)
Activity Recognition	UCF101 (finetuned)	3-fold Accuracy	84.3	ViCC (S3D; RGB)
Activity Recognition	UCF101 (finetuned)	3-fold Accuracy	82.8	ViCC (R2+1D; RGB)
Activity Recognition	UCF101	3-fold Accuracy	90.5	ViCC (S3D; R+F)
Activity Recognition	UCF101	3-fold Accuracy	88.8	ViCC (S3D; RGB)
Activity Recognition	UCF101	3-fold Accuracy	88.8	ViCC (R2+1D; R+F)
Activity Recognition	UCF101	3-fold Accuracy	82.8	ViCC (R2+1D; RGB)
Activity Recognition	UCF101	3-fold Accuracy	72.2	ViCC (S3D; RGB)
Activity Recognition	HMDB51	Top-1 Accuracy	62.2	ViCC (S3D; R+F)
Activity Recognition	HMDB51	Top-1 Accuracy	61.5	ViCC (R2+1D; R+F)
Activity Recognition	HMDB51	Top-1 Accuracy	52.4	ViCC (R2+1D; RGB)
Activity Recognition	HMDB51	Top-1 Accuracy	38.5	ViCC (S3D; RGB)
Activity Recognition	HMDB51 (finetuned)	Top-1 Accuracy	62.2	ViCC (S3D; R+F)
Activity Recognition	HMDB51 (finetuned)	Top-1 Accuracy	61.5	ViCC (R2+1D; R+F)
Activity Recognition	HMDB51 (finetuned)	Top-1 Accuracy	52.4	ViCC (R2+1D; RGB)
Activity Recognition	HMDB51 (finetuned)	Top-1 Accuracy	47.9	ViCC (S3D; RGB))
Action Recognition	UCF101 (finetuned)	3-fold Accuracy	90.5	ViCC (S3D; R+F)
Action Recognition	UCF101 (finetuned)	3-fold Accuracy	88.8	ViCC (R2+1D; R+F)
Action Recognition	UCF101 (finetuned)	3-fold Accuracy	84.3	ViCC (S3D; RGB)
Action Recognition	UCF101 (finetuned)	3-fold Accuracy	82.8	ViCC (R2+1D; RGB)
Action Recognition	UCF101	3-fold Accuracy	90.5	ViCC (S3D; R+F)
Action Recognition	UCF101	3-fold Accuracy	88.8	ViCC (S3D; RGB)
Action Recognition	UCF101	3-fold Accuracy	88.8	ViCC (R2+1D; R+F)
Action Recognition	UCF101	3-fold Accuracy	82.8	ViCC (R2+1D; RGB)
Action Recognition	UCF101	3-fold Accuracy	72.2	ViCC (S3D; RGB)
Action Recognition	HMDB51	Top-1 Accuracy	62.2	ViCC (S3D; R+F)
Action Recognition	HMDB51	Top-1 Accuracy	61.5	ViCC (R2+1D; R+F)
Action Recognition	HMDB51	Top-1 Accuracy	52.4	ViCC (R2+1D; RGB)
Action Recognition	HMDB51	Top-1 Accuracy	38.5	ViCC (S3D; RGB)
Action Recognition	HMDB51 (finetuned)	Top-1 Accuracy	62.2	ViCC (S3D; R+F)
Action Recognition	HMDB51 (finetuned)	Top-1 Accuracy	61.5	ViCC (R2+1D; R+F)
Action Recognition	HMDB51 (finetuned)	Top-1 Accuracy	52.4	ViCC (R2+1D; RGB)
Action Recognition	HMDB51 (finetuned)	Top-1 Accuracy	47.9	ViCC (S3D; RGB))

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Abstract

Results

Related Papers

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting

Abstract

Results

Related Papers