Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering

Sateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran

2021-05-27CVPR 2022 1Action Segmentation Online Clustering Representation Learning Unsupervised Action Segmentation Clustering

Paper PDF Code(official)

Abstract

We present a novel approach for unsupervised activity segmentation which uses video frame clustering as a pretext task and simultaneously performs representation learning and online clustering. This is in contrast with prior works where representation learning and clustering are often performed sequentially. We leverage temporal information in videos by employing temporal optimal transport. In particular, we incorporate a temporal regularization term which preserves the temporal order of the activity into the standard optimal transport module for computing pseudo-label cluster assignments. The temporal optimal transport module enables our approach to learn effective representations for unsupervised activity segmentation. Furthermore, previous methods require storing learned features for the entire dataset before clustering them in an offline manner, whereas our approach processes one mini-batch at a time in an online manner. Extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par with or better than previous methods, despite having significantly less memory constraints. Our code and dataset are available on our research website: https://retrocausal.ai/research/

Results

Task	Dataset	Metric	Value	Model
Action Localization	IKEA ASM	Accuracy	23.8	TOT+TCL
Action Localization	IKEA ASM	F1	20.9	TOT+TCL
Action Localization	IKEA ASM	JSD	79.5	TOT+TCL
Action Localization	IKEA ASM	Precision	25.5	TOT+TCL
Action Localization	IKEA ASM	Recall	17.7	TOT+TCL
Action Localization	IKEA ASM	Accuracy	21	TOT
Action Localization	IKEA ASM	F1	20.1	TOT
Action Localization	IKEA ASM	JSD	80	TOT
Action Localization	IKEA ASM	Precision	24.4	TOT
Action Localization	IKEA ASM	Recall	17.1	TOT
Action Localization	50 Salads	Acc	45.3	TOT+TCL
Action Localization	50 Salads	F1	32.9	TOT+TCL
Action Localization	50 Salads	Acc	40.6	TOT
Action Localization	50 Salads	F1	30	TOT
Action Localization	Youtube INRIA Instructional	Acc	45.3	TOT+TCL
Action Localization	Youtube INRIA Instructional	F1	32.9	TOT+TCL
Action Localization	Youtube INRIA Instructional	Precision	40.1	TOT+TCL
Action Localization	Youtube INRIA Instructional	Recall	27.9	TOT+TCL
Action Localization	Youtube INRIA Instructional	Acc	40.6	TOT
Action Localization	Youtube INRIA Instructional	F1	30	TOT
Action Localization	Youtube INRIA Instructional	Precision	28.7	TOT
Action Localization	Youtube INRIA Instructional	Recall	31.4	TOT
Action Localization	Breakfast	Acc	47.5	TOT
Action Localization	Breakfast	F1	31	TOT
Action Localization	Breakfast	JSD	90.2	TOT
Action Localization	Breakfast	Precision	37.7	TOT
Action Localization	Breakfast	Recall	26.3	TOT
Action Localization	Breakfast	Acc	39	TOT+TCL
Action Localization	Breakfast	F1	30.3	TOT+TCL
Action Localization	Breakfast	JSD	85.6	TOT+TCL
Action Localization	Breakfast	Precision	26.2	TOT+TCL
Action Localization	Breakfast	Recall	36	TOT+TCL
Action Segmentation	IKEA ASM	Accuracy	23.8	TOT+TCL
Action Segmentation	IKEA ASM	F1	20.9	TOT+TCL
Action Segmentation	IKEA ASM	JSD	79.5	TOT+TCL
Action Segmentation	IKEA ASM	Precision	25.5	TOT+TCL
Action Segmentation	IKEA ASM	Recall	17.7	TOT+TCL
Action Segmentation	IKEA ASM	Accuracy	21	TOT
Action Segmentation	IKEA ASM	F1	20.1	TOT
Action Segmentation	IKEA ASM	JSD	80	TOT
Action Segmentation	IKEA ASM	Precision	24.4	TOT
Action Segmentation	IKEA ASM	Recall	17.1	TOT
Action Segmentation	50 Salads	Acc	45.3	TOT+TCL
Action Segmentation	50 Salads	F1	32.9	TOT+TCL
Action Segmentation	50 Salads	Acc	40.6	TOT
Action Segmentation	50 Salads	F1	30	TOT
Action Segmentation	Youtube INRIA Instructional	Acc	45.3	TOT+TCL
Action Segmentation	Youtube INRIA Instructional	F1	32.9	TOT+TCL
Action Segmentation	Youtube INRIA Instructional	Precision	40.1	TOT+TCL
Action Segmentation	Youtube INRIA Instructional	Recall	27.9	TOT+TCL
Action Segmentation	Youtube INRIA Instructional	Acc	40.6	TOT
Action Segmentation	Youtube INRIA Instructional	F1	30	TOT
Action Segmentation	Youtube INRIA Instructional	Precision	28.7	TOT
Action Segmentation	Youtube INRIA Instructional	Recall	31.4	TOT
Action Segmentation	Breakfast	Acc	47.5	TOT
Action Segmentation	Breakfast	F1	31	TOT
Action Segmentation	Breakfast	JSD	90.2	TOT
Action Segmentation	Breakfast	Precision	37.7	TOT
Action Segmentation	Breakfast	Recall	26.3	TOT
Action Segmentation	Breakfast	Acc	39	TOT+TCL
Action Segmentation	Breakfast	F1	30.3	TOT+TCL
Action Segmentation	Breakfast	JSD	85.6	TOT+TCL
Action Segmentation	Breakfast	Precision	26.2	TOT+TCL
Action Segmentation	Breakfast	Recall	36	TOT+TCL

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering

Abstract

Results

Related Papers

Unsupervised Action Segmentation by Joint Representation Learning and Online Clustering

Abstract

Results

Related Papers