Action Segmentation on COIN

Metric: Frame accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Frame accuracy▼	Extra Data	Paper	Date↕	Code
1	UnLoc-L	72.8	No	UnLoc: A Unified Framework for Video Localizatio...	2023-08-21	Code
2	Univl	70	Yes	UniVL: A Unified Video and Language Pre-Training...	2020-02-15	Code
3	Norton	69.8	Yes	Multi-granularity Correspondence Learning from L...	2024-01-30	Code
4	VideoClip	68.7	Yes	VideoCLIP: Contrastive Pre-training for Zero-sho...	2021-09-28	Code
5	VLM	68.4	Yes	VLM: Task-agnostic Video-Language Model Pre-trai...	2021-05-20	Code
6	TACo	68.4	No	TACo: Token-aware Cascade Contrastive Learning f...	2021-08-23	-
7	MIL-NCE	61	No	End-to-End Learning of Visual Representations fr...	2019-12-13	Code
8	ActBERT	57	No	ActBERT: Learning Global-Local Video-Text Repres...	2020-11-14	Code
9	CBT	53.9	No	End-to-End Learning of Visual Representations fr...	2019-12-13	Code

#1UnLoc-LSOTA
72.8
Frame accuracy· 2023-08-21
UnLoc: A Unified Framework for Video Localization Tasks Code
#2UnivlSOTA
70
Frame accuracy· Extra Data· 2020-02-15
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation Code
#3Norton
69.8
Frame accuracy· Extra Data· 2024-01-30
Multi-granularity Correspondence Learning from Long-term Noisy Videos Code
#4VideoClip
68.7
Frame accuracy· Extra Data· 2021-09-28
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Code
#5VLM
68.4
Frame accuracy· Extra Data· 2021-05-20
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding Code
#6TACo
68.4
Frame accuracy· 2021-08-23
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment
#7MIL-NCESOTA
61
Frame accuracy· 2019-12-13
End-to-End Learning of Visual Representations from Uncurated Instructional Videos Code
#8ActBERT
57
Frame accuracy· 2020-11-14
ActBERT: Learning Global-Local Video-Text Representations Code
#9CBT
53.9
Frame accuracy· 2019-12-13
End-to-End Learning of Visual Representations from Uncurated Instructional Videos Code