Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Datasets/ActivityNet

ActivityNet

VideosUnknownIntroduced 2015-01-01

The ActivityNet dataset contains 200 different types of activities and a total of 849 hours of videos collected from YouTube. ActivityNet is the largest benchmark for temporal activity detection to date in terms of both the number of activity categories and number of videos, making the task particularly challenging. Version 1.3 of the dataset contains 19994 untrimmed videos in total and is divided into three disjoint subsets, training, validation, and testing by a ratio of 2:1:1. On average, each activity category has 137 untrimmed videos. Each video on average has 1.41 activities which are annotated with temporal boundaries. The ground-truth annotations of test videos are not public.

Source: Dynamic Temporal Pyramid Network: A Closer Look at Multi-Scale Modeling for Activity Detection

Benchmarks

Action Detection/mIoU Action Recognition/mAP Action Recognition In Videos/mAP Activity Recognition/mAP Video/text-to-video R@1 Video/text-to-video R@5 Video/text-to-video R@10 Video/text-to-video R@50 Video/text-to-video Mean Rank Video/text-to-video Median Rank Video/video-to-text R@1 Video/video-to-text R@5 Video/video-to-text Mean Rank Video/video-to-text Median Rank Video/video-to-text R@10 Video/video-to-text R@50 Video/Top 1 Accuracy Video/Top 5 Accuracy Video Retrieval/text-to-video R@1 Video Retrieval/text-to-video R@5 Video Retrieval/text-to-video R@10 Video Retrieval/text-to-video R@50 Video Retrieval/text-to-video Mean Rank Video Retrieval/text-to-video Median Rank Video Retrieval/video-to-text R@1 Video Retrieval/video-to-text R@5 Video Retrieval/video-to-text Mean Rank Video Retrieval/video-to-text Median Rank Video Retrieval/video-to-text R@10 Video Retrieval/video-to-text R@50 Visual Question Answering (VQA)/ClipMatch@1 Visual Question Answering (VQA)/ClipMatch@5 Visual Question Answering (VQA)/Contains Visual Question Answering (VQA)/ExactMatch Visual Question Answering (VQA)/Follow-up ClipMatch@1 Visual Question Answering (VQA)/Follow-up ClipMatch@5 Visual Question Answering (VQA)/Follow-up Contains Visual Question Answering (VQA)/Follow-up ExactMatch Zero-Shot Action Recognition/Top-1 Accuracy Zero-Shot Video Retrieval/text-to-video R@1 Zero-Shot Video Retrieval/text-to-video R@5 Zero-Shot Video Retrieval/text-to-video R@10 Zero-Shot Video Retrieval/video-to-text R@1 Zero-Shot Video Retrieval/video-to-text R@5 Zero-Shot Video Retrieval/video-to-text R@10

Related Benchmarks

ActivityNet Adverbs/Video/Acc-A ActivityNet Adverbs/Video/mAP M ActivityNet Adverbs/Video/mAP W ActivityNet Adverbs/Video Retrieval/Acc-A ActivityNet Adverbs/Video Retrieval/mAP M ActivityNet Adverbs/Video Retrieval/mAP W ActivityNet Adverbs/Video-Adverb Retrieval/Acc-A ActivityNet Adverbs/Video-Adverb Retrieval/mAP M ActivityNet Adverbs/Video-Adverb Retrieval/mAP W ActivityNet Captions/10-shot image generation/Recall@Sum ActivityNet Captions/Action Localization/Average F1 ActivityNet Captions/Action Localization/Average Precision ActivityNet Captions/Action Localization/Average Recall ActivityNet Captions/Dense Captioning/Live Score ActivityNet Captions/Dense Video Captioning/BLEU-3 ActivityNet Captions/Dense Video Captioning/BLEU-4 ActivityNet Captions/Dense Video Captioning/BLEU4 ActivityNet Captions/Dense Video Captioning/CIDEr ActivityNet Captions/Dense Video Captioning/DIV-1 ActivityNet Captions/Dense Video Captioning/DIV-2 ActivityNet Captions/Dense Video Captioning/F1 ActivityNet Captions/Dense Video Captioning/METEOR ActivityNet Captions/Dense Video Captioning/Precision ActivityNet Captions/Dense Video Captioning/RE-4 ActivityNet Captions/Dense Video Captioning/Recall ActivityNet Captions/Dense Video Captioning/SODA ActivityNet Captions/Temporal Action Localization/Average F1 ActivityNet Captions/Temporal Action Localization/Average Precision ActivityNet Captions/Temporal Action Localization/Average Recall ActivityNet Captions/Text to Video Retrieval/Recall@Sum ActivityNet Captions/Video/Average F1 ActivityNet Captions/Video/Average Precision ActivityNet Captions/Video/Average Recall ActivityNet Captions/Video/R@1,IoU=0.5 ActivityNet Captions/Video/R@1,IoU=0.7 ActivityNet Captions/Video/R@5,IoU=0.5 ActivityNet Captions/Video/R@5,IoU=0.7 ActivityNet Captions/Video Captioning/BLEU-3 ActivityNet Captions/Video Captioning/BLEU-4 ActivityNet Captions/Video Captioning/BLEU4 ActivityNet Captions/Video Captioning/CIDEr ActivityNet Captions/Video Captioning/DIV-1 ActivityNet Captions/Video Captioning/DIV-2 ActivityNet Captions/Video Captioning/F1 ActivityNet Captions/Video Captioning/Live Score ActivityNet Captions/Video Captioning/METEOR ActivityNet Captions/Video Captioning/Precision ActivityNet Captions/Video Captioning/RE-4 ActivityNet Captions/Video Captioning/ROUGE-L ActivityNet Captions/Video Captioning/Recall ActivityNet Captions/Video Captioning/SODA ActivityNet Captions/Zero-Shot Learning/Average F1 ActivityNet Captions/Zero-Shot Learning/Average Precision ActivityNet Captions/Zero-Shot Learning/Average Recall ActivityNet-1.2/Action Localization/Mean mAP ActivityNet-1.2/Action Localization/mAP IOU@0.1 ActivityNet-1.2/Action Localization/mAP IOU@0.3 ActivityNet-1.2/Action Localization/mAP IOU@0.5 ActivityNet-1.2/Action Localization/mAP IOU@0.7 ActivityNet-1.2/Action Localization/mAP@0.5 ActivityNet-1.2/Temporal Action Localization/Mean mAP ActivityNet-1.2/Temporal Action Localization/mAP IOU@0.1 ActivityNet-1.2/Temporal Action Localization/mAP IOU@0.3 ActivityNet-1.2/Temporal Action Localization/mAP IOU@0.5 ActivityNet-1.2/Temporal Action Localization/mAP IOU@0.7 ActivityNet-1.2/Temporal Action Localization/mAP@0.5 ActivityNet-1.2/Video/Mean mAP ActivityNet-1.2/Video/mAP ActivityNet-1.2/Video/mAP IOU@0.1 ActivityNet-1.2/Video/mAP IOU@0.3 ActivityNet-1.2/Video/mAP IOU@0.5 ActivityNet-1.2/Video/mAP IOU@0.7 ActivityNet-1.2/Video/mAP@0.5 ActivityNet-1.2/Weakly Supervised Action Localization/Mean mAP ActivityNet-1.2/Weakly Supervised Action Localization/mAP@0.5 ActivityNet-1.2/Zero-Shot Learning/Mean mAP ActivityNet-1.2/Zero-Shot Learning/mAP IOU@0.1 ActivityNet-1.2/Zero-Shot Learning/mAP IOU@0.3 ActivityNet-1.2/Zero-Shot Learning/mAP IOU@0.5 ActivityNet-1.2/Zero-Shot Learning/mAP IOU@0.7 ActivityNet-1.2/Zero-Shot Learning/mAP@0.5 ActivityNet-1.3/Action Localization/AR@100 ActivityNet-1.3/Action Localization/AUC (test)ActivityNet-1.3/Action Localization/AUC (val)ActivityNet-1.3/Action Localization/mAP ActivityNet-1.3/Action Localization/mAP IOU@0.5 ActivityNet-1.3/Action Localization/mAP IOU@0.75 ActivityNet-1.3/Action Localization/mAP IOU@0.95 ActivityNet-1.3/Action Localization/mAP@0.5 ActivityNet-1.3/Action Localization/mAP@0.5:0.95 ActivityNet-1.3/Temporal Action Localization/AR@100 ActivityNet-1.3/Temporal Action Localization/AUC (test)ActivityNet-1.3/Temporal Action Localization/AUC (val)ActivityNet-1.3/Temporal Action Localization/mAP ActivityNet-1.3/Temporal Action Localization/mAP IOU@0.5 ActivityNet-1.3/Temporal Action Localization/mAP IOU@0.75 ActivityNet-1.3/Temporal Action Localization/mAP IOU@0.95 ActivityNet-1.3/Temporal Action Localization/mAP@0.5 ActivityNet-1.3/Temporal Action Localization/mAP@0.5:0.95 ActivityNet-1.3/Video/AR@100 ActivityNet-1.3/Video/AUC (test)ActivityNet-1.3/Video/AUC (val)ActivityNet-1.3/Video/mAP ActivityNet-1.3/Video/mAP IOU@0.5 ActivityNet-1.3/Video/mAP IOU@0.75 ActivityNet-1.3/Video/mAP IOU@0.95 ActivityNet-1.3/Video/mAP@0.5 ActivityNet-1.3/Video/mAP@0.5:0.95 ActivityNet-1.3/Weakly Supervised Action Localization/mAP@0.5 ActivityNet-1.3/Weakly Supervised Action Localization/mAP@0.5:0.95 ActivityNet-1.3/Weakly-supervised Temporal Action Localization/mAP ActivityNet-1.3/Weakly-supervised Temporal Action Localization/mAP IOU@0.5 ActivityNet-1.3/Weakly-supervised Temporal Action Localization/mAP IOU@0.75 ActivityNet-1.3/Weakly-supervised Temporal Action Localization/mAP IOU@0.95 ActivityNet-1.3/Zero-Shot Learning/AR@100 ActivityNet-1.3/Zero-Shot Learning/AUC (test)ActivityNet-1.3/Zero-Shot Learning/AUC (val)ActivityNet-1.3/Zero-Shot Learning/mAP ActivityNet-1.3/Zero-Shot Learning/mAP IOU@0.5 ActivityNet-1.3/Zero-Shot Learning/mAP IOU@0.75 ActivityNet-1.3/Zero-Shot Learning/mAP IOU@0.95 ActivityNet-1.3/Zero-Shot Learning/mAP@0.5 ActivityNet-1.3/Zero-Shot Learning/mAP@0.5:0.95 ActivityNet-GZSL (cls)/Zero-Shot Learning/HM ActivityNet-GZSL (cls)/Zero-Shot Learning/ZSL ActivityNet-GZSL(main)/Zero-Shot Learning/HM ActivityNet-GZSL(main)/Zero-Shot Learning/ZSL ActivityNet-QA/Question Answering/Accuracy ActivityNet-QA/Question Answering/Confidence Score ActivityNet-QA/Video Question Answering/Accuracy ActivityNet-QA/Video Question Answering/Confidence Score ActivityNet-QA/Video Question Answering/Confidence score

Statistics

Papers: 807
Benchmarks: 45

Links

Tasks

Action Classification Action Detection Action Recognition Action Recognition In Videos Activity Recognition Few Shot Temporal Action Localization GZSL Video Classification Semi-Supervised Action Detection Temporal Action Localization Temporal Action Proposal Generation Video Video Retrieval Visual Question Answering (VQA)Weakly Supervised Action Localization Weakly-supervised Temporal Action Localization ZSL Video Classification Zero-Shot Action Detection Zero-Shot Action Recognition Zero-Shot Video Retrieval