ActivityNet Captions

TextsVideosUnknownIntroduced 2017-01-01

The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.

Source: Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning Image Source: https://cs.stanford.edu/people/ranjaykrishna/densevid/

Benchmarks

10-shot image generation/Recall@Sum Action Localization/Average F1 Action Localization/Average Precision Action Localization/Average Recall Dense Captioning/Live Score Dense Video Captioning/METEOR Dense Video Captioning/BLEU-3 Dense Video Captioning/BLEU-4 Dense Video Captioning/CIDEr Dense Video Captioning/SODA Dense Video Captioning/DIV-1 Dense Video Captioning/DIV-2 Dense Video Captioning/RE-4 Dense Video Captioning/BLEU4 Dense Video Captioning/F1 Dense Video Captioning/Precision Dense Video Captioning/Recall Temporal Action Localization/Average F1 Temporal Action Localization/Average Precision Temporal Action Localization/Average Recall Text to Video Retrieval/Recall@Sum Video/Average F1 Video/Average Precision Video/Average Recall Video/R@1,IoU=0.5 Video/R@1,IoU=0.7 Video/R@5,IoU=0.5 Video/R@5,IoU=0.7 Video Captioning/BLEU4 Video Captioning/BLEU-3 Video Captioning/CIDEr Video Captioning/ROUGE-L Video Captioning/METEOR Video Captioning/BLEU-4 Video Captioning/SODA Video Captioning/DIV-1 Video Captioning/DIV-2 Video Captioning/RE-4 Video Captioning/F1 Video Captioning/Precision Video Captioning/Recall Video Captioning/Live Score Zero-Shot Learning/Average F1 Zero-Shot Learning/Average Precision Zero-Shot Learning/Average Recall