MOMA-LRG

Multi-Object Multi-Actor activity parsing with Language-Refined Graphs

TextsVideosCC BY-SA 4.0Introduced 2022-11-28

A dataset dedicated to multi-object, multi-actor activity parsing.

The dataset contains

Video-level labels (activities)
Segment-level labels (sub-activities)
Atomic actions (spatio-temporal scene graph)

The scene graph annotations contain object/actor classes and bounding boxes, relationship annotations, and object/actor attributes.

Benchmarks

Action Recognition/Activity Classification Accuracy (5-shot 5-way)Action Recognition/Subactivity Classification Accuracy (5-shot 5-way)Activity Recognition/Activity Classification Accuracy (5-shot 5-way)Activity Recognition/Subactivity Classification Accuracy (5-shot 5-way)