TMD

Text-Music-Dance

Introduced 2025-03-10

The Text-Music-Dance (TMD) dataset establishes a pioneering benchmark comprising 2,153 text-music-motion pairs. Dance motions and corresponding text annotations are sourced from Motion-X, incorporating AIST++ and other datasets. For motion-text pairs lacking music, corresponding music is generated using Stable Audio Open with beat adjustment and validated through expert assessments, ensuring inter-rater reliability.

Benchmarks

10-shot image generation/FID 10-shot image generation/BAS 10-shot image generation/MModality 10-shot image generation/MMDist 3D Human Pose Tracking/FID 3D Human Pose Tracking/BAS 3D Human Pose Tracking/MModality 3D Human Pose Tracking/MMDist Motion Synthesis/FID Motion Synthesis/BAS Motion Synthesis/MModality Motion Synthesis/MMDist Pose Tracking/FID Pose Tracking/BAS Pose Tracking/MModality Pose Tracking/MMDist