BAMM: Bidirectional Autoregressive Motion Model

Ekkasit Pinyoanuntapong, Muhammad Usama Saleem, Pu Wang, Minwoo Lee, Srijan Das, Chen Chen

2024-03-28Denoising Motion Generation Motion Synthesis

Abstract

Generating human motion from text has been dominated by denoising motion models either through diffusion or generative masking process. However, these models face great limitations in usability by requiring prior knowledge of the motion length. Conversely, autoregressive motion models address this limitation by adaptively predicting motion endpoints, at the cost of degraded generation quality and editing capabilities. To address these challenges, we propose Bidirectional Autoregressive Motion Model (BAMM), a novel text-to-motion generation framework. BAMM consists of two key components: (1) a motion tokenizer that transforms 3D human motion into discrete tokens in latent space, and (2) a masked self-attention transformer that autoregressively predicts randomly masked tokens via a hybrid attention masking strategy. By unifying generative masked modeling and autoregressive modeling, BAMM captures rich and bidirectional dependencies among motion tokens, while learning the probabilistic mapping from textual inputs to motion outputs with dynamically-adjusted motion sequence length. This feature enables BAMM to simultaneously achieving high-quality motion generation with enhanced usability and built-in motion editability. Extensive experiments on HumanML3D and KIT-ML datasets demonstrate that BAMM surpasses current state-of-the-art methods in both qualitative and quantitative measures. Our project page is available at https://exitudio.github.io/BAMM-page

Results

Task	Dataset	Metric	Value	Model
Pose Tracking	HumanML3D	Diversity	9.717	BAMM
Pose Tracking	HumanML3D	FID	0.055	BAMM
Pose Tracking	HumanML3D	Multimodality	1.687	BAMM
Pose Tracking	HumanML3D	R Precision Top3	0.814	BAMM
Pose Tracking	KIT Motion-Language	Diversity	11.008	BAMM
Pose Tracking	KIT Motion-Language	FID	0.183	BAMM
Pose Tracking	KIT Motion-Language	Multimodality	1.609	BAMM
Pose Tracking	KIT Motion-Language	R Precision Top3	0.788	BAMM
Motion Synthesis	HumanML3D	Diversity	9.717	BAMM
Motion Synthesis	HumanML3D	FID	0.055	BAMM
Motion Synthesis	HumanML3D	Multimodality	1.687	BAMM
Motion Synthesis	HumanML3D	R Precision Top3	0.814	BAMM
Motion Synthesis	KIT Motion-Language	Diversity	11.008	BAMM
Motion Synthesis	KIT Motion-Language	FID	0.183	BAMM
Motion Synthesis	KIT Motion-Language	Multimodality	1.609	BAMM
Motion Synthesis	KIT Motion-Language	R Precision Top3	0.788	BAMM
10-shot image generation	HumanML3D	Diversity	9.717	BAMM
10-shot image generation	HumanML3D	FID	0.055	BAMM
10-shot image generation	HumanML3D	Multimodality	1.687	BAMM
10-shot image generation	HumanML3D	R Precision Top3	0.814	BAMM
10-shot image generation	KIT Motion-Language	Diversity	11.008	BAMM
10-shot image generation	KIT Motion-Language	FID	0.183	BAMM
10-shot image generation	KIT Motion-Language	Multimodality	1.609	BAMM
10-shot image generation	KIT Motion-Language	R Precision Top3	0.788	BAMM
3D Human Pose Tracking	HumanML3D	Diversity	9.717	BAMM
3D Human Pose Tracking	HumanML3D	FID	0.055	BAMM
3D Human Pose Tracking	HumanML3D	Multimodality	1.687	BAMM
3D Human Pose Tracking	HumanML3D	R Precision Top3	0.814	BAMM
3D Human Pose Tracking	KIT Motion-Language	Diversity	11.008	BAMM
3D Human Pose Tracking	KIT Motion-Language	FID	0.183	BAMM
3D Human Pose Tracking	KIT Motion-Language	Multimodality	1.609	BAMM
3D Human Pose Tracking	KIT Motion-Language	R Precision Top3	0.788	BAMM

BAMM: Bidirectional Autoregressive Motion Model

Abstract

Results

Related Papers

BAMM: Bidirectional Autoregressive Motion Model

Abstract

Results

Related Papers