YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

Sungkyun Chang, Emmanouil Benetos, Holger Kirchhoff, Simon Dixon

2024-07-05Music Transcription Multi-instrument Music Transcription Drum Transcription Multi-Task Learning Drum Transcription in Music (DTM)

Paper PDF Code(official)

Abstract

Multi-instrument music transcription aims to convert polyphonic music recordings into musical scores assigned to each instrument. This task is challenging for modeling as it requires simultaneously identifying multiple instruments and transcribing their pitch and precise timing, and the lack of fully annotated data adds to the training difficulties. This paper introduces YourMT3+, a suite of models for enhanced multi-instrument music transcription based on the recent language token decoding approach of MT3. We enhance its encoder by adopting a hierarchical attention transformer in the time-frequency domain and integrating a mixture of experts. To address data limitations, we introduce a new multi-channel decoding method for training with incomplete annotations and propose intra- and cross-stem augmentation for dataset mixing. Our experiments demonstrate direct vocal transcription capabilities, eliminating the need for voice separation pre-processors. Benchmarks across ten public datasets show our models' competitiveness with, or superiority to, existing transcription models. Further testing on pop music recordings highlights the limitations of current models. Fully reproducible code and datasets are available with demos at \url{https://github.com/mimbres/YourMT3}.

Results

Task	Dataset	Metric	Value	Model
Music Transcription	Slakh2100	Onset F1	84.56	YourMT3+ (YPTF.MoE+M)
Music Transcription	Slakh2100	note-level F-measure-no-offset (Fno)	0.8456	YourMT3+ (YPTF.MoE+M)
Music Transcription	Slakh2100	Onset F1	81.9	PerceiverTF
Music Transcription	Slakh2100	note-level F-measure-no-offset (Fno)	0.819	PerceiverTF
Music Transcription	Slakh2100	Onset F1	75.2	MT3 (colab)
Music Transcription	Slakh2100	note-level F-measure-no-offset (Fno)	0.752	MT3 (colab)
Music Transcription	MAESTRO	Onset F1	96.98	YourMT3+ (YPTF.MoE+M) noPS
Music Transcription	MAESTRO	Onset F1	96.52	YourMT3+ (YPTF.MoE+M)
Music Transcription	MAPS	Onset F1	88.73	YourMT3+ (YPTF.MoE+M, unseen) noPS
Music Transcription	MAPS	Onset F1	88.37	YourMT3+ (YPTF+S, unseen)
Music Transcription	URMP	Onset F1	81.79	YourMT3+ (YPTF.MoE+M)
Music Transcription	URMP	Onset F1	77	MT3
Music Transcription	URMP	Onset F1	77	MT3
Music Transcription	URMP	Multi F1	67.98	YourMT3+ (YPTF.MoE+M)
Music Transcription	URMP	Multi F1	59	MT3
Music Transcription	URMP	Multi F1	59	MT3
Music Transcription	Slakh2100	Multi F1	74.84	YourMT3+ (YPTF.MoE+M)
Music Transcription	Slakh2100	Multi F1	62	MT3
Music Transcription	Slakh2100	Multi F1	57.69	MT3 (colab)

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

Abstract

Results

Related Papers

YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation

Abstract

Results

Related Papers