Lyrics Transcription for Humans: A Readability-Aware Benchmark

Ondřej Cífka, Hendrik Schreiber, Luke Miner, Fabian-Robert Stöter

2024-07-30Automatic Lyrics Transcription

Abstract

Writing down lyrics for human consumption involves not only accurately capturing word sequences, but also incorporating punctuation and formatting for clarity and to convey contextual information. This includes song structure, emotional emphasis, and contrast between lead and background vocals. While automatic lyrics transcription (ALT) systems have advanced beyond producing unstructured strings of words and are able to draw on wider context, ALT benchmarks have not kept pace and continue to focus exclusively on words. To address this gap, we introduce Jam-ALT, a comprehensive lyrics transcription benchmark. The benchmark features a complete revision of the JamendoLyrics dataset, in adherence to industry standards for lyrics transcription and formatting, along with evaluation metrics designed to capture and assess the lyric-specific nuances, laying the foundation for improving the readability of lyrics. We apply the benchmark to recent transcription systems and present additional error analysis, as well as an experimental comparison with a classical music dataset.

Results

Task	Dataset	Metric	Value	Model
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	20.1	AudioShake v3
Speech Recognition	Jam-ALT	Line break F1	84.4	AudioShake v3
Speech Recognition	Jam-ALT	Parenthesis F-1	29.4	AudioShake v3
Speech Recognition	Jam-ALT	Punctuation F1	57	AudioShake v3
Speech Recognition	Jam-ALT	Section break F1	73.9	AudioShake v3
Speech Recognition	Jam-ALT	Word Error Rate (WER)	16.1	AudioShake v3
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	32.6	Whisper v2 +lang
Speech Recognition	Jam-ALT	Line break F1	70.4	Whisper v2 +lang
Speech Recognition	Jam-ALT	Punctuation F1	45	Whisper v2 +lang
Speech Recognition	Jam-ALT	Section break F1	3.7	Whisper v2 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	27.9	Whisper v2 +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	37.2	Whisper v3 +lang
Speech Recognition	Jam-ALT	Line break F1	73.9	Whisper v3 +lang
Speech Recognition	Jam-ALT	Punctuation F1	43.7	Whisper v3 +lang
Speech Recognition	Jam-ALT	Section break F1	0.6	Whisper v3 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	32.6	Whisper v3 +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	39.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	60.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	39.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	33.5	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	39.7	Whisper v3
Speech Recognition	Jam-ALT	Punctuation F1	43	Whisper v3
Speech Recognition	Jam-ALT	Line break F1	69.3	Whisper v2
Speech Recognition	Jam-ALT	Section break F1	3.3	Whisper v2
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	42.1	Whisper v2
Speech Recognition	Jam-ALT	Line break F1	69.3	Whisper v2
Speech Recognition	Jam-ALT	Punctuation F1	44.2	Whisper v2
Speech Recognition	Jam-ALT	Section break F1	3.3	Whisper v2
Speech Recognition	Jam-ALT	Word Error Rate (WER)	37.8	Whisper v2
Speech Recognition	Jam-ALT	Line break F1	61.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	49.8	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Line break F1	61.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Punctuation F1	41.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Word Error Rate (WER)	44.5	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	50.4	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	65.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	33.7	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	46.6	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	65.7	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	51.6	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Line break F1	65.7	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Punctuation F1	33	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Word Error Rate (WER)	48	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	72.6	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	41.1	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	20	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	66.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	75	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Line break F1	37.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Parenthesis F-1	0.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Punctuation F1	22.5	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	69.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	23.5	AudioShake v3
Speech Recognition	Jam-ALT French	Line break F-1	88.6	AudioShake v3
Speech Recognition	Jam-ALT French	Parenthesis F-1	3.2	AudioShake v3
Speech Recognition	Jam-ALT French	Punctuation F-1	46.1	AudioShake v3
Speech Recognition	Jam-ALT French	Section break F-1	69	AudioShake v3
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	20.8	AudioShake v3
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	30.5	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Line break F-1	73.7	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	45.3	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	27.1	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	31.1	Whisper v2
Speech Recognition	Jam-ALT French	Punctuation F-1	45.9	Whisper v2
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	38	Whisper v3
Speech Recognition	Jam-ALT French	Line break F-1	77.9	Whisper v3
Speech Recognition	Jam-ALT French	Punctuation F-1	42.5	Whisper v3
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	38	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Line break F-1	77.9	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	42.3	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	34.7	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	42.1	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	65.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	36.1	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	38.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	46.9	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Line break F-1	66	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Punctuation F-1	38	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	48.2	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Line break F-1	69.3	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Punctuation F-1	32	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	48.3	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	69.3	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	32	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	44.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	75.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Line break F-1	36	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Parenthesis F-1	1.9	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	30.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	71.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	82.1	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	40.9	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	22.3	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	78.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	17.7	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Line break F-1	81.5	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Parenthesis F-1	4.2	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	56.7	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Section break F-1	66.4	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	12.6	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	27.7	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.5	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	52.5	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	21.9	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	28	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	74.5	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	44.5	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	22.4	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.7	Whisper v2
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	31.5	Whisper v2
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.7	Whisper v2
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	52.8	Whisper v2
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	25.8	Whisper v2
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	33.6	Whisper v3
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	42.5	Whisper v3
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	42.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	52.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	34.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	34.9	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	46.5	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Line break F-1	56.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	40.4	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	39.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	62.1	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	54.7	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	34.4	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	58.6	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	64.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Line break F-1	52.3	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	32.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	76	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	33.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	9	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	70.8	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	78.5	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	30.2	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	8.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	73.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	17.5	AudioShake v3
Speech Recognition	Jam-ALT German	Line break F-1	83.7	AudioShake v3
Speech Recognition	Jam-ALT German	Parenthesis F-1	76.6	AudioShake v3
Speech Recognition	Jam-ALT German	Punctuation F-1	57.1	AudioShake v3
Speech Recognition	Jam-ALT German	Section break F-1	74.5	AudioShake v3
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	12.6	AudioShake v3
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	26	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Line break F-1	71.7	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	48.4	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	19.9	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	30.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	70.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	49.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	23.9	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	40.4	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Line break F-1	71.1	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	47.4	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	35.9	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	44.6	Whisper v3
Speech Recognition	Jam-ALT German	Line break F-1	71.1	Whisper v3
Speech Recognition	Jam-ALT German	Punctuation F-1	47.3	Whisper v3
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	44.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	70.5	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	46.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	40.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	47.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Line break F-1	71.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Punctuation F-1	45.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	62	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	41.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	24.7	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	51.8	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	59.3	Whisper v2
Speech Recognition	Jam-ALT German	Line break F-1	70	Whisper v2
Speech Recognition	Jam-ALT German	Punctuation F-1	47.1	Whisper v2
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	54.5	Whisper v2
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	71.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Line break F-1	40.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	28.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	63.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	70.4	Whisper v2 +demucs
Speech Recognition	Jam-ALT German	Line break F-1	67.3	Whisper v2 +demucs
Speech Recognition	Jam-ALT German	Punctuation F-1	49.1	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	20.9	AudioShake v3
Speech Recognition	Jam-ALT English	Line break F-1	84.3	AudioShake v3
Speech Recognition	Jam-ALT English	Parenthesis F-1	37.9	AudioShake v3
Speech Recognition	Jam-ALT English	Punctuation F-1	65.3	AudioShake v3
Speech Recognition	Jam-ALT English	Section break F-1	84.8	AudioShake v3
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	17.3	AudioShake v3
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	28	LyricWhiz
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	39.1	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Line break F-1	53.9	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Punctuation F-1	42.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	33.3	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	41.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	53.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	41.8	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	35.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	41.4	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Line break F-1	72.5	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	41.8	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Section break F-1	2.6	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	36.4	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	42.5	Whisper v3
Speech Recognition	Jam-ALT English	Punctuation F-1	41.4	Whisper v3
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	43.7	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Line break F-1	65.5	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	34.9	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Section break F-1	11.6	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	39.7	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.2	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Line break F-1	66.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Punctuation F-1	25.8	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.2	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	66.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	25.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	43	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.5	Whisper v2
Speech Recognition	Jam-ALT English	Punctuation F-1	31.5	Whisper v2
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	69.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	47.3	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	21.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	63.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	74	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Line break F-1	42.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	22.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	68.6	OWSM v3.1 +lang

Abstract

Results

Task	Dataset	Metric	Value	Model
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	20.1	AudioShake v3
Speech Recognition	Jam-ALT	Line break F1	84.4	AudioShake v3
Speech Recognition	Jam-ALT	Parenthesis F-1	29.4	AudioShake v3
Speech Recognition	Jam-ALT	Punctuation F1	57	AudioShake v3
Speech Recognition	Jam-ALT	Section break F1	73.9	AudioShake v3
Speech Recognition	Jam-ALT	Word Error Rate (WER)	16.1	AudioShake v3
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	32.6	Whisper v2 +lang
Speech Recognition	Jam-ALT	Line break F1	70.4	Whisper v2 +lang
Speech Recognition	Jam-ALT	Punctuation F1	45	Whisper v2 +lang
Speech Recognition	Jam-ALT	Section break F1	3.7	Whisper v2 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	27.9	Whisper v2 +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	37.2	Whisper v3 +lang
Speech Recognition	Jam-ALT	Line break F1	73.9	Whisper v3 +lang
Speech Recognition	Jam-ALT	Punctuation F1	43.7	Whisper v3 +lang
Speech Recognition	Jam-ALT	Section break F1	0.6	Whisper v3 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	32.6	Whisper v3 +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	39.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	60.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	39.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	33.5	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	39.7	Whisper v3
Speech Recognition	Jam-ALT	Punctuation F1	43	Whisper v3
Speech Recognition	Jam-ALT	Line break F1	69.3	Whisper v2
Speech Recognition	Jam-ALT	Section break F1	3.3	Whisper v2
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	42.1	Whisper v2
Speech Recognition	Jam-ALT	Line break F1	69.3	Whisper v2
Speech Recognition	Jam-ALT	Punctuation F1	44.2	Whisper v2
Speech Recognition	Jam-ALT	Section break F1	3.3	Whisper v2
Speech Recognition	Jam-ALT	Word Error Rate (WER)	37.8	Whisper v2
Speech Recognition	Jam-ALT	Line break F1	61.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	49.8	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Line break F1	61.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Punctuation F1	41.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Word Error Rate (WER)	44.5	Whisper v2 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	50.4	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	65.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	33.7	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	46.6	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	65.7	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	51.6	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Line break F1	65.7	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Punctuation F1	33	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Word Error Rate (WER)	48	Whisper v3 +demucs
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	72.6	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Line break F1	41.1	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Punctuation F1	20	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	66.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT	Case-Sensitive Word Error Rate	75	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Line break F1	37.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Parenthesis F-1	0.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Punctuation F1	22.5	OWSM v3.1 +lang
Speech Recognition	Jam-ALT	Word Error Rate (WER)	69.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	23.5	AudioShake v3
Speech Recognition	Jam-ALT French	Line break F-1	88.6	AudioShake v3
Speech Recognition	Jam-ALT French	Parenthesis F-1	3.2	AudioShake v3
Speech Recognition	Jam-ALT French	Punctuation F-1	46.1	AudioShake v3
Speech Recognition	Jam-ALT French	Section break F-1	69	AudioShake v3
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	20.8	AudioShake v3
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	30.5	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Line break F-1	73.7	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	45.3	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	27.1	Whisper v2 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	31.1	Whisper v2
Speech Recognition	Jam-ALT French	Punctuation F-1	45.9	Whisper v2
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	38	Whisper v3
Speech Recognition	Jam-ALT French	Line break F-1	77.9	Whisper v3
Speech Recognition	Jam-ALT French	Punctuation F-1	42.5	Whisper v3
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	38	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Line break F-1	77.9	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	42.3	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	34.7	Whisper v3 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	42.1	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	65.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	36.1	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	38.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	46.9	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Line break F-1	66	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Punctuation F-1	38	Whisper v2 +demucs
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	48.2	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Line break F-1	69.3	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Punctuation F-1	32	Whisper v3 +demucs
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	48.3	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	69.3	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	32	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	44.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	75.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Line break F-1	36	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Parenthesis F-1	1.9	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	30.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	71.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT French	Case-Sensitive Word Error Rate	82.1	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Line break F-1	40.9	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Punctuation F-1	22.3	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT French	Word Error Rate (WER)	78.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	17.7	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Line break F-1	81.5	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Parenthesis F-1	4.2	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	56.7	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Section break F-1	66.4	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	12.6	AudioShake v3
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	27.7	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.5	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	52.5	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	21.9	Whisper v2 +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	28	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	74.5	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	44.5	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	22.4	Whisper v3 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.7	Whisper v2
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	31.5	Whisper v2
Speech Recognition	Jam-ALT Spanish	Line break F-1	71.7	Whisper v2
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	52.8	Whisper v2
Speech Recognition	Jam-ALT Spanish	Section break F-1	3.1	Whisper v2
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	25.8	Whisper v2
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	33.6	Whisper v3
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	42.5	Whisper v3
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	42.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	52.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	34.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	34.9	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	46.5	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Line break F-1	56.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	40.4	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	39.6	Whisper v2 +demucs
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	62.1	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	54.7	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	34.4	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	58.6	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	64.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Line break F-1	52.3	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	32.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	76	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	33.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	9	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	70.8	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT Spanish	Case-Sensitive Word Error Rate	78.5	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Line break F-1	30.2	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Punctuation F-1	8.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT Spanish	Word Error Rate (WER)	73.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	17.5	AudioShake v3
Speech Recognition	Jam-ALT German	Line break F-1	83.7	AudioShake v3
Speech Recognition	Jam-ALT German	Parenthesis F-1	76.6	AudioShake v3
Speech Recognition	Jam-ALT German	Punctuation F-1	57.1	AudioShake v3
Speech Recognition	Jam-ALT German	Section break F-1	74.5	AudioShake v3
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	12.6	AudioShake v3
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	26	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Line break F-1	71.7	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	48.4	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	19.9	Whisper v2 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	30.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	70.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	49.2	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	23.9	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	40.4	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Line break F-1	71.1	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	47.4	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	35.9	Whisper v3 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	44.6	Whisper v3
Speech Recognition	Jam-ALT German	Line break F-1	71.1	Whisper v3
Speech Recognition	Jam-ALT German	Punctuation F-1	47.3	Whisper v3
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	44.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	70.5	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	46.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	40.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	47.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Line break F-1	71.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Punctuation F-1	45.4	Whisper v3 +demucs
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	62	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Line break F-1	41.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	24.7	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	51.8	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	59.3	Whisper v2
Speech Recognition	Jam-ALT German	Line break F-1	70	Whisper v2
Speech Recognition	Jam-ALT German	Punctuation F-1	47.1	Whisper v2
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	54.5	Whisper v2
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	71.8	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Line break F-1	40.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Punctuation F-1	28.6	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Word Error Rate (WER)	63.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT German	Case-Sensitive Word Error Rate	70.4	Whisper v2 +demucs
Speech Recognition	Jam-ALT German	Line break F-1	67.3	Whisper v2 +demucs
Speech Recognition	Jam-ALT German	Punctuation F-1	49.1	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	20.9	AudioShake v3
Speech Recognition	Jam-ALT English	Line break F-1	84.3	AudioShake v3
Speech Recognition	Jam-ALT English	Parenthesis F-1	37.9	AudioShake v3
Speech Recognition	Jam-ALT English	Punctuation F-1	65.3	AudioShake v3
Speech Recognition	Jam-ALT English	Section break F-1	84.8	AudioShake v3
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	17.3	AudioShake v3
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	28	LyricWhiz
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	39.1	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Line break F-1	53.9	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Punctuation F-1	42.2	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	33.3	Whisper v2 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	41.3	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	53.4	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	41.8	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	35.6	Whisper v2 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	41.4	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Line break F-1	72.5	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	41.8	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Section break F-1	2.6	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	36.4	Whisper v3 +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	42.5	Whisper v3
Speech Recognition	Jam-ALT English	Punctuation F-1	41.4	Whisper v3
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	43.7	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Line break F-1	65.5	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	34.9	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Section break F-1	11.6	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	39.7	Whisper v2 +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.2	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Line break F-1	66.9	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Punctuation F-1	25.8	Whisper v3 +demucs
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.2	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	66.9	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	25.8	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	43	Whisper v3 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	47.5	Whisper v2
Speech Recognition	Jam-ALT English	Punctuation F-1	31.5	Whisper v2
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	69.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Line break F-1	47.3	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	21.5	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	63.4	OWSM v3.1 +demucs +lang
Speech Recognition	Jam-ALT English	Case-Sensitive Word Error Rate	74	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Line break F-1	42.7	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Punctuation F-1	22.3	OWSM v3.1 +lang
Speech Recognition	Jam-ALT English	Word Error Rate (WER)	68.6	OWSM v3.1 +lang

Lyrics Transcription for Humans: A Readability-Aware Benchmark

Abstract

Results

Related Papers

Lyrics Transcription for Humans: A Readability-Aware Benchmark

Abstract

Results

Related Papers