Speech Recognition on Jam-ALT

Metric: Word Error Rate (WER) (lower is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Word Error Rate (WER)▲	Extra Data	Paper	Date↕	Code
1	AudioShake v3	16.1	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
2	AudioShake v1	26	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
3	Whisper v2 +lang	27.9	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
4	Whisper v3 +lang	32.6	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
5	Whisper v2 +demucs +lang	33.5	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
6	Whisper v3	35.5	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
7	Whisper v3	35.5	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
8	Whisper v2	35.7	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
9	Whisper v2	37.8	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
10	Whisper v2 +demucs	44	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
11	Whisper v2 +demucs	44.5	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
12	Whisper v3 +demucs +lang	46.6	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
13	Whisper v3 +demucs	47.9	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
14	Whisper v3 +demucs	48	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
15	OWSM v3.1 +demucs +lang	66.5	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
16	OWSM v3.1 +lang	69.3	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code

#1AudioShake v3SOTA
16.1
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#2AudioShake v1SOTA
26
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#3Whisper v2 +lang
27.9
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#4Whisper v3 +lang
32.6
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#5Whisper v2 +demucs +lang
33.5
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#6Whisper v3SOTA
35.5
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#7Whisper v3
35.5
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#8Whisper v2SOTA
35.7
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#9Whisper v2
37.8
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#10Whisper v2 +demucsSOTA
44
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#11Whisper v2 +demucs
44.5
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#12Whisper v3 +demucs +lang
46.6
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#13Whisper v3 +demucsSOTA
47.9
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#14Whisper v3 +demucs
48
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#15OWSM v3.1 +demucs +lang
66.5
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#16OWSM v3.1 +lang
69.3
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code