Speech Recognition on Jam-ALT Spanish

Metric: Word Error Rate (WER) (lower is better)

LeaderboardDataset

Loading chart...

Results

Sort:

#	Model↕	Word Error Rate (WER)▲	Extra Data	Paper	Date↕	Code
1	AudioShake v3	12.6	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
2	Whisper v2 +lang	21.9	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
3	Whisper v3 +lang	22.4	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
4	AudioShake v1	22.5	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
5	Whisper v2	25.7	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
6	Whisper v2	25.8	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
7	Whisper v3	28.6	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
8	Whisper v3	28.6	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
9	Whisper v2 +demucs +lang	34.9	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
10	Whisper v2 +demucs	38.8	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
11	Whisper v2 +demucs	39.6	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
12	Whisper v3 +demucs +lang	58.6	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
13	Whisper v3 +demucs	61.5	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
14	Whisper v3 +demucs	61.5	No	Jam-ALT: A Formatting-Aware Lyrics Transcription...	2023-11-23	Code
15	OWSM v3.1 +demucs +lang	70.8	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code
16	OWSM v3.1 +lang	73.3	No	Lyrics Transcription for Humans: A Readability-A...	2024-07-30	Code

#1AudioShake v3SOTA
12.6
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#2Whisper v2 +langSOTA
21.9
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#3Whisper v3 +langSOTA
22.4
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#4AudioShake v1SOTA
22.5
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#5Whisper v2SOTA
25.7
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#6Whisper v2
25.8
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#7Whisper v3SOTA
28.6
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#8Whisper v3
28.6
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#9Whisper v2 +demucs +lang
34.9
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#10Whisper v2 +demucsSOTA
38.8
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#11Whisper v2 +demucs
39.6
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#12Whisper v3 +demucs +lang
58.6
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#13Whisper v3 +demucsSOTA
61.5
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#14Whisper v3 +demucs
61.5
Word Error Rate (WER)· 2023-11-23
Jam-ALT: A Formatting-Aware Lyrics Transcription Benchmark Code
#15OWSM v3.1 +demucs +lang
70.8
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code
#16OWSM v3.1 +lang
73.3
Word Error Rate (WER)· 2024-07-30
Lyrics Transcription for Humans: A Readability-Aware Benchmark Code