Speech Recognition on LRS2

Metric: Test WER (lower is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Test WER▲	Extra Data	Paper	Date↕	Code
1	Whisper	1.3	Yes	Whisper-Flamingo: Integrating Visual Features in...	2024-06-14	Code
2	CTC/Attention	1.5	Yes	Auto-AVSR: Audio-Visual Speech Recognition with ...	2023-03-25	Code
3	MoCo + wav2vec (w/o extLM)	2.7	No	Leveraging Unimodal Self-Supervised Learning for...	2022-02-24	Code
4	End2end Conformer	3.9	No	End-to-end Audio-visual Speech Recognition with ...	2021-02-12	Code
5	Whisper-LLaMA	6.6	No	Whispering LLaMA: A Cross-Modal Generative Error...	2023-10-10	Code
6	LF-MMI TDNN	6.7	No	Audio-visual Recognition of Overlapped speech fo...	2020-01-06	-
7	CTC/attention	8.2	No	Audio-Visual Speech Recognition With A Hybrid CT...	2018-09-28	-
8	TM-seq2seq	9.7	No	Deep Audio-Visual Speech Recognition	2018-09-06	Code
9	TM-CTC	10.1	No	Deep Audio-Visual Speech Recognition	2018-09-06	Code

#1WhisperSOTA
1.3
Test WER· Extra Data· 2024-06-14
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation Code
#2CTC/AttentionSOTA
1.5
Test WER· Extra Data· 2023-03-25
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels Code
#3MoCo + wav2vec (w/o extLM)SOTA
2.7
Test WER· 2022-02-24
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition Code
#4End2end ConformerSOTA
3.9
Test WER· 2021-02-12
End-to-end Audio-visual Speech Recognition with Conformers Code
#5Whisper-LLaMA
6.6
Test WER· 2023-10-10
Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition Code
#6LF-MMI TDNNSOTA
6.7
Test WER· 2020-01-06
Audio-visual Recognition of Overlapped speech for the LRS2 dataset
#7CTC/attentionSOTA
8.2
Test WER· 2018-09-28
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture
#8TM-seq2seqSOTA
9.7
Test WER· 2018-09-06
Deep Audio-Visual Speech Recognition Code
#9TM-CTCSOTA
10.1
Test WER· 2018-09-06
Deep Audio-Visual Speech Recognition Code