Audio-Visual Speech Recognition on LRS2

Metric: Test WER (lower is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Test WER▲	Extra Data	Paper	Date↕	Code
1	Whisper-Flamingo	1.4	Yes	Whisper-Flamingo: Integrating Visual Features in...	2024-06-14	Code
2	CTC/Attention	1.5	Yes	Auto-AVSR: Audio-Visual Speech Recognition with ...	2023-03-25	Code
3	MoCo + wav2vec (w/o extLM)	2.6	No	Leveraging Unimodal Self-Supervised Learning for...	2022-02-24	Code
4	End2end Conformer	3.7	No	End-to-end Audio-visual Speech Recognition with ...	2021-02-12	Code
5	LF-MMI TDNN	5.9	No	Audio-visual Recognition of Overlapped speech fo...	2020-01-06	-
6	CTC/Attention	7	No	Audio-Visual Speech Recognition With A Hybrid CT...	2018-09-28	-
7	TM-CTC	8.2	No	Deep Audio-Visual Speech Recognition	2018-09-06	Code
8	TM-Seq2seq	8.5	No	Deep Audio-Visual Speech Recognition	2018-09-06	Code

#1Whisper-FlamingoSOTA
1.4
Test WER· Extra Data· 2024-06-14
Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation Code
#2CTC/AttentionSOTA
1.5
Test WER· Extra Data· 2023-03-25
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels Code
#3MoCo + wav2vec (w/o extLM)SOTA
2.6
Test WER· 2022-02-24
Leveraging Unimodal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition Code
#4End2end ConformerSOTA
3.7
Test WER· 2021-02-12
End-to-end Audio-visual Speech Recognition with Conformers Code
#5LF-MMI TDNNSOTA
5.9
Test WER· 2020-01-06
Audio-visual Recognition of Overlapped speech for the LRS2 dataset
#6CTC/AttentionSOTA
7
Test WER· 2018-09-28
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture
#7TM-CTCSOTA
8.2
Test WER· 2018-09-06
Deep Audio-Visual Speech Recognition Code
#8TM-Seq2seqSOTA
8.5
Test WER· 2018-09-06
Deep Audio-Visual Speech Recognition Code