Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/CTC/Attention

CTC/Attention

Reported on 11 benchmarks across 6 tasks · 3 papers · 10 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Speech6 results

Audio-Visual Speech RecognitiononLRS3-TED
Word Error Rate (WER)· uses extra data· 2023-03-25
0.9
best: 0.74 (MMS-LLaMA)
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Audio-Visual Speech RecognitiononLRS2
Test WER· uses extra data· 2023-03-25
1.5
best: 1.4 (Whisper-Flamingo)
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Visual Speech RecognitiononLRS3-TED
Word Error Rate (WER)· uses extra data· 2023-03-25
19.1
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Automatic Speech Recognition (ASR)onLRS2
Test WER· uses extra data· 2023-03-25
1.5
best: 1.3 (Whisper)
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Automatic Speech Recognition (ASR)onLRS3-TED
Word Error Rate (WER)· 2023-03-25
1
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Audio-Visual Speech RecognitiononLRS2
Test WER· 2018-09-28
7
best: 1.4 (Whisper-Flamingo)
SOTA
Audio-Visual Speech Recognition With A Hybrid CTC/Attention Architecture arXiv:1810.00108

Audio3 results

Speech RecognitiononLRS2
Test WER· uses extra data· 2023-03-25
1.5
best: 1.3 (Whisper)
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Speech RecognitiononLRS3-TED
Word Error Rate (WER)· 2023-03-25
1
best: 0.68 (Whisper)
SOTA
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307
Speech RecognitiononLRS3-TED
Word Error Rate (WER)· uses extra data· 2023-03-25
19.1
best: 0.68 (Whisper)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels arXiv:2303.14307

Computer Vision2 results

LipreadingonGRID corpus (mixed-speech)
Word Error Rate (WER)· uses extra data· 2022-02-26
1.2
SOTA
Visual Speech Recognition for Multiple Languages in the Wild arXiv:2202.13084
LipreadingonLRS2
Word Error Rate (WER)· 2022-02-26
32.9
best: 14.6 (Auto-AVSR)
Visual Speech Recognition for Multiple Languages in the Wild arXiv:2202.13084

Natural Language Processing2 results

Natural Language TransductiononGRID corpus (mixed-speech)
Word Error Rate (WER)· uses extra data· 2022-02-26
1.2
SOTA
Visual Speech Recognition for Multiple Languages in the Wild arXiv:2202.13084
Natural Language TransductiononLRS2
Word Error Rate (WER)· 2022-02-26
32.9
best: 14.6 (Auto-AVSR)
Visual Speech Recognition for Multiple Languages in the Wild arXiv:2202.13084