Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/SyncVSR

SyncVSR

Reported on 8 benchmarks across 2 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Computer Vision7 results

LipreadingonLRS2
Word Error Rate (WER)· uses extra data· 2024-06-18
16.5
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLRS2
Word Error Rate (WER)· 2024-06-18
28.9
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLip Reading in the Wild
Top-1 Accuracy· 2024-06-18
93.2
best: 95 (SyncVSR (Word Boundary))
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLRS3-TED
Word Error Rate (WER)· uses extra data· 2024-06-18
21.5
best: 12.8 (LP + Conformer)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLRS3-TED
Word Error Rate (WER)· 2024-06-18
31.2
best: 12.8 (LP + Conformer)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLRW
Top 1 Accuracy· 2024-06-18
75.1
best: 80.3 (SyncVSR (Word Boundary))
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
LipreadingonLRS2
Word Error Rate (WER)· 2024-06-18
74.6
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233

Natural Language Processing7 results

Natural Language TransductiononLRS2
Word Error Rate (WER)· uses extra data· 2024-06-18
16.5
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLRS2
Word Error Rate (WER)· 2024-06-18
28.9
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLip Reading in the Wild
Top-1 Accuracy· 2024-06-18
93.2
best: 95 (SyncVSR (Word Boundary))
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLRS3-TED
Word Error Rate (WER)· uses extra data· 2024-06-18
21.5
best: 12.8 (LP + Conformer)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLRS3-TED
Word Error Rate (WER)· 2024-06-18
31.2
best: 12.8 (LP + Conformer)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLRW
Top 1 Accuracy· 2024-06-18
75.1
best: 80.3 (SyncVSR (Word Boundary))
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233
Natural Language TransductiononLRS2
Word Error Rate (WER)· 2024-06-18
74.6
best: 14.6 (Auto-AVSR)
SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization arXiv:2406.12233