SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Young Jin Ahn, Jungwoo Park, Sangha Park, Jonghyun Choi, Kee-Eung Kim

2024-06-18Speech Recognition Landmark-based Lipreading speech-recognition Visual Speech Recognition Lipreading

Abstract

Visual Speech Recognition (VSR) stands at the intersection of computer vision and speech recognition, aiming to interpret spoken content from visual cues. A prominent challenge in VSR is the presence of homophenes-visually similar lip gestures that represent different phonemes. Prior approaches have sought to distinguish fine-grained visemes by aligning visual and auditory semantics, but often fell short of full synchronization. To address this, we present SyncVSR, an end-to-end learning framework that leverages quantized audio for frame-level crossmodal supervision. By integrating a projection layer that synchronizes visual representation with acoustic data, our encoder learns to generate discrete audio tokens from a video sequence in a non-autoregressive manner. SyncVSR shows versatility across tasks, languages, and modalities at the cost of a forward pass. Our empirical evaluations show that it not only achieves state-of-the-art results but also reduces data usage by up to ninefold.

Results

Task	Dataset	Metric	Value	Model
Lipreading	CAS-VSR-W1k (LRW-1000)	Top-1 Accuracy	58.2	SyncVSR (Word Boundary)
Lipreading	LRS2	Word Error Rate (WER)	16.5	SyncVSR
Lipreading	LRS2	Word Error Rate (WER)	28.9	SyncVSR
Lipreading	Lip Reading in the Wild	Top-1 Accuracy	95	SyncVSR (Word Boundary)
Lipreading	Lip Reading in the Wild	Top-1 Accuracy	93.2	SyncVSR
Lipreading	LRS3-TED	Word Error Rate (WER)	21.5	SyncVSR
Lipreading	LRS3-TED	Word Error Rate (WER)	31.2	SyncVSR
Lipreading	LRW	Top 1 Accuracy	80.3	SyncVSR (Word Boundary)
Lipreading	LRW	Top 1 Accuracy	75.1	SyncVSR
Lipreading	LRS2	Word Error Rate (WER)	74.6	SyncVSR
Natural Language Transduction	CAS-VSR-W1k (LRW-1000)	Top-1 Accuracy	58.2	SyncVSR (Word Boundary)
Natural Language Transduction	LRS2	Word Error Rate (WER)	16.5	SyncVSR
Natural Language Transduction	LRS2	Word Error Rate (WER)	28.9	SyncVSR
Natural Language Transduction	Lip Reading in the Wild	Top-1 Accuracy	95	SyncVSR (Word Boundary)
Natural Language Transduction	Lip Reading in the Wild	Top-1 Accuracy	93.2	SyncVSR
Natural Language Transduction	LRS3-TED	Word Error Rate (WER)	21.5	SyncVSR
Natural Language Transduction	LRS3-TED	Word Error Rate (WER)	31.2	SyncVSR
Natural Language Transduction	LRW	Top 1 Accuracy	80.3	SyncVSR (Word Boundary)
Natural Language Transduction	LRW	Top 1 Accuracy	75.1	SyncVSR
Natural Language Transduction	LRS2	Word Error Rate (WER)	74.6	SyncVSR

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Abstract

Results

Related Papers

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Abstract

Results

Related Papers