Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments

Sankalp Nagaonkar, Augustya Sharma, Ashish Choithani, Ashutosh Trivedi

2025-02-10Benchmarking Optical Character Recognition (OCR)

Abstract

This paper introduces an open-source benchmark for evaluating Vision-Language Models (VLMs) on Optical Character Recognition (OCR) tasks in dynamic video environments. We present a curated dataset containing 1,477 manually annotated frames spanning diverse domains, including code editors, news broadcasts, YouTube videos, and advertisements. Three state of the art VLMs - Claude-3, Gemini-1.5, and GPT-4o are benchmarked against traditional OCR systems such as EasyOCR and RapidOCR. Evaluation metrics include Word Error Rate (WER), Character Error Rate (CER), and Accuracy. Our results highlight the strengths and limitations of VLMs in video-based OCR tasks, demonstrating their potential to outperform conventional OCR models in many scenarios. However, challenges such as hallucinations, content security policies, and sensitivity to occluded or stylized text remain. The dataset and benchmarking framework are publicly available to foster further research.

Results

Task	Dataset	Metric	Value	Model
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Average Accuracy	76.22	GPT-4o
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Character Error Rate (CER)	0.2378	GPT-4o
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Word Error Rate (WER)	0.5117	GPT-4o
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Average Accuracy	76.13	Gemini-1.5 Pro
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Character Error Rate (CER)	0.2387	Gemini-1.5 Pro
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Word Error Rate (WER)	0.2385	Gemini-1.5 Pro
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Average Accuracy	67.71	Claude-3 Sonnet
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Character Error Rate (CER)	0.3229	Claude-3 Sonnet
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Word Error Rate (WER)	0.4663	Claude-3 Sonnet
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Average Accuracy	56.98	RapidOCR
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Character Error Rate (CER)	0.762	RapidOCR
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Word Error Rate (WER)	0.4302	RapidOCR
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Average Accuracy	49.3	EasyOCR
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Character Error Rate (CER)	0.507	EasyOCR
Optical Character Recognition (OCR)	VideoDB's OCR Benchmark Public Collection	Word Error Rate (WER)	0.8262	EasyOCR

Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments

Abstract

Results

Related Papers

Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments

Abstract

Results

Related Papers