DiffusionSTR: Diffusion Model for Scene Text Recognition

Masato Fujitake

2023-06-29Scene Text Recognition Image to text

Abstract

This paper presents Diffusion Model for Scene Text Recognition (DiffusionSTR), an end-to-end text recognition framework using diffusion models for recognizing text in the wild. While existing studies have viewed the scene text recognition task as an image-to-text transformation, we rethought it as a text-text one under images in a diffusion model. We show for the first time that the diffusion model can be applied to text recognition. Furthermore, experimental results on publicly available datasets show that the proposed method achieves competitive accuracy compared to state-of-the-art methods.

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	SVT	Accuracy	93.6	DiffusionSTR
Scene Parsing	SVTP	Accuracy	89.2	DiffusionSTR
Scene Parsing	CUTE80	Accuracy	92.5	DiffusionSTR
Scene Parsing	ICDAR2015	Accuracy	86	DiffusionSTR
Scene Parsing	IIIT5k	Accuracy	97.3	DiffusionSTR
Scene Parsing	ICDAR2013	Accuracy	97.1	DiffusionSTR
2D Semantic Segmentation	SVT	Accuracy	93.6	DiffusionSTR
2D Semantic Segmentation	SVTP	Accuracy	89.2	DiffusionSTR
2D Semantic Segmentation	CUTE80	Accuracy	92.5	DiffusionSTR
2D Semantic Segmentation	ICDAR2015	Accuracy	86	DiffusionSTR
2D Semantic Segmentation	IIIT5k	Accuracy	97.3	DiffusionSTR
2D Semantic Segmentation	ICDAR2013	Accuracy	97.1	DiffusionSTR
Scene Text Recognition	SVT	Accuracy	93.6	DiffusionSTR
Scene Text Recognition	SVTP	Accuracy	89.2	DiffusionSTR
Scene Text Recognition	CUTE80	Accuracy	92.5	DiffusionSTR
Scene Text Recognition	ICDAR2015	Accuracy	86	DiffusionSTR
Scene Text Recognition	IIIT5k	Accuracy	97.3	DiffusionSTR
Scene Text Recognition	ICDAR2013	Accuracy	97.1	DiffusionSTR

Related Papers

Improving Medical Visual Representation Learning with Pathological-level Cross-Modal Alignment and Correlation Exploration2025-06-12 ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering2025-06-11 Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models2025-06-10 BRIT: Bidirectional Retrieval over Unified Image-Text Graph2025-05-24 TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP2025-05-24 Robustifying Vision-Language Models via Dynamic Token Reweighting2025-05-22 UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings2025-05-17 Towards Cross-modal Retrieval in Chinese Cultural Heritage Documents: Dataset and Solution2025-05-16