CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

Tianlun Zheng, Zhineng Chen, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang

2021-11-22Scene Text Recognition

Abstract

The Transformer-based encoder-decoder framework is becoming popular in scene text recognition, largely because it naturally integrates recognition clues from both visual and semantic domains. However, recent studies show that the two kinds of clues are not always well registered and therefore, feature and character might be misaligned in difficult text (e.g., with a rare shape). As a result, constraints such as character position are introduced to alleviate this problem. Despite certain success, visual and semantic are still separately modeled and they are merely loosely associated. In this paper, we propose a novel module called Multi-Domain Character Distance Perception (MDCDP) to establish a visually and semantically related position embedding. MDCDP uses the position embedding to query both visual and semantic features following the cross-attention mechanism. The two kinds of clues are fused into the position branch, generating a content-aware embedding that well perceives character spacing and orientation variants, character semantic affinities, and clues tying the two kinds of information. They are summarized as the multi-domain character distance. We develop CDistNet that stacks multiple MDCDPs to guide a gradually precise distance modeling. Thus, the feature-character alignment is well built even various recognition difficulties are presented. We verify CDistNet on ten challenging public datasets and two series of augmented datasets created by ourselves. The experiments demonstrate that CDistNet performs highly competitively. It not only ranks top-tier in standard benchmarks, but also outperforms recent popular methods by obvious margins on real and augmented datasets presenting severe text deformation, poor linguistic support, and rare character layouts. Code is available at https://github.com/simplify23/CDistNet.

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	SVT	Accuracy	93.82	CDistNet (Ours)
Scene Parsing	SVTP	Accuracy	89.77	CDistNet (Ours)
Scene Parsing	CUTE80	Accuracy	89.58	CDistNet (Ours)
Scene Parsing	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
Scene Parsing	IIIT5k	Accuracy	96.57	CDistNet (Ours)
Scene Parsing	ICDAR2013	Accuracy	97.67	CDistNet (Ours)
2D Semantic Segmentation	SVT	Accuracy	93.82	CDistNet (Ours)
2D Semantic Segmentation	SVTP	Accuracy	89.77	CDistNet (Ours)
2D Semantic Segmentation	CUTE80	Accuracy	89.58	CDistNet (Ours)
2D Semantic Segmentation	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
2D Semantic Segmentation	IIIT5k	Accuracy	96.57	CDistNet (Ours)
2D Semantic Segmentation	ICDAR2013	Accuracy	97.67	CDistNet (Ours)
Scene Text Recognition	SVT	Accuracy	93.82	CDistNet (Ours)
Scene Text Recognition	SVTP	Accuracy	89.77	CDistNet (Ours)
Scene Text Recognition	CUTE80	Accuracy	89.58	CDistNet (Ours)
Scene Text Recognition	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
Scene Text Recognition	IIIT5k	Accuracy	96.57	CDistNet (Ours)
Scene Text Recognition	ICDAR2013	Accuracy	97.67	CDistNet (Ours)

Abstract

Results

Task	Dataset	Metric	Value	Model
Scene Parsing	SVT	Accuracy	93.82	CDistNet (Ours)
Scene Parsing	SVTP	Accuracy	89.77	CDistNet (Ours)
Scene Parsing	CUTE80	Accuracy	89.58	CDistNet (Ours)
Scene Parsing	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
Scene Parsing	IIIT5k	Accuracy	96.57	CDistNet (Ours)
Scene Parsing	ICDAR2013	Accuracy	97.67	CDistNet (Ours)
2D Semantic Segmentation	SVT	Accuracy	93.82	CDistNet (Ours)
2D Semantic Segmentation	SVTP	Accuracy	89.77	CDistNet (Ours)
2D Semantic Segmentation	CUTE80	Accuracy	89.58	CDistNet (Ours)
2D Semantic Segmentation	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
2D Semantic Segmentation	IIIT5k	Accuracy	96.57	CDistNet (Ours)
2D Semantic Segmentation	ICDAR2013	Accuracy	97.67	CDistNet (Ours)
Scene Text Recognition	SVT	Accuracy	93.82	CDistNet (Ours)
Scene Text Recognition	SVTP	Accuracy	89.77	CDistNet (Ours)
Scene Text Recognition	CUTE80	Accuracy	89.58	CDistNet (Ours)
Scene Text Recognition	ICDAR2015	Accuracy	86.25	CDistNet (Ours)
Scene Text Recognition	IIIT5k	Accuracy	96.57	CDistNet (Ours)
Scene Text Recognition	ICDAR2013	Accuracy	97.67	CDistNet (Ours)

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

Abstract

Results

Related Papers

CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition

Abstract

Results

Related Papers