2D Semantic Segmentation on SVTP

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	DTrOCR 105M	98.6	No	DTrOCR: Decoder-only Transformer for Optical Cha...	2023-08-30	Code
2	MGP-STR	98.3	Yes	Multi-Granularity Prediction for Scene Text Reco...	2022-09-08	Code
3	CLIP4STR-L*	98.13	Yes	An Empirical Study of Scaling Law for OCR	2023-12-29	Code
4	CLIP4STR-L (DataComp-1B)	98.1	No	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
5	CLIP4STR-L	97.4	No	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
6	CLIP4STR-B	97.2	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
7	CPPD	96.7	Yes	Context Perception Parallel Decoder for Scene Te...	2023-07-23	Code
8	CCD-ViT-Base	96.1	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
9	CCD-ViT-Small	92.7	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
10	CCD-ViT-Tiny	91.6	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
11	S-GTR	90.6	Yes	Visual Semantics Allow for Textual Reasoning Bet...	2021-12-24	Code
12	MATRN	90.6	No	Multi-modal Text Recognition Networks: Interacti...	2021-11-30	Code
13	SIGA_T	90.5	No	Self-supervised Implicit Glyph Attention for Tex...	2022-03-07	Code
14	CDistNet (Ours)	89.77	No	CDistNet: Perceiving Multi-Domain Character Dist...	2021-11-22	Code
15	DiffusionSTR	89.2	No	DiffusionSTR: Diffusion Model for Scene Text Rec...	2023-06-29	-
16	DPAN	89	No	-	-	Code

#1DTrOCR 105MSOTA
98.6
Accuracy· 2023-08-30
DTrOCR: Decoder-only Transformer for Optical Character Recognition Code
#2MGP-STRSOTA
98.3
Accuracy· Extra Data· 2022-09-08
Multi-Granularity Prediction for Scene Text Recognition Code
#3CLIP4STR-L*
98.13
Accuracy· Extra Data· 2023-12-29
An Empirical Study of Scaling Law for OCR Code
#4CLIP4STR-L (DataComp-1B)
98.1
Accuracy· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#5CLIP4STR-L
97.4
Accuracy· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#6CLIP4STR-B
97.2
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#7CPPD
96.7
Accuracy· Extra Data· 2023-07-23
Context Perception Parallel Decoder for Scene Text Recognition Code
#8CCD-ViT-Base
96.1
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#9CCD-ViT-Small
92.7
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#10CCD-ViT-Tiny
91.6
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#11S-GTR
90.6
Accuracy· Extra Data· 2021-12-24
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition Code
#12MATRNSOTA
90.6
Accuracy· 2021-11-30
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features Code
#13SIGA_T
90.5
Accuracy· 2022-03-07
Self-supervised Implicit Glyph Attention for Text Recognition Code
#14CDistNet (Ours)SOTA
89.77
Accuracy· 2021-11-22
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition Code
#15DiffusionSTR
89.2
Accuracy· 2023-06-29
DiffusionSTR: Diffusion Model for Scene Text Recognition
#16DPAN
89
Accuracy
No paperCode