Scene Parsing on SVT

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	CLIP4STR-H (DFN-5B)	99.1	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
2	DTrOCR 105M	98.9	No	DTrOCR: Decoder-only Transformer for Optical Cha...	2023-08-30	Code
3	CLIP4STR-B*	98.76	Yes	An Empirical Study of Scaling Law for OCR	2023-12-29	Code
4	MGP-STR	98.6	Yes	Multi-Granularity Prediction for Scene Text Reco...	2022-09-08	Code
5	CLIP4STR-L (DataComp-1B)	98.6	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
6	CPPD	98.5	Yes	Context Perception Parallel Decoder for Scene Te...	2023-07-23	Code
7	CLIP4STR-L	98.5	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
8	CLIP4STR-B	98.3	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
9	CCD-ViT-Base(ARD_2.8M)	97.8	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
10	CCD-ViT-Small(ARD_2.8M)	96.4	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
11	CCD-ViT-Tiny(ARD_2.8M)	96	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
12	S-GTR	95.8	Yes	Visual Semantics Allow for Textual Reasoning Bet...	2021-12-24	Code
13	SIGA_T	95.1	No	Self-supervised Implicit Glyph Attention for Tex...	2022-03-07	Code
14	MATRN	95	No	Multi-modal Text Recognition Networks: Interacti...	2021-11-30	Code
15	Yet Another Text Recognizer	94.7	No	Why You Should Try the Real Data for the Scene T...	2021-07-29	Code
16	NRTR+TPS++	94.6	No	TPS++: Attention-Enhanced Thin-Plate Spline for ...	2023-05-09	Code
17	DPAN	93.9	No	-	-	Code
18	CDistNet (Ours)	93.82	No	CDistNet: Perceiving Multi-Domain Character Dist...	2021-11-22	Code
19	DiffusionSTR	93.6	No	DiffusionSTR: Diffusion Model for Scene Text Rec...	2023-06-29	-
20	RCEED	91.8	No	Representation and Correlation Enhanced Encoder-...	2021-06-13	Code
21	SRN	91.5	No	Towards Accurate Scene Text Recognition with Sem...	2020-03-27	Code
22	SATRN	91.3	No	On Recognizing Texts of Arbitrary Shapes with 2D...	2019-10-10	Code
23	CSTR	90.6	No	Revisiting Classification Perspective on Scene T...	2021-02-22	Code
24	TextScanner	90.1	No	TextScanner: Reading Characters in Order for Rob...	2019-12-28	-
25	SEED	89.6	No	SEED: Semantics Enhanced Encoder-Decoder Framewo...	2020-05-22	Code
26	ASTER	89.5	No	-	-	Code
27	DAN	89.2	No	Decoupled Attention Network for Text Recognition	2019-12-21	Code
28	SAFL	88.6	No	SAFL: A Self-Attention Scene Text Recognizer wit...	2022-01-01	Code
29	ViTSTR	87.7	No	Vision Transformer for Fast and Efficient Scene ...	2021-05-18	Code
30	Baek et al.	87.5	No	What Is Wrong With Scene Text Recognition Model ...	2019-04-03	Code
31	CA-FCN	86.4	No	Scene Text Recognition from Two-Dimensional Pers...	2018-09-18	-
32	SAR	84.5	No	Show, Attend and Read: A Simple and Strong Basel...	2018-11-02	Code
33	STAR-Net	83.6	No	-	-	Code
34	RARE	81.9	No	Robust Scene Text Recognition with Automatic Rec...	2016-03-12	Code
35	CRNN	80.8	No	An End-to-End Trainable Neural Network for Image...	2015-07-21	Code
36	CHAR	68	No	Synthetic Data and Artificial Neural Networks fo...	2014-06-09	Code

#1CLIP4STR-H (DFN-5B)SOTA
99.1
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#2DTrOCR 105M
98.9
Accuracy· 2023-08-30
DTrOCR: Decoder-only Transformer for Optical Character Recognition Code
#3CLIP4STR-B*
98.76
Accuracy· Extra Data· 2023-12-29
An Empirical Study of Scaling Law for OCR Code
#4MGP-STRSOTA
98.6
Accuracy· Extra Data· 2022-09-08
Multi-Granularity Prediction for Scene Text Recognition Code
#5CLIP4STR-L (DataComp-1B)
98.6
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#6CPPD
98.5
Accuracy· Extra Data· 2023-07-23
Context Perception Parallel Decoder for Scene Text Recognition Code
#7CLIP4STR-L
98.5
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#8CLIP4STR-B
98.3
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#9CCD-ViT-Base(ARD_2.8M)
97.8
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#10CCD-ViT-Small(ARD_2.8M)
96.4
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#11CCD-ViT-Tiny(ARD_2.8M)
96
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#12S-GTRSOTA
95.8
Accuracy· Extra Data· 2021-12-24
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition Code
#13SIGA_T
95.1
Accuracy· 2022-03-07
Self-supervised Implicit Glyph Attention for Text Recognition Code
#14MATRNSOTA
95
Accuracy· 2021-11-30
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features Code
#15Yet Another Text RecognizerSOTA
94.7
Accuracy· 2021-07-29
Why You Should Try the Real Data for the Scene Text Recognition Code
#16NRTR+TPS++
94.6
Accuracy· 2023-05-09
TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition Code
#17DPAN
93.9
Accuracy
No paperCode
#18CDistNet (Ours)
93.82
Accuracy· 2021-11-22
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition Code
#19DiffusionSTR
93.6
Accuracy· 2023-06-29
DiffusionSTR: Diffusion Model for Scene Text Recognition
#20RCEEDSOTA
91.8
Accuracy· 2021-06-13
Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition Code
#21SRNSOTA
91.5
Accuracy· 2020-03-27
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks Code
#22SATRNSOTA
91.3
Accuracy· 2019-10-10
On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention Code
#23CSTR
90.6
Accuracy· 2021-02-22
Revisiting Classification Perspective on Scene Text Recognition Code
#24TextScanner
90.1
Accuracy· 2019-12-28
TextScanner: Reading Characters in Order for Robust Scene Text Recognition
#25SEED
89.6
Accuracy· 2020-05-22
SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition Code
#26ASTER
89.5
Accuracy
No paperCode
#27DAN
89.2
Accuracy· 2019-12-21
Decoupled Attention Network for Text Recognition Code
#28SAFL
88.6
Accuracy· 2022-01-01
SAFL: A Self-Attention Scene Text Recognizer with Focal Loss Code
#29ViTSTR
87.7
Accuracy· 2021-05-18
Vision Transformer for Fast and Efficient Scene Text Recognition Code
#30Baek et al.SOTA
87.5
Accuracy· 2019-04-03
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis Code
#31CA-FCNSOTA
86.4
Accuracy· 2018-09-18
Scene Text Recognition from Two-Dimensional Perspective
#32SAR
84.5
Accuracy· 2018-11-02
Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition Code
#33STAR-Net
83.6
Accuracy
No paperCode
#34RARESOTA
81.9
Accuracy· 2016-03-12
Robust Scene Text Recognition with Automatic Rectification Code
#35CRNNSOTA
80.8
Accuracy· 2015-07-21
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition Code
#36CHARSOTA
68
Accuracy· 2014-06-09
Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition Code