Scene Parsing on IIIT5k

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	CLIP4STR-L (DataComp-1B)	99.6	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
2	DTrOCR 105M	99.6	No	DTrOCR: Decoder-only Transformer for Optical Cha...	2023-08-30	Code
3	CLIP4STR-L	99.5	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
4	CLIP4STR-B (DataComp-1B)	99.5	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
5	CPPD	99.3	Yes	Context Perception Parallel Decoder for Scene Te...	2023-07-23	Code
6	CLIP4STR-B	99.2	Yes	CLIP4STR: A Simple Baseline for Scene Text Recog...	2023-05-23	Code
7	MGP-STR	98.8	Yes	Multi-Granularity Prediction for Scene Text Reco...	2022-09-08	Code
8	CCD-ViT-Small(ARD_2.8M)	98	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
9	CCD-ViT-Base(ARD_2.8M)	98	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
10	S-GTR	97.5	Yes	Visual Semantics Allow for Textual Reasoning Bet...	2021-12-24	Code
11	DiffusionSTR	97.3	No	DiffusionSTR: Diffusion Model for Scene Text Rec...	2023-06-29	-
12	CCD-ViT-Tiny(ARD_2.8M)	97.1	Yes	Self-supervised Character-to-Character Distillat...	2022-11-01	Code
13	SIGA_S	96.9	No	Self-supervised Implicit Glyph Attention for Tex...	2022-03-07	Code
14	MATRN	96.6	No	Multi-modal Text Recognition Networks: Interacti...	2021-11-30	Code
15	CDistNet (Ours)	96.57	No	CDistNet: Perceiving Multi-Domain Character Dist...	2021-11-22	Code
16	DPAN	96.2	No	-	-	Code

#1CLIP4STR-L (DataComp-1B)SOTA
99.6
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#2DTrOCR 105M
99.6
Accuracy· 2023-08-30
DTrOCR: Decoder-only Transformer for Optical Character Recognition Code
#3CLIP4STR-L
99.5
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#4CLIP4STR-B (DataComp-1B)
99.5
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#5CPPD
99.3
Accuracy· Extra Data· 2023-07-23
Context Perception Parallel Decoder for Scene Text Recognition Code
#6CLIP4STR-B
99.2
Accuracy· Extra Data· 2023-05-23
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code
#7MGP-STRSOTA
98.8
Accuracy· Extra Data· 2022-09-08
Multi-Granularity Prediction for Scene Text Recognition Code
#8CCD-ViT-Small(ARD_2.8M)
98
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#9CCD-ViT-Base(ARD_2.8M)
98
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#10S-GTRSOTA
97.5
Accuracy· Extra Data· 2021-12-24
Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition Code
#11DiffusionSTR
97.3
Accuracy· 2023-06-29
DiffusionSTR: Diffusion Model for Scene Text Recognition
#12CCD-ViT-Tiny(ARD_2.8M)
97.1
Accuracy· Extra Data· 2022-11-01
Self-supervised Character-to-Character Distillation for Text Recognition Code
#13SIGA_S
96.9
Accuracy· 2022-03-07
Self-supervised Implicit Glyph Attention for Text Recognition Code
#14MATRNSOTA
96.6
Accuracy· 2021-11-30
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features Code
#15CDistNet (Ours)SOTA
96.57
Accuracy· 2021-11-22
CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition Code
#16DPAN
96.2
Accuracy
No paperCode