Cross-Modal Information Retrieval on CommercialAdsDataset

Metric: ADD(S) AUC (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	ADD(S) AUC▼	Extra Data	Paper	Date↕	Code
1	AlignCMSS	91.73	No	Align before Search: Aligning Ads Image to Text ...	2023-09-28	Code
2	VinVL	88.56	No	VinVL: Revisiting Visual Representations in Visi...	2021-01-02	Code
3	AdsCVLR	87.9	No	-	-	-
4	OSCAR	87.45	No	Oscar: Object-Semantics Aligned Pre-training for...	2020-04-13	Code
5	VL-BERT	86.27	No	VL-BERT: Pre-training of Generic Visual-Linguist...	2019-08-22	Code
6	BLIP	83.51	No	BLIP: Bootstrapping Language-Image Pre-training ...	2022-01-28	Code
7	Unicoder-VL	83.16	No	Unicoder-VL: A Universal Encoder for Vision and ...	2019-08-16	-
8	ALBEF	82.74	No	Align before Fuse: Vision and Language Represent...	2021-07-16	Code

#1AlignCMSSSOTA
91.73
ADD(S) AUC· 2023-09-28
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search Code
#2VinVLSOTA
88.56
ADD(S) AUC· 2021-01-02
VinVL: Revisiting Visual Representations in Vision-Language Models Code
#3AdsCVLR
87.9
ADD(S) AUC
No paper
#4OSCARSOTA
87.45
ADD(S) AUC· 2020-04-13
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Code
#5VL-BERTSOTA
86.27
ADD(S) AUC· 2019-08-22
VL-BERT: Pre-training of Generic Visual-Linguistic Representations Code
#6BLIP
83.51
ADD(S) AUC· 2022-01-28
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Code
#7Unicoder-VLSOTA
83.16
ADD(S) AUC· 2019-08-16
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training
#8ALBEF
82.74
ADD(S) AUC· 2021-07-16
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Code