Cross-Modal Information Retrieval on Recipe1M

Metric: Image-to-text R@1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Image-to-text R@1▼	Extra Data	Paper	Date↕	Code
1	VLPCook (R1M+)	74.9	No	Vision and Structured-Language Pretraining for C...	2022-12-08	Code
2	VLPCook	73.6	No	Vision and Structured-Language Pretraining for C...	2022-12-08	Code
3	T-Food (CLIP)	72.3	No	Transformer Decoders with MultiModal Regularizat...	2022-04-20	Code
4	T-Food	68.2	No	Transformer Decoders with MultiModal Regularizat...	2022-04-20	Code
5	X-MRS	64	No	Cross-Modal Retrieval and Synthesis (X-MRS): Clo...	2020-12-02	-
6	H-T	60	No	Revamping Cross-Modal Recipe Retrieval with Hier...	2021-03-24	Code
7	SCAN	54	No	Cross-Modal Food Retrieval: Learning a Joint Emb...	2020-03-09	-
8	ACME	51.8	No	Learning Cross-Modal Embeddings with Adversarial...	2019-05-03	Code
9	AdaMine	39.8	No	Cross-Modal Retrieval in the Cooking Context: Le...	2018-04-30	Code

#1VLPCook (R1M+)SOTA
74.9
Image-to-text R@1· 2022-12-08
Vision and Structured-Language Pretraining for Cross-Modal Food Retrieval Code
#2VLPCook
73.6
Image-to-text R@1· 2022-12-08
Vision and Structured-Language Pretraining for Cross-Modal Food Retrieval Code
#3T-Food (CLIP)SOTA
72.3
Image-to-text R@1· 2022-04-20
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval Code
#4T-Food
68.2
Image-to-text R@1· 2022-04-20
Transformer Decoders with MultiModal Regularization for Cross-Modal Food Retrieval Code
#5X-MRSSOTA
64
Image-to-text R@1· 2020-12-02
Cross-Modal Retrieval and Synthesis (X-MRS): Closing the Modality Gap in Shared Representation Learning
#6H-T
60
Image-to-text R@1· 2021-03-24
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning Code
#7SCANSOTA
54
Image-to-text R@1· 2020-03-09
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism
#8ACMESOTA
51.8
Image-to-text R@1· 2019-05-03
Learning Cross-Modal Embeddings with Adversarial Networks for Cooking Recipes and Food Images Code
#9AdaMineSOTA
39.8
Image-to-text R@1· 2018-04-30
Cross-Modal Retrieval in the Cooking Context: Learning Semantic Text-Image Embeddings Code