Dual-Path Convolutional Image-Text Embeddings with Instance Loss

Zhedong Zheng, Liang Zheng, Michael Garrett, Yi Yang, Mingliang Xu, Yi-Dong Shen

2017-11-15Cross-Modal Retrieval Content-Based Image Retrieval NLP based Person Retrival Person Retrieval Retrieval Text based Person Retrieval

Paper PDF Code Code(official)

Abstract

Matching images and sentences demands a fine understanding of both modalities. In this paper, we propose a new system to discriminatively embed the image and text to a shared visual-textual space. In this field, most existing works apply the ranking loss to pull the positive image / text pairs close and push the negative pairs apart from each other. However, directly deploying the ranking loss is hard for network learning, since it starts from the two heterogeneous features to build inter-modal relationship. To address this problem, we propose the instance loss which explicitly considers the intra-modal data distribution. It is based on an unsupervised assumption that each image / text group can be viewed as a class. So the network can learn the fine granularity from every image/text group. The experiment shows that the instance loss offers better weight initialization for the ranking loss, so that more discriminative embeddings can be learned. Besides, existing works usually apply the off-the-shelf features, i.e., word2vec and fixed visual feature. So in a minor contribution, this paper constructs an end-to-end dual-path convolutional network to learn the image and text representations. End-to-end learning allows the system to directly learn from the data and fully utilize the supervision. On two generic retrieval datasets (Flickr30k and MSCOCO), experiments demonstrate that our method yields competitive accuracy compared to state-of-the-art methods. Moreover, in language based person retrieval, we improve the state of the art by a large margin. The code has been made publicly available.

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Image Retrieval with Multi-Modal Query	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	CUHK-PEDES	Text-to-image Medr	2	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@1	44.4	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@10	75.07	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@5	66.26	Dual Path
Cross-Modal Information Retrieval	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Cross-Modal Information Retrieval	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Cross-Modal Information Retrieval	CUHK-PEDES	Text-to-image Medr	2	Dual Path
Cross-Modal Retrieval	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Cross-Modal Retrieval	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Cross-Modal Retrieval	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Cross-Modal Retrieval	CUHK-PEDES	Text-to-image Medr	2	Dual Path

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Retrieval with Multi-Modal Query	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Image Retrieval with Multi-Modal Query	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Image Retrieval with Multi-Modal Query	CUHK-PEDES	Text-to-image Medr	2	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@1	44.4	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@10	75.07	Dual Path
Text based Person Retrieval	CUHK-PEDES	R@5	66.26	Dual Path
Cross-Modal Information Retrieval	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Cross-Modal Information Retrieval	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Cross-Modal Information Retrieval	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Cross-Modal Information Retrieval	CUHK-PEDES	Text-to-image Medr	2	Dual Path
Cross-Modal Retrieval	MSCOCO-1k	Image-to-text R@1	41.2	Dual-path CNN
Cross-Modal Retrieval	MSCOCO-1k	Text-to-image R@1	25.3	Dual-path CNN
Cross-Modal Retrieval	Flickr30k	Image-to-text R@1	55.6	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Image-to-text R@5	81.9	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Image-to-text R@10	89.5	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@1	39.1	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@10	80.9	Dual-Path (ResNet)
Cross-Modal Retrieval	Flickr30k	Text-to-image R@5	69.2	Dual-Path (ResNet)
Cross-Modal Retrieval	CUHK-PEDES	Text-to-image Medr	2	Dual Path

Dual-Path Convolutional Image-Text Embeddings with Instance Loss

Abstract

Results

Related Papers

Dual-Path Convolutional Image-Text Embeddings with Instance Loss

Abstract

Results

Related Papers