Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

Minkuk Kim, Hyeon Bae Kim, Jinyoung Moon, Jinwoo Choi, Seong Tae Kim

2024-04-11CVPR 2024 1Text Matching Video Captioning Dense Video Captioning Retrieval

Abstract

There has been significant attention to the research on dense video captioning, which aims to automatically localize and caption all events within untrimmed video. Several studies introduce methods by designing dense video captioning as a multitasking problem of event localization and event captioning to consider inter-task relations. However, addressing both tasks using only visual input is challenging due to the lack of semantic content. In this study, we address this by proposing a novel framework inspired by the cognitive information processing of humans. Our model utilizes external memory to incorporate prior knowledge. The memory retrieval method is proposed with cross-modal video-to-text matching. To effectively incorporate retrieved text features, the versatile encoder and the decoder with visual and textual cross-attention modules are designed. Comparative experiments have been conducted to show the effectiveness of the proposed method on ActivityNet Captions and YouCook2 datasets. Experimental results show promising performance of our model without extensive pretraining from a large video dataset.

Results

Task	Dataset	Metric	Value	Model
Video Captioning	YouCook2	BLEU4	1.63	CM²
Video Captioning	YouCook2	CIDEr	31.66	CM²
Video Captioning	YouCook2	F1	28.43	CM²
Video Captioning	YouCook2	METEOR	6.08	CM²
Video Captioning	YouCook2	Precision	33.38	CM²
Video Captioning	YouCook2	Recall	24.76	CM²
Video Captioning	YouCook2	SODA	5.34	CM²
Video Captioning	ActivityNet Captions	BLEU4	2.38	CM²
Video Captioning	ActivityNet Captions	CIDEr	33.01	CM²
Video Captioning	ActivityNet Captions	F1	55.21	CM²
Video Captioning	ActivityNet Captions	METEOR	8.55	CM²
Video Captioning	ActivityNet Captions	Precision	56.81	CM²
Video Captioning	ActivityNet Captions	Recall	53.71	CM²
Video Captioning	ActivityNet Captions	SODA	6.18	CM²
Dense Video Captioning	YouCook2	BLEU4	1.63	CM²
Dense Video Captioning	YouCook2	CIDEr	31.66	CM²
Dense Video Captioning	YouCook2	F1	28.43	CM²
Dense Video Captioning	YouCook2	METEOR	6.08	CM²
Dense Video Captioning	YouCook2	Precision	33.38	CM²
Dense Video Captioning	YouCook2	Recall	24.76	CM²
Dense Video Captioning	YouCook2	SODA	5.34	CM²
Dense Video Captioning	ActivityNet Captions	BLEU4	2.38	CM²
Dense Video Captioning	ActivityNet Captions	CIDEr	33.01	CM²
Dense Video Captioning	ActivityNet Captions	F1	55.21	CM²
Dense Video Captioning	ActivityNet Captions	METEOR	8.55	CM²
Dense Video Captioning	ActivityNet Captions	Precision	56.81	CM²
Dense Video Captioning	ActivityNet Captions	Recall	53.71	CM²
Dense Video Captioning	ActivityNet Captions	SODA	6.18	CM²

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

Abstract

Results

Related Papers

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

Abstract

Results

Related Papers