Video on MAD

Metric: R@1,IoU=0.5 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	R@1,IoU=0.5▼	Extra Data	Paper	Date↕	Code
1	DeCafNet	7.06	No	DeCafNet: Delegate and Conquer for Efficient Tem...	2025-05-22	Code
2	ReVisionLLM	6.7	No	ReVisionLLM: Recursive Vision-Language Model for...	2024-11-22	Code
3	RGNet	5.61	No	RGNet: A Unified Clip Retrieval and Grounding Ne...	2023-12-11	Code
4	VLG-Net + Guidance Model	2.48	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
5	Zero-Shot CLIP + Guidance Model	2.16	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
6	VLG-Net	1.61	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
7	CLIP	1.39	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
8	Random Chance	0.01	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code

#1DeCafNetSOTA
7.06
R@1,IoU=0.5· 2025-05-22
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Code
#2ReVisionLLMSOTA
6.7
R@1,IoU=0.5· 2024-11-22
ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos Code
#3RGNetSOTA
5.61
R@1,IoU=0.5· 2023-12-11
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Code
#4VLG-Net + Guidance ModelSOTA
2.48
R@1,IoU=0.5· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#5Zero-Shot CLIP + Guidance Model
2.16
R@1,IoU=0.5· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#6VLG-NetSOTA
1.61
R@1,IoU=0.5· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#7CLIP
1.39
R@1,IoU=0.5· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#8Random Chance
0.01
R@1,IoU=0.5· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code