Video on MAD

Metric: R@1,IoU=0.3 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	R@1,IoU=0.3▼	Extra Data	Paper	Date↕	Code
1	ReVisionLLM	12.7	No	ReVisionLLM: Recursive Vision-Language Model for...	2024-11-22	Code
2	DeCafNet	10.96	No	DeCafNet: Delegate and Conquer for Efficient Tem...	2025-05-22	Code
3	DeCafNet	10.96	No	DeCafNet: Delegate and Conquer for Efficient Tem...	2025-05-22	Code
4	RGNet	9.48	No	RGNet: A Unified Clip Retrieval and Grounding Ne...	2023-12-11	Code
5	Zero-Shot CLIP + Guidance Model	4.65	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
6	VLG-Net + Guidance Model	4.28	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
7	CLIP	3.13	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
8	VLG-Net	2.63	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
9	Random Chance	0.04	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code

#1ReVisionLLMSOTA
12.7
R@1,IoU=0.3· 2024-11-22
ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos Code
#2DeCafNet
10.96
R@1,IoU=0.3· 2025-05-22
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Code
#3DeCafNet
10.96
R@1,IoU=0.3· 2025-05-22
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Code
#4RGNetSOTA
9.48
R@1,IoU=0.3· 2023-12-11
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Code
#5Zero-Shot CLIP + Guidance ModelSOTA
4.65
R@1,IoU=0.3· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#6VLG-Net + Guidance Model
4.28
R@1,IoU=0.3· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#7CLIPSOTA
3.13
R@1,IoU=0.3· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#8VLG-Net
2.63
R@1,IoU=0.3· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#9Random Chance
0.04
R@1,IoU=0.3· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code