Video on MAD

Metric: R@1,IoU=0.1 (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	R@1,IoU=0.1▼	Extra Data	Paper	Date↕	Code
1	ReVisionLLM	17.3	No	ReVisionLLM: Recursive Vision-Language Model for...	2024-11-22	Code
2	DeCafNet	13.25	No	DeCafNet: Delegate and Conquer for Efficient Tem...	2025-05-22	Code
3	DeCafNet	13.25	No	DeCafNet: Delegate and Conquer for Efficient Tem...	2025-05-22	Code
4	RGNet	12.43	No	RGNet: A Unified Clip Retrieval and Grounding Ne...	2023-12-11	Code
5	DenoiseLoc	11.59	No	Boundary-Denoising for Video Activity Localization	2023-04-06	Code
6	Zero-Shot CLIP + Guidance Model	9.3	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
7	CLIP	6.57	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
8	VLG-Net + Guidance Model	5.6	No	Localizing Moments in Long Video Via Multimodal ...	2023-02-26	Code
9	VLG-Net	3.5	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code
10	Random Chance	0.09	No	MAD: A Scalable Dataset for Language Grounding i...	2021-12-01	Code

#1ReVisionLLMSOTA
17.3
R@1,IoU=0.1· 2024-11-22
ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos Code
#2DeCafNet
13.25
R@1,IoU=0.1· 2025-05-22
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Code
#3DeCafNet
13.25
R@1,IoU=0.1· 2025-05-22
DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos Code
#4RGNetSOTA
12.43
R@1,IoU=0.1· 2023-12-11
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Code
#5DenoiseLocSOTA
11.59
R@1,IoU=0.1· 2023-04-06
Boundary-Denoising for Video Activity Localization Code
#6Zero-Shot CLIP + Guidance ModelSOTA
9.3
R@1,IoU=0.1· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#7CLIPSOTA
6.57
R@1,IoU=0.1· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#8VLG-Net + Guidance Model
5.6
R@1,IoU=0.1· 2023-02-26
Localizing Moments in Long Video Via Multimodal Guidance Code
#9VLG-Net
3.5
R@1,IoU=0.1· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code
#10Random Chance
0.09
R@1,IoU=0.1· 2021-12-01
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Code