Video Object Segmentation on ReVOS

Metric: J (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	J▼	Extra Data	Paper	Date↕	Code
1	VRS-HQ (Chat-UniVi-13B)	57.6	No	The Devil is in Temporal Token: High Quality Vid...	2025-01-15	Code
2	VRS-HQ (Chat-UniVi-7B)	56.6	No	The Devil is in Temporal Token: High Quality Vid...	2025-01-15	Code
3	VISA (Chat-UniVi-13B)	48.8	No	VISA: Reasoning Video Object Segmentation via La...	2024-07-16	Code
4	VISA (Chat-UniVi-7B)	44.9	No	VISA: Reasoning Video Object Segmentation via La...	2024-07-16	Code
5	TrackGPT (LLaVA-13B)	43.2	No	Tracking with Human-Intent Reasoning	2023-12-29	Code
6	LISA (LLaVA-13B)	39.8	No	LISA: Reasoning Segmentation via Large Language ...	2023-08-01	Code
7	ReferFormer (Video-Swin-B)	26.2	No	Language as Queries for Referring Video Object S...	2022-01-03	Code
8	MTTR (Video-Swin-T)	25.1	No	End-to-End Referring Video Object Segmentation w...	2021-11-29	Code
9	LMPM (Swin-T)	21.2	No	MeViS: A Large-scale Benchmark for Video Segment...	2023-08-16	Code

#1VRS-HQ (Chat-UniVi-13B)SOTA
57.6
J· 2025-01-15
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation Code
#2VRS-HQ (Chat-UniVi-7B)
56.6
J· 2025-01-15
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation Code
#3VISA (Chat-UniVi-13B)SOTA
48.8
J· 2024-07-16
VISA: Reasoning Video Object Segmentation via Large Language Models Code
#4VISA (Chat-UniVi-7B)
44.9
J· 2024-07-16
VISA: Reasoning Video Object Segmentation via Large Language Models Code
#5TrackGPT (LLaVA-13B)SOTA
43.2
J· 2023-12-29
Tracking with Human-Intent Reasoning Code
#6LISA (LLaVA-13B)SOTA
39.8
J· 2023-08-01
LISA: Reasoning Segmentation via Large Language Model Code
#7ReferFormer (Video-Swin-B)SOTA
26.2
J· 2022-01-03
Language as Queries for Referring Video Object Segmentation Code
#8MTTR (Video-Swin-T)SOTA
25.1
J· 2021-11-29
End-to-End Referring Video Object Segmentation with Multimodal Transformers Code
#9LMPM (Swin-T)
21.2
J· 2023-08-16
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions Code