Audio-visual Question Answering on MUSIC-AVQA

Metric: Acc (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Acc▼	Extra Data	Paper	Date↕	Code
1	VAST	80.7	Yes	VAST: A Vision-Audio-Subtitle-Text Omni-Modality...	2023-05-29	Code
2	CoQo(Internvideo2)	79.6	No	-	-	-
3	VALOR	78.9	Yes	VALOR: Vision-Audio-Language Omni-Perception Pre...	2023-04-17	Code
4	CAD	78.26	No	CAD -- Contextual Multi-modal Alignment for Dyna...	2023-10-25	-
5	LAVISH	77.08	No	Vision Transformers are Parameter-Efficient Audi...	2022-12-15	Code
6	ST-AVQA	71.52	No	Learning to Answer Questions in Dynamic Audio-Vi...	2022-03-26	Code

#1VASTSOTA
80.7
Acc· Extra Data· 2023-05-29
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Code
#2CoQo(Internvideo2)
79.6
Acc
No paper
#3VALORSOTA
78.9
Acc· Extra Data· 2023-04-17
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Code
#4CAD
78.26
Acc· 2023-10-25
CAD -- Contextual Multi-modal Alignment for Dynamic AVQA
#5LAVISHSOTA
77.08
Acc· 2022-12-15
Vision Transformers are Parameter-Efficient Audio-Visual Learners Code
#6ST-AVQASOTA
71.52
Acc· 2022-03-26
Learning to Answer Questions in Dynamic Audio-Visual Scenarios Code