Audio-visual Question Answering on MUSIC-AVQA v2.0

Metric: Accuracy (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Hide extra data

Sort:

#	Model↕	Accuracy▼	Extra Data	Paper	Date↕	Code
1	Meerkat	79.15	Yes	Meerkat: Audio-Visual Large Language Model for G...	2024-07-01	Code
2	QA-TIGER	76.43	No	Question-Aware Gaussian Experts for Audio-Visual...	2025-03-06	Code
3	LAST-Att	75.44	No	Tackling Data Bias in MUSIC-AVQA: Crafting a Bal...	2023-10-10	Code
4	LAVISH	73.18	No	Vision Transformers are Parameter-Efficient Audi...	2022-12-15	Code
5	AVST	71.02	No	Learning to Answer Questions in Dynamic Audio-Vi...	2022-03-26	Code

#1MeerkatSOTA
79.15
Accuracy· Extra Data· 2024-07-01
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time Code
#2QA-TIGER
76.43
Accuracy· 2025-03-06
Question-Aware Gaussian Experts for Audio-Visual Question Answering Code
#3LAST-AttSOTA
75.44
Accuracy· 2023-10-10
Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering Code
#4LAVISHSOTA
73.18
Accuracy· 2022-12-15
Vision Transformers are Parameter-Efficient Audio-Visual Learners Code
#5AVSTSOTA
71.02
Accuracy· 2022-03-26
Learning to Answer Questions in Dynamic Audio-Visual Scenarios Code