LLaVA-OneVision (72B)

Reported on 2 benchmarks across 2 tasks

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing1 result

Question AnsweringonVideo-MME (w/o subs)
Accuracy (%)
64.8
best: 77.4 (Video-RAG (based on LLaVA-Video))

Reasoning1 result

Video Question AnsweringonVideo-MME (w/o subs)
Accuracy (%)
64.8
best: 77.4 (Video-RAG (based on LLaVA-Video))