FrozenBiLM (0-shot)

Reported on 4 benchmarks across 1 task · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Reasoning4 results

Video Question AnsweringonActivityNet-QA
Accuracy· 2022-06-16
25.9
best: 61.6 (Tarsier (34B))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonMSRVTT-QA
Accuracy· 2022-06-16
16.7
best: 72.4 (Flash-VStream)
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringoniVQA
Accuracy· 2022-06-16
26.8
best: 40.2 (Text + Text (no Multimodal Pretext Training))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonHow2QA
Accuracy· 2022-06-16
58.4
best: 93.2 (Text + Text (no Multimodal Pretext Training))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155