Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/FrozenBiLM

FrozenBiLM

Reported on 18 benchmarks across 5 tasks · 1 paper · 13 SOTA

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Reasoning9 results

Video Question AnsweringonTVQA
Accuracy· uses extra data· 2022-06-16
82
best: 82.2 (LLaMA-VQA)
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonMSRVTT-QA
Accuracy· uses extra data· 2022-06-16
47
best: 72.4 (Flash-VStream)
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonMSVD-QA
Accuracy· 2022-06-16
33.8
best: 80.3 (Tarsier (34B))
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonTGIF-QA
Accuracy· 2022-06-16
41.9
best: 82.5 (Tarsier (34B))
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonEgoSchema (fullset)
Accuracy· 2022-06-16
26.9
best: 71.14 (BIMBA-LLaVA-Qwen2-7B)
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonActivityNet-QA
Accuracy· uses extra data· 2022-06-16
43.2
best: 61.6 (Tarsier (34B))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringoniVQA
Accuracy· uses extra data· 2022-06-16
39.6
best: 40.2 (Text + Text (no Multimodal Pretext Training))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonHow2QA
Accuracy· uses extra data· 2022-06-16
86.7
best: 93.2 (Text + Text (no Multimodal Pretext Training))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Video Question AnsweringonActivityNet-QA
Accuracy· 2022-06-16
24.7
best: 61.6 (Tarsier (34B))
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155

Natural Language Processing8 results

Question AnsweringonMSVD-QA
Accuracy· 2022-06-16
33.8
best: 80.3 (Tarsier (34B))
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Question AnsweringonTGIF-QA
Accuracy· 2022-06-16
41.9
best: 82.5 (Tarsier (34B))
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Question AnsweringonEgoSchema (fullset)
Accuracy· 2022-06-16
26.9
best: 71.14 (BIMBA-LLaVA-Qwen2-7B)
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Question AnsweringonActivityNet-QA
Accuracy· 2022-06-16
24.7
best: 61.6 (Tarsier (34B))
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Visual Question AnsweringonMSVD-QA
Accuracy· 2022-06-16
0.548
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Visual Question AnsweringonMSRVTT-QA
Accuracy· 2022-06-16
0.47
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Visual Question Answering (VQA)onMSVD-QA
Accuracy· 2022-06-16
0.548
best: 0.61 (VLAB)
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Visual Question Answering (VQA)onMSRVTT-QA
Accuracy· 2022-06-16
0.47
best: 0.496 (VLAB)
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155

Methodology2 results

Zero-Shot LearningoniVQA
Accuracy· uses extra data· 2022-06-16
0.268
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155
Zero-Shot LearningonLSMDC
Accuracy· uses extra data· 2022-06-16
51.5
SOTA
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models arXiv:2206.08155