RLAIF-V 7B

Reported on 6 benchmarks across 3 tasks · 1 paper

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing6 results

Visual Question Answering (VQA)onMMHal-Bench
Hallucination Rate· 2024-05-27
29.2
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220
Visual Question Answering (VQA)onMMHal-Bench
Score· 2024-05-27
3.06
best: 3.36 (RLAIF-V 12B)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220
Image CaptioningonObject HalBench
chair_i· 2024-05-27
4.3
best: 7.5 (RLHF-V)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220
Image CaptioningonObject HalBench
chair_s· 2024-05-27
8.5
best: 12.2 (RLHF-V)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220
Visual Question AnsweringonMMHal-Bench
Hallucination Rate· 2024-05-27
29.2
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220
Visual Question AnsweringonMMHal-Bench
Score· 2024-05-27
3.06
best: 3.36 (RLAIF-V 12B)
RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness arXiv:2405.17220