TinyQA Benchmark++ on tinyqabenchmark_core-en

Metric: Exact Match (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	Exact Match▼	Extra Data	Paper	Date↕	Code
1	gemma-3-4b	86.5	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
2	mistral-24b-instruct	84.6	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
3	llama-3.2-3b-instruct	84.6	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
4	ministral-8b	80.8	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
5	ministral-3b	76.9	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
6	llama-3.2-1b-instruct	53.8	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code
7	mistral-7b-instruct	50	No	Tiny QA Benchmark++: Ultra-Lightweight, Syntheti...	2025-05-17	Code

#1gemma-3-4bSOTA
86.5
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#2mistral-24b-instruct
84.6
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#3llama-3.2-3b-instruct
84.6
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#4ministral-8b
80.8
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#5ministral-3b
76.9
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#6llama-3.2-1b-instruct
53.8
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code
#7mistral-7b-instruct
50
Exact Match· 2025-05-17
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation Code