Question Answering on TruthfulQA

Metric: % true (GPT-judge) (higher is better)

LeaderboardDataset

Loading chart...

Results

Submit a result

Sort:

#	Model↕	% true (GPT-judge)▼	Extra Data	Paper	Date↕	Code
1	UnifiedQA 3B	53.24	No	TruthfulQA: Measuring How Models Mimic Human Fal...	2021-09-08	Code
2	GPT-2 1.5B	29.87	No	TruthfulQA: Measuring How Models Mimic Human Fal...	2021-09-08	Code
3	GPT-J 6B	27.17	No	TruthfulQA: Measuring How Models Mimic Human Fal...	2021-09-08	Code
4	GPT-3 175B	20.56	No	TruthfulQA: Measuring How Models Mimic Human Fal...	2021-09-08	Code

#1UnifiedQA 3BSOTA
53.24
% true (GPT-judge)· 2021-09-08
TruthfulQA: Measuring How Models Mimic Human Falsehoods Code
#2GPT-2 1.5B
29.87
% true (GPT-judge)· 2021-09-08
TruthfulQA: Measuring How Models Mimic Human Falsehoods Code
#3GPT-J 6B
27.17
% true (GPT-judge)· 2021-09-08
TruthfulQA: Measuring How Models Mimic Human Falsehoods Code
#4GPT-3 175B
20.56
% true (GPT-judge)· 2021-09-08
TruthfulQA: Measuring How Models Mimic Human Falsehoods Code