Tasks SotA Datasets Papers Methods Submit About

Papers With Code 2

A community resource for machine learning research: papers, code, benchmarks, and state-of-the-art results.

Explore

Notable Benchmarks All SotA Datasets Papers Methods

Community

Submit Results About

Data sourced from the PWC Archive (CC-BY-SA 4.0). Built by the community, for the community.

Models/GPT-J 6B

GPT-J 6B

Reported on 9 benchmarks across 2 tasks · 2 papers

Note: results are matched by exact model name. Different papers may use the same name for different model variants.

Natural Language Processing9 results

Code GenerationonVerified Smart Contract Code Comments
BLEU score· 2023-09-18
25.8
best: 55.7 (GPT-J 6B Smart Contract)
Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding arXiv:2309.09826
Question AnsweringonTruthfulQA
% info· 2021-09-08
89.96
best: 97.7 (Alpaca 7B + Inference Time Intervention (ITI))
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
% true· 2021-09-08
26.68
best: 88.6 (Vicuna 7B + Inference Time Intervention (ITI))
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
% true (GPT-judge)· 2021-09-08
27.17
best: 53.24 (UnifiedQA 3B)
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
BLEU· 2021-09-08
-7.58
best: -0.16 (UnifiedQA 3B)
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
BLEURT· 2021-09-08
-0.31
best: 0.08 (UnifiedQA 3B)
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
MC1· 2021-09-08
0.2
best: 0.59 (GPT-4 (RLHF))
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
MC2· 2021-09-08
0.36
best: 0.75 (Mistral-7B-Instruct-v0.2 + TruthX)
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958
Question AnsweringonTruthfulQA
ROUGE· 2021-09-08
-11.35
best: 1.76 (UnifiedQA 3B)
TruthfulQA: Measuring How Models Mimic Human Falsehoods arXiv:2109.07958