CamemBERT: a Tasty French Language Model

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah, Benoît Sagot

2019-11-10ACL 2020 6Natural Language Inference Part-Of-Speech Tagging Named Entity Recognition Named Entity Recognition (NER)Dependency Parsing Language Modelling

Paper PDF Code Code Code Code Code(official)Code Code Code

Abstract

Pretrained language models are now ubiquitous in Natural Language Processing. Despite their success, most available models have either been trained on English data or on the concatenation of data in multiple languages. This makes practical use of such models --in all languages except English-- very limited. In this paper, we investigate the feasibility of training monolingual Transformer-based language models for other languages, taking French as an example and evaluating our language models on part-of-speech tagging, dependency parsing, named entity recognition and natural language inference tasks. We show that the use of web crawled data is preferable to the use of Wikipedia data. More surprisingly, we show that a relatively small web crawled dataset (4GB) leads to results that are as good as those obtained using larger datasets (130+GB). Our best performing model CamemBERT reaches or improves the state of the art in all four downstream tasks.

Results

Task	Dataset	Metric	Value	Model
Part-Of-Speech Tagging	Spoken Corpus	UPOS	96.68	CamemBERT
Part-Of-Speech Tagging	French GSD	UPOS	98.19	CamemBERT
Part-Of-Speech Tagging	Sequoia Treebank	UPOS	99.21	CamemBERT
Part-Of-Speech Tagging	ParTUT	UPOS	97.63	CamemBERT
Natural Language Inference	XNLI French	Accuracy	85.7	CamemBERT (large)
Natural Language Inference	XNLI French	Accuracy	81.2	CamemBERT (base)
Dependency Parsing	Spoken Corpus	LAS	81.37	CamemBERT
Dependency Parsing	Spoken Corpus	UAS	86.05	CamemBERT
Dependency Parsing	ParTUT	LAS	92.9	CamemBERT
Dependency Parsing	ParTUT	UAS	95.21	CamemBERT
Dependency Parsing	French GSD	LAS	92.47	CamemBERT
Dependency Parsing	French GSD	UAS	94.82	CamemBERT
Dependency Parsing	Sequoia Treebank	LAS	94.39	CamemBERT
Dependency Parsing	Sequoia Treebank	UAS	95.56	CamemBERT
Named Entity Recognition (NER)	French Treebank	F1	87.93	CamemBERT (subword masking)
Named Entity Recognition (NER)	French Treebank	Precision	88.35	CamemBERT (subword masking)
Named Entity Recognition (NER)	French Treebank	Recall	87.46	CamemBERT (subword masking)

CamemBERT: a Tasty French Language Model

Abstract

Results

Related Papers

CamemBERT: a Tasty French Language Model

Abstract

Results

Related Papers