Text-To-Speech Synthesis on LJSpeech

Metric: Audio Quality MOS (higher is better)

LeaderboardDataset

Loading chart...

Results

Hide extra data

Sort:

#	Model↕	Audio Quality MOS▼	Extra Data	Paper	Date↕	Code
1	NaturalSpeech	4.56	Yes	NaturalSpeech: End-to-End Text to Speech Synthes...	2022-05-09	Code
2	VITS	4.43	Yes	NaturalSpeech: End-to-End Text to Speech Synthes...	2022-05-09	Code
3	Grad-TTS + HiFiGAN (1000 steps)	4.37	Yes	Grad-TTS: A Diffusion Probabilistic Model for Te...	2021-05-13	Code
4	Glow-TTS + HiFiGAN	4.34	Yes	Glow-TTS: A Generative Flow for Text-to-Speech v...	2020-05-22	Code
5	FastSpeech 2 + HiFiGAN	4.34	Yes	NaturalSpeech: End-to-End Text to Speech Synthes...	2022-05-09	Code
6	FastSpeech 2 + HiFiGAN	4.32	Yes	FastSpeech 2: Fast and High-Quality End-to-End T...	2020-06-08	Code
7	FastDiff (4 steps)	4.28	Yes	FastDiff: A Fast Conditional Diffusion Model for...	2022-04-21	Code
8	FastDiff-TTS	4.03	Yes	FastDiff: A Fast Conditional Diffusion Model for...	2022-04-21	Code
9	Transformer TTS (Mel + WaveGlow)	3.88	Yes	Neural Speech Synthesis with Transformer Network	2018-09-19	Code
10	FastSpeech (Mel + WaveGlow)	3.84	Yes	FastSpeech: Fast, Robust and Controllable Text t...	2019-05-22	Code
11	OverFlow	3.37	Yes	OverFlow: Putting flows on top of neural transdu...	2022-11-13	Code
12	Merlin	2.4	Yes	FastSpeech: Fast, Robust and Controllable Text t...	2019-05-22	Code
13	temp	1.25	Yes	-	-	-

#1NaturalSpeechSOTA
4.56
Audio Quality MOS· Extra Data· 2022-05-09
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Code
#2VITS
4.43
Audio Quality MOS· Extra Data· 2022-05-09
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Code
#3Grad-TTS + HiFiGAN (1000 steps)SOTA
4.37
Audio Quality MOS· Extra Data· 2021-05-13
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech Code
#4Glow-TTS + HiFiGANSOTA
4.34
Audio Quality MOS· Extra Data· 2020-05-22
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search Code
#5FastSpeech 2 + HiFiGAN
4.34
Audio Quality MOS· Extra Data· 2022-05-09
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality Code
#6FastSpeech 2 + HiFiGAN
4.32
Audio Quality MOS· Extra Data· 2020-06-08
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech Code
#7FastDiff (4 steps)
4.28
Audio Quality MOS· Extra Data· 2022-04-21
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis Code
#8FastDiff-TTS
4.03
Audio Quality MOS· Extra Data· 2022-04-21
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis Code
#9Transformer TTS (Mel + WaveGlow)SOTA
3.88
Audio Quality MOS· Extra Data· 2018-09-19
Neural Speech Synthesis with Transformer Network Code
#10FastSpeech (Mel + WaveGlow)
3.84
Audio Quality MOS· Extra Data· 2019-05-22
FastSpeech: Fast, Robust and Controllable Text to Speech Code
#11OverFlow
3.37
Audio Quality MOS· Extra Data· 2022-11-13
OverFlow: Putting flows on top of neural transducers for better TTS Code
#12Merlin
2.4
Audio Quality MOS· Extra Data· 2019-05-22
FastSpeech: Fast, Robust and Controllable Text to Speech Code
#13temp
1.25
Audio Quality MOS· Extra Data
No paper