Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel, Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, Patrick LeGresley, Libby Lin, Sharan Narang, Andrew Ng, Sherjil Ozair, Ryan Prenger, Jonathan Raiman, Sanjeev Satheesh, David Seetapun, Shubho Sengupta, Yi Wang, Zhiqian Wang, Chong Wang, Bo Xiao, Dani Yogatama, Jun Zhan, Zhenyao Zhu

2015-12-08Speech Recognition Accented Speech Recognition

Paper PDF Code Code Code Code Code Code Code Code(official)Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code Code

Abstract

We show that an end-to-end deep learning approach can be used to recognize either English or Mandarin Chinese speech--two vastly different languages. Because it replaces entire pipelines of hand-engineered components with neural networks, end-to-end learning allows us to handle a diverse variety of speech including noisy environments, accents and different languages. Key to our approach is our application of HPC techniques, resulting in a 7x speedup over our previous system. Because of this efficiency, experiments that previously took weeks now run in days. This enables us to iterate more quickly to identify superior architectures and algorithms. As a result, in several cases, our system is competitive with the transcription of human workers when benchmarked on standard datasets. Finally, using a technique called Batch Dispatch with GPUs in the data center, we show that our system can be inexpensively deployed in an online setting, delivering low latency when serving users at scale.

Results

Task	Dataset	Metric	Value	Model
Speech Recognition	WSJ eval92	Word Error Rate (WER)	3.6	Deep Speech 2
Speech Recognition	WSJ eval93	Word Error Rate (WER)	4.98	Deep Speech 2
Speech Recognition	LibriSpeech test-clean	Word Error Rate (WER)	5.33	Deep Speech 2
Speech Recognition	LibriSpeech test-other	Word Error Rate (WER)	13.25	Deep Speech 2
Speech Recognition	VoxForge European	Percentage error	17.55	Deep Speech 2
Speech Recognition	VoxForge American-Canadian	Percentage error	7.55	Deep Speech 2
Speech Recognition	VoxForge Indian	Percentage error	22.44	Deep Speech 2
Speech Recognition	VoxForge Commonwealth	Percentage error	13.56	Deep Speech 2
Speech Recognition	CHiME real	Percentage error	21.79	Deep Speech 2
Speech Recognition	CHiME clean	Percentage error	3.34	Deep Speech 2
Accented Speech Recognition	VoxForge European	Percentage error	17.55	Deep Speech 2
Accented Speech Recognition	VoxForge American-Canadian	Percentage error	7.55	Deep Speech 2
Accented Speech Recognition	VoxForge Indian	Percentage error	22.44	Deep Speech 2
Accented Speech Recognition	VoxForge Commonwealth	Percentage error	13.56	Deep Speech 2

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Abstract

Results

Related Papers

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Abstract

Results

Related Papers