最強CNN語音識別算法開源：詞錯率5％ Facebook出品

公開日: 2018-12-23

夏乙發自麥蒿寺

量子位出品 | 公眾號 QbitAI

第一個全卷積語音識別工具包wav2letter++開源了。

出品方Facebook稱之為現有“最快的、頂尖水準的”語音識別系統。

拋開廣告法不談，我們來全面了解一下wav2letter++，看看Facebook哪來的勇氣口出狂言。

wav2letter++由Facebook AI研究院（FAIR）的語音團隊推出，以C++寫成，使用了ArrayFire張量庫和flashlight機器學習庫。

Facebook還說，它是第一個完全由C++寫成的語音識別系統，也是第一個全卷積語音識別系統。

所謂“全卷積”，指的是wav2letter++在從聲波到文本的處理過程中，所有可學習的部件都是由卷積層構成的，聲音建模、語言建模任務全部由CNN完成。

一般來說，在聲音和語言建模任務上，循環網絡架構才是更常用的。不過，CNN構成的wav2letter++在性能上也不輸那些RNN模型。

Facebook團隊在論文中，將他們的wav2letter++和其他主流開源語音識別系統做了比較。

他們說，某些情況下，wav2letter++訓練語音識別端到端神經網絡速度是其他框架2倍還多，而且用1億個參數的模型測試，使用從1到64個GPU，訓練時間是線性變化的。

其實，wav2letter++還有個不帶加號的前身，叫做wav2letter，用Lua語言寫成。現在，新版佔用了原版的GitHub倉庫地址，而原來的wav2letter被放到了wav2letter-lua分支下。

想要複現wav2letter++也不難。因為它使用的機器學習庫flashlight也同時開源了。這個機器學習庫用現代的C++即時編譯，CPU、GPU都可用，以求效率和規模的最大化。

最後，附上傳送門~

GitHub地址：

https://github.com/facebookresearch/wav2letter

論文：

wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系網易新聞·網易號“各有態度”簽約作者

—完—