每日最新頭條.有趣資訊

最強CNN語音識別算法開源:詞錯率5% Facebook出品

夏乙 發自 麥蒿寺

量子位 出品 | 公眾號 QbitAI

第一個全卷積語音識別工具包wav2letter++開源了。

出品方Facebook稱之為現有“最快的、頂尖水準的”語音識別系統。

拋開廣告法不談,我們來全面了解一下wav2letter++,看看Facebook哪來的勇氣口出狂言。

wav2letter++由Facebook AI研究院(FAIR)的語音團隊推出,以C++寫成,使用了ArrayFire張量庫和flashlight機器學習庫。

Facebook還說,它是第一個完全由C++寫成的語音識別系統,也是第一個全卷積語音識別系統。

所謂“全卷積”,指的是wav2letter++在從聲波到文本的處理過程中,所有可學習的部件都是由卷積層構成的,聲音建模、語言建模任務全部由CNN完成。

一般來說,在聲音和語言建模任務上,循環網絡架構才是更常用的。不過,CNN構成的wav2letter++在性能上也不輸那些RNN模型。

Facebook團隊在論文中,將他們的wav2letter++和其他主流開源語音識別系統做了比較。

他們說,某些情況下,wav2letter++訓練語音識別端到端神經網絡速度是其他框架2倍還多,而且用1億個參數的模型測試,使用從1到64個GPU,訓練時間是線性變化的。

其實,wav2letter++還有個不帶加號的前身,叫做wav2letter,用Lua語言寫成。現在,新版佔用了原版的GitHub倉庫地址,而原來的wav2letter被放到了wav2letter-lua分支下。

想要複現wav2letter++也不難。因為它使用的機器學習庫flashlight也同時開源了。這個機器學習庫用現代的C++即時編譯,CPU、GPU都可用,以求效率和規模的最大化。

最後,附上傳送門~

GitHub地址:

https://github.com/facebookresearch/wav2letter

論文:

wav2letter++: The Fastest Open-source Speech Recognition System

Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve, Vitaliy Liptchinsky, Ronan Collobert

https://arxiv.org/pdf/1812.07625.pdf

作者系網易新聞·網易號“各有態度”簽約作者

獲得更多的PTT最新消息
按讚加入粉絲團