亞馬遜Alexa：訓練TTS系統合成語音多揚聲器更自然

公開日: 2019-04-27

智東西（公眾號：zhidxcom）編 | 王小溪

導語：亞馬遜Alexa部門的科學家在一項新研究發現，用多個揚聲器數據訓練的AI語音合成系統TTS合成的語音會更自然。

智東西4月26日消息，據外媒報導，亞馬遜Alexa部門的科學家在一項新研究發現，用多個揚聲器數據訓練的AI TTS（Text To Speech，文本轉語音）系統要比在單個揚聲器模型上訓練更多樣本產生更自然的語音。而且，前者模型整體上更“穩定”：它減少了系統少詞、發出“嘟”聲的頻率，也避免了系統連續重複單音時出現卡頓的情況。

該研究將於下月在布萊頓舉行的聲學、語音和信號處理國際會議上展示。

隨著複雜的自然語言處理的出現，TTS系統變得越來越高效。以Google的Tacotron 2為例，它可以僅基於頻譜圖構建語音模型。不過，這些“神經TTS”（NTTS）方法的一個缺點是它們需要比傳統方法更多的數據。

Alexa Speech應用科學家Jakub Lachowicz在部落格文章中寫道：“最近研究表明，用不同揚聲器數據訓練NTTS系統時，所需要的數據更少，而產生的結果會更好。”

正如Lachowicz所解釋的那樣，NTTS系統通常由兩個神經網絡組成。第一個將文本的語音轉換為梅爾頻譜圖；第二個網絡是聲碼器，將梅爾頻譜圖轉換為更細粒度的音頻信號。

在對70名聽眾的測試中，研究人員發現，用來自七個不同揚聲器的5000個語音數據訓練出的模型比用來自單個揚聲器的15,000個語音數據訓練出的模型合成了更自然的語音。

在一個測試中，研究者向聽眾展示了人類講話的現場錄音，和用2種TTS模型合成的語音，並詢問他們兩段語音是否相同。結果，NTTS系統在多個揚聲器上訓練效果與在單個揚聲器上訓練效果表現一樣。更不可思議的是，研究者們也沒有觀察到用不同性別的人類語音和同一性別人類語音訓練出的模型在自然性方面存在任何統計學差異。

最後，研究者還發現在多個揚聲器上訓練的模型比在單個揚聲器上訓練的模型更穩定。NTTS系統有時會丟失單詞，發出嘟聲，它們會在重複單個聲音時卡住。而多揚聲器模型比單揚聲器模型更少地表現出這些誤差。

Lachowicz指出，用超過15,000個訓練樣本訓練的時候，單揚聲器NTTS模型將開始優於多揚聲器模型。可以肯定的是，Alexa當前語音的NTTS版本訓練所用的樣本已經過超過15,000個。但混合模型可以使開發人員更容易獲得合成聲音。

他認為，在多個揚聲器中訓練NTTS系統可以用更少的數據產生更好的結果。這表明以後不需要錄音者花好幾天在錄音棚中錄音，便能使揚聲器提供各種可定製的語音風格。

Lachowicz博文地址：https://developer.amazon.com/zh/blogs/alexa/post/83dd06f2-d7d6-4a55-8b4f-1c443c1e483c/training-speech-synthesizers-on-data-from-multiple-speakers-improves-performance-stability

文章來自：Venturebea

亞馬遜Alexa：訓練TTS系統合成語音 多揚聲器更自然

亞馬遜Alexa：訓練TTS系統合成語音多揚聲器更自然