地圖軟體是怎麽做到讓林志玲、郭德綱為你指路的？

公開日: 2018-10-26

提問：@Megan

今日錦囊答主：科大訊飛研究院合成組

語音合成也叫文語轉換（Text-To-Speech），簡稱TTS，簡單理解就是“讓機器說人話”。合成技術的效果有四個考量維度：表現力、音質、複雜度和自然度。目前的技術演進，自然度和音質都有了明顯提升，各大技術提供商更多的是在研究如何提高合成音的表現力，特別是語氣和情感方面，很典型的案例產品的就是高德用林志玲和郭德綱的聲音播報路況。

那麽一條音頻是如何合成出來的？這個過程包括了兩個步驟：首先是製作語音庫，然後是使用語音庫將文本變成音頻的過程。

製作語料庫需要錄製用戶數小時的乾聲，對錄音開展數據標注，再進行特徵訓練和技術優化，才能使韻律、音色、音質及自然度更加貼近，讓合成的聲音更加自然、流暢。以高德地圖中林志玲的導航聲音為例，在開始合成之前，首先是請志玲姐姐錄了一些音頻。這些音頻不是隨意說說就可以的，科大訊飛研究團隊為林志玲做了特別設計——除了設計均衡的發音組合、長短語句外，還專門為體現她的“娃娃音”增添了語氣詞，並結合導航應用做了偏向設計。所以能用最短的語料做出最好的效果。

之後就是把文本合成成語音。輸入文本後，首先需要按照詞典規則對文本進行語言處理，比如模擬人對自然語言的理解過程，包括文本規整、詞的切分、語法語義分析，使電腦對輸入的文本能完全理解，並給出後續步驟所需要的各種發音提示。然後是韻律處理，就是為合成語音規劃出音段特徵，如音高、音長和音強等，使合成語音能正確表達語意，聽起來更加自然。最後根據前兩部分處理結果的要求輸出語音，即合成語音。

未來不僅僅是明星，身邊的一切聲音理論上皆可合成。

而語音合成技術的應用範圍也很廣。汽車導航內嵌的語音系統、智能手機語音助手、讀書軟體等等，這些應用的實現都離不開語音合成，時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。