每日最新頭條.有趣資訊

地圖軟體是怎麽做到讓林志玲、郭德綱為你指路的?

提問:@Megan

今日錦囊答主:科大訊飛研究院合成組

語音合成也叫文語轉換(Text-To-Speech),簡稱TTS,簡單理解就是“讓機器說人話”。合成技術的效果有四個考量維度:表現力、音質、複雜度和自然度。目前的技術演進,自然度和音質都有了明顯提升,各大技術提供商更多的是在研究如何提高合成音的表現力,特別是語氣和情感方面,很典型的案例產品的就是高德用林志玲和郭德綱的聲音播報路況。

那麽一條音頻是如何合成出來的?這個過程包括了兩個步驟:首先是製作語音庫,然後是使用語音庫將文本變成音頻的過程。

製作語料庫需要錄製用戶數小時的乾聲,對錄音開展數據標注,再進行特徵訓練和技術優化,才能使韻律、音色、音質及自然度更加貼近,讓合成的聲音更加自然、流暢。以高德地圖中林志玲的導航聲音為例,在開始合成之前,首先是請志玲姐姐錄了一些音頻。這些音頻不是隨意說說就可以的,科大訊飛研究團隊為林志玲做了特別設計——除了設計均衡的發音組合、長短語句外,還專門為體現她的“娃娃音”增添了語氣詞,並結合導航應用做了偏向設計。所以能用最短的語料做出最好的效果。

之後就是把文本合成成語音。輸入文本後,首先需要按照詞典規則對文本進行語言處理,比如模擬人對自然語言的理解過程,包括文本規整、詞的切分、語法語義分析,使電腦對輸入的文本能完全理解,並給出後續步驟所需要的各種發音提示。然後是韻律處理,就是為合成語音規劃出音段特徵,如音高、音長和音強等,使合成語音能正確表達語意,聽起來更加自然。最後根據前兩部分處理結果的要求輸出語音,即合成語音。

未來不僅僅是明星,身邊的一切聲音理論上皆可合成。

而語音合成技術的應用範圍也很廣。汽車導航內嵌的語音系統、智能手機語音助手、讀書軟體等等,這些應用的實現都離不開語音合成,時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。

1分鐘知識錦囊是36氪的日更問答新欄目,旨在每天以一分鐘為限,快問快答一個重要的商業問題。今天我們解答的是人工智能相關的問題。如果你對近期的商業世界還有什麽疑問,歡迎在評論區給我們留言,錦囊負責找高手為你解答

獲得更多的PTT最新消息
按讚加入粉絲團