每日最新頭條.有趣資訊

搜狗創新發布微信首款個性化TTS小程序——“故事大王”

【獵雲網(微信:ilieyun)北京】6月19日報導

近日,搜狗上線了一款名為“故事大王”的小程序,它基於搜狗知音引擎的語音合成能力,首次將個性化TTS技術落地到微信當中。用戶根據提示,錄製5分鐘左右的簡短音頻後,“搜狗故事大王”小程序就會自動生成用戶的個性化合成音色,小朋友就可以聽到用父母聲音講述的童話故事。

這樣一款實用的帶娃利器是不是很神奇?那它到底是如何快速準確地定製用戶個性化音色的?又是怎麽用合成音色聲情並茂地為小朋友講故事的呢?

顛覆傳統“機器音”,搜狗獨家提供個性化TTS技術

在專業領域,技術員們把“文本文件向語音的實時轉換”稱為TTS功能。還記得“哪裡不會點哪裡”的點讀機麽?這個曾經風靡一時的兒童英語學習神器就應用了這款功能,點讀筆掃描文本內容,再通過點讀機轉換成人聲朗讀出來。在其他諸如電子書閱讀、語音導航、語音提示等領域,TTS功能的應用也十分廣泛,但他們擁有一個共同的缺點,即只能實現文本向特定聲音模板的轉變,且聲音質量較為呆板,機器感十足。

使用過“搜狗故事大王”的用戶都知道,在該小程序上用戶可以定製自己專屬的個性化合成音色。然後就能隨時隨地的通過手機為小朋友講故事了,聽起來聲情並茂、自然流暢,明顯區別於以往的機器音。

這都得益於搜狗知音引擎獨創的個性化TTS合成技術,與傳統技術相比,“搜狗故事大王”具有高表現力,更趨於真人口音。此外,除了可以定製個性化聲音,還能使用該聲音實現任意文本的合成,搜狗是目前成功將兩項技術進行完美結合並成功落地的公司。

依托個性化TTS技術,“搜狗故事大王”對用戶錄製聲音的要求很低,不需要去專業錄音室、不需要長時間錄製。用戶只需5分鐘左右的操作,搜狗的後台技術模型就能自動精準排除噪點,完美複製原始聲音的各項數據,合成專屬定製的個性化音色。該合成音色的朗讀效果與真人相似度極高,可以做到“以假亂真”的地步。

堅持創新,克服難關,個性化定製終實現

搜狗獨家推出的個性化TTS技術,在技術研發層面具有很多的挑戰。

首先,聲音來源的清晰度直接影響後續音色的定製。但不可避免的是,日常生活中通過普通錄音設備,很難收集到噪音小、音質清的聲源。個性化TTS技術集成了搜狗知音引擎已有的信噪比檢測、口語評測、識別、降噪、去混響、高穩定性聲學參數提取與模型自適應、深度學習平台等多項前沿技術,並在此基礎上進行了突破。最終,“搜狗故事大王”終於交出一份滿意的答卷,讓用戶無需去專業錄音室錄音,在臥室、會議室和甚至車內等常見的環境下就可以進行聲音采集。

其次,如何為機器聲音賦有情感神經也是一大技術難點。人類擁有豐富的語言情感表達能力,是因為人的大腦皮層中有140億個神經元,模擬這樣一個人工智能大腦是不可能的。但是搜狗研發團隊找到了另一個開發途徑,一款基於人工智能的新技術——多目標學習技術。該技術可以同時學習三個目標對象,分別是表征音色的“說話人編碼器”、表征內容的“文本編碼器”和表征表現力的“風格編碼器”,再經過模擬融合進行表現力遷移,為呆板的合成聲音注入情感,使其聽起來更真實。

最後,搜狗還採用了國際領先的波形合成模型WaveRNN,讓最終輸出的音質擁有更好效果。

至此,“搜狗故事大王”這款小程序可以完美實現用戶聲音的個性定製,並通過這個AI合成聲音聲情並茂地為小朋友講故事了。“故事大王”作為搜狗知音引擎在人工智能領域開發出的又一創新應用,除了為當代人的日常生活提供了更大便捷性,也為智能科技研究領域提供了新選題,比如為未來人工智能機器人的開發提供語言系統搭建的參考,讓機器人言談更富情感,影視劇中的人機共享智能未來將成為現實。

獲得更多的PTT最新消息
按讚加入粉絲團