“AI變聲”：谷歌起個頭搜狗乾成了

文|鋅刻度記者陳鄧新

編輯|楊靖怡

1.搜狗輸入法首創的AI變聲功能，是基於搜狗近期在語音表征學習、遷移學習技術取得的重大突破，首次將該變聲能力落實到消費級產品中。

2.谷歌科學家曾研究過語音變聲，但隻停留在論文這個層面。現在搜狗語音將前沿技術實用化，運用到日活躍達4.43億人次的搜狗手機輸入法中，其應用前景相當廣闊。

不用再追憶、不用再幻想，只需要在手機輸入法中輕輕一點，AI就能將我們秒變星爺，與心中的那個她演繹浪漫。

近日，搜狗輸入法上線了一個AI新功能“變聲”，用戶只要在語音輸入中選擇變聲功能，輸入想說的話，再選擇一個喜愛的角色，就能把個人聲音瞬間“變成”該角色的聲音，模擬聲音的逼真度相當高，幾乎可以做到“以假亂真”。

這看似簡單的過程，技術實現卻一點不簡單，為語音變聲（Voice conversion）領域最高等級難度，昔日谷歌純研究的領域，這次讓搜狗落地乾成了！

1/語音表征學習、風格遷移技術雙突破

變聲技術早已有之，相關軟體網上比比皆是，譬如豆豆變聲器、搞怪變聲大師、小博士語音機器人、魔法變聲器、百變語音等。

那搜狗輸入法的AI變聲與普通變色軟體有何區別呢？AI變聲集語音表征學習技術、風格遷移技術之大成，不再是冰冷的、千篇一律的角色聲音。

用戶通過語音輸入聊天內容，搜狗語音的編碼器自動將內容分為兩部分：一部分為聊天內容資料，AI對聊天內容資料進行聲紋特徵編碼，以提取用戶的音色；另外一部分為韻律資料，也就是用戶說話的節奏、流露的情感、包含的語氣，AI通過對音頻特徵的壓縮編碼及特徵抽取，學習用戶的說話風格。

與此同時，用戶選擇一個角色，AI自動激活說話人編碼器，調出目標說話人的音色並進行替換，之後AI通過Attention和Decoder模塊進行加權特徵編碼，並利用WaveRNN神經網絡聲碼器恢復成波形，最終得到帶有角色音色的音頻。

簡而言之，搜狗語音使用表征學習獲得說話人語音的音色特徵和內容細節，通過風格遷移技術獲得說話人語音的風格特徵，再將說話人的音色特徵替換為角色的音色特徵，最後基於搜狗語音技術，使用內容(源端)、韻律(源端)、音色(目標端)三類特徵結合為最終變聲音頻。

使用普通變色軟體得到的是不穩定音色和效果的機器聲音，而使用搜狗手機輸入法的AI變聲得到的是充滿情感、且高度還原的音色，因此充盈著真實感。

2/AI變聲難在哪兒

目前，市場常見的是語音合成技術，該技術可實現機器播報用戶輸入的文本，是一種文本到語音的技術。

而與語音合成相比，語音變聲（Voice conversion）是一種創新，為語音到語音的新技術，可實現將用戶輸入語音轉變為新音色語音。

德國哲學家萊布尼茨說過:“世上沒有兩片完全相同的樹葉。”

物種具有多樣性，人也不例外，這世上就沒有完全一模一樣的人，哪怕是雙胞胎說話的節奏、情感、語氣都不會完全一致。

將千人千聲處理為同一種聲音不難，想保留說話人的節奏、情感、語氣就難了，可變因素太多、不確定因素太多。

譬如同一個人，走路時說話和在跑步機上說話，說話節奏有區別；正常說話和失戀時說話，情感不一樣；跟朋友說話和跟老闆說話，語氣大不同。難上加難的是，變聲後的聲音與原始音色高度相似，仿佛一個活生生的真人。

目前，搜狗做到的是語音變聲領域最難的技術，通過在語音表征學習、遷移學習技術取得的重大突破，可以把任意人音色變聲成特定人音色(Any-to-One)，從實用程度到技術難度都是最高等級。同時，搜狗語音也將該變聲能力，落實到日活躍達4.43億人次的的搜狗手機輸入法中。

谷歌《從聲紋識別到多重聲線語音合成的遷移學習》這篇論文闡述了語音變聲的解決方案，不過隻停留在論文研究階段，並未進行產品應用落地。

再一次，踏著“巨人的肩膀”搜狗為語音領域的發展，又開創了新的高度。

這需要相當多的積累才能創新與領先，為此搜狗申請了一種“語音轉化方法及裝置”專利（申請號：CN201711206137.2）。

該方法包括確定文本特徵數據、目標音頻的風格特徵以及源音頻數據的音色特徵；風格特徵包括時長韻律特徵、基頻特徵、能量特徵中的至少一種；根據文本特徵數據、目標音頻的風格特徵以及源音頻數據的音色特徵進行語音轉化，得到轉化語音數據；轉化語音數據具有源音頻數據的音色以及目標音頻的風格特徵。

該技術可以使得語音變聲具有源音頻數據的音色以及目標音頻的風格特徵，提高了情感表現力，更加自然，有效提高語音變聲的質量。

事實上，搜狗在AI領域一直走在行業的前列。

搜狗CEO王小川曾公開表示：“搜狗對語言為核心的人工智能領域持續投入，不斷將技術成果落地到搜索、輸入法和智能硬體產品中，在為用戶創造更好體驗的同時也增強了產品的競爭力，相信未來這將助力公司取得更大的突破。”

搜狗手機輸入法每天峰值達6億次語音識別請求，位列行業第一，為公司改進、完善、蛻變AI技術提供了堅實的基礎，這個得天獨厚的優勢令其在語音領域處於領跑地位。

3/應用前景廣闊

現在的表情包都是圖片，是不是都玩膩了，不妨通過搜狗輸入法制作一批“表情語音包”，玩出新花樣。

與男友聊天時，發送用志玲姐姐撒嬌聲音製作的“請問誰掉了一隻小可愛”，熱血沸騰的男友回復用星爺戲謔的聲音製作的“小姐姐，我來也”，是不是別有一番情趣。

科學研究表明，人類對圖片的感官更為直接，但對聲音的記憶要更強，鬥圖與撩語音的組合玩法，樂趣更大、回味更久。

而在行業領域，AI變聲也可大展拳腳。

譬如少兒在線教育，行業普遍存在小朋友注意力無法長期集中的問題，倘若借助小朋友喜歡的小豬佩奇、海綿寶寶、蠟筆小新等角色聲音，對激發學習欲望、聚焦注意力都大有裨益。

再譬如電商產品廣告，一堆乾巴巴的視頻介紹產品如何好、產品如何妙，何不添加志玲姐姐的酥語音頻，無形中加大誘導成分，增加用戶對產品的好感。

舉一反三，你能聯想到哪些AI變聲應用場景呢？

“AI變聲”：谷歌起個頭 搜狗乾成了