從實驗室到熒屏，“搜狗AI合成主播”是如何接近真人的？

“真人播報效果已經夠好了，為什麽我們還要合成一個AI主播？”

2018年底，新華社聯合搜狗在第五屆世界互聯網大會上發布全球首個AI合成男主播。該AI合成主播“克隆”於真人主播邱浩。今年2月19日，該男主播升級成為站立式AI合成主播“新小浩”，並推出全球首個AI合成女主播“新小萌”。站立式“新小浩”不僅能坐著播報新聞，還能站起來，帶著手勢、姿態等多種肢體動作，更接近於真人。

上述兩位AI主播至今已經播報了幾千余條新聞，並引發世界範圍熱議。

作為新華社AI主播背後的技術負責人，搜狗語音互動技術中心高級總監陳偉對鈦媒體解釋道，使用AI主播最大的意義在於幫助提升效率，將真人主播從大量重複性勞動中釋放出來，從而有更多精力投身到深度訪談或其他工作中。“播報一個新聞一般會有場地、時間、主播本身精力的限制，每天的產出很有限，資源本身又是受限。但AI主播不同，可以工作24h，也不必擔心有錯誤出現。”

搜狗從12年開始研發智能語音技術，並逐漸從最早的語音識別發展到現在的多模態識別，其智能語音技術已經成功應用到搜狗的全線產品中。

其中，AI“分身”技術致力於如何讓機器更好的去表達信息，是多模態識別一個很好的展示及落地途徑。目前，通過語音、手寫、唇語等多模態識別，僅需幾個小時的視頻資料就可以合成一個比較逼真的真人形象。

而更簡單快捷的是，在建模完成後，編輯人員僅需要輸入文字資料，即可讓AI形象按照文字播報。無需進行二次視頻編輯，AI主播將自動識別語義並配上對應音調及表情。“我們給到新華社的系統，新華社只要每天在想要播報的新聞，過幾秒鐘生成一個完整的視頻，中文、英文不同類型的新聞視頻就可以馬上出來。”

與市面上其他專注語言互動的團隊不同，搜狗分身更關注語音、圖像加NLP完整能力的融合表達。因此，“逼真度”是團隊衡量AI分身技術的一個重要指標。

陳偉介紹到，初期，團隊採用主觀的方式來衡量AI分身的真實度，最近也逐漸考慮採用一些客觀標準。

未來，團隊將會更關注微表情，關注怎麽樣讓AI分身結合更好的姿態，更自然地表達。在圖像上面要考慮2D+3D混合的技術，在語音基礎上面有更多NLP的能力進來，讓AI分身的認知能力加強。

但並不是說，AI分身的真實度已經達到了令人恐慌的階段。

“實際上我們對其實每前進一步都很難，比如讓AI主播動起來，擺頭，這一動作都比單純的正面播報要困難得多。要想做到電影裡展示那樣與真人無異，至少還需要5-10年。”

拿AI主播來說，其功能還停留在播報階段，更多互動功能有待於進一步開發。陳偉也透露，搜狗分身將於今年年內推出互動能力。

就在不久前，一段將朱茵變臉楊冪的視頻在網上走紅，AI換臉技術deepfake開始被大眾讀者熟知。這也引發了公眾對AI虛擬形象的質疑——是否致使肖像權被隨意侵犯？

當然，在技術上，分身也與換臉有著本質的差別，“換臉實際上是把一個人臉映射到另一個人臉上，前期投入成本很大，但‘分身’一旦建模之後，只需要輸入文字就可以生成視頻，不需要任何表演成本在裡面。”

陳偉表示，搜狗當然考慮到了人工智能倫理問題。“我們更多的想法是跟很確定的公司和領域合作，盡量找到剛需的場景。這樣的好處就是不會把技術濫用。”

因此，與做幾個簡單Demo不同，搜狗這一分身技術不僅僅是停留在實驗室階段，而是將深入不同剛需場景，在不斷迭代中快速進入商業化落地階段。

在陳偉的預想中，在“分身”技術的支持下，視頻製作成本將會大大降低，最終惠及用戶。

首要的就是與搜狗現有產品線打通。像在輸入法搜索，包括搜狗AI硬體上面“分身”技術將如何落地，都正在探討中。

而通過與新華社的合作實踐，AI“分身”技術也吸引了不少客戶。比如在AI老師上，已經有項目正在進行中。“像公開課這種老師單向輸出的形態，特別適合做（AI分身）。老師只需要準備教案和文稿，通過這種方式形成各種教學視頻，後期加上一些剪輯也可以帶有一定的互動能力。這種比單純的文字教學效果要好得多。”

在技術上，“分身”支持搜狗公有雲調度，同時也支持私有化部署，可在客戶本地部署“分身”整套裝務。提供出去的服務在資源佔用上、實時性都可以達到要求。可以根據客戶手中IP打造“AI分身”，也不排除塑造全新虛擬形象的可能。

陳偉透露，後續，搜狗AI“分身”會繼續在教育，法律，醫療，娛樂等領域發力。（本文首發鈦媒體，作者/趙宇航）