每日最新頭條.有趣資訊

從實驗室到熒屏,“搜狗AI合成主播”是如何接近真人的?

“真人播報效果已經夠好了,為什麽我們還要合成一個AI主播?”

2018年底,新華社聯合搜狗在第五屆世界互聯網大會上發布全球首個AI合成男主播。該AI合成主播“克隆”於真人主播邱浩。今年2月19日,該男主播升級成為站立式AI合成主播“新小浩”,並推出全球首個AI合成女主播“新小萌”。站立式“新小浩”不僅能坐著播報新聞,還能站起來,帶著手勢、姿態等多種肢體動作,更接近於真人。

上述兩位AI主播至今已經播報了幾千余條新聞,並引發世界範圍熱議。

作為新華社AI主播背後的技術負責人,搜狗語音互動技術中心高級總監陳偉對鈦媒體解釋道,使用AI主播最大的意義在於幫助提升效率,將真人主播從大量重複性勞動中釋放出來,從而有更多精力投身到深度訪談或其他工作中。“播報一個新聞一般會有場地、時間、主播本身精力的限制,每天的產出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必擔心有錯誤出現。”

搜狗從12年開始研發智能語音技術,並逐漸從最早的語音識別發展到現在的多模態識別,其智能語音技術已經成功應用到搜狗的全線產品中。

其中,AI“分身”技術致力於如何讓機器更好的去表達信息,是多模態識別一個很好的展示及落地途徑。目前,通過語音、手寫、唇語等多模態識別,僅需幾個小時的視頻資料就可以合成一個比較逼真的真人形象。

而更簡單快捷的是,在建模完成後,編輯人員僅需要輸入文字資料,即可讓AI形象按照文字播報。無需進行二次視頻編輯,AI主播將自動識別語義並配上對應音調及表情。“我們給到新華社的系統,新華社只要每天在想要播報的新聞,過幾秒鐘生成一個完整的視頻,中文、英文不同類型的新聞視頻就可以馬上出來。”

與市面上其他專注語言互動的團隊不同,搜狗分身更關注語音、圖像加NLP完整能力的融合表達。因此,“逼真度”是團隊衡量AI分身技術的一個重要指標。

陳偉介紹到,初期,團隊採用主觀的方式來衡量AI分身的真實度,最近也逐漸考慮採用一些客觀標準。

未來,團隊將會更關注微表情,關注怎麽樣讓AI分身結合更好的姿態,更自然地表達。在圖像上面要考慮2D+3D混合的技術,在語音基礎上面有更多NLP的能力進來,讓AI分身的認知能力加強。

但並不是說,AI分身的真實度已經達到了令人恐慌的階段。

“實際上我們對其實每前進一步都很難,比如讓AI主播動起來,擺頭,這一動作都比單純的正面播報要困難得多。要想做到電影裡展示那樣與真人無異,至少還需要5-10年。”

拿AI主播來說,其功能還停留在播報階段,更多互動功能有待於進一步開發。陳偉也透露,搜狗分身將於今年年內推出互動能力。

就在不久前,一段將朱茵變臉楊冪的視頻在網上走紅,AI換臉技術deepfake開始被大眾讀者熟知。這也引發了公眾對AI虛擬形象的質疑——是否致使肖像權被隨意侵犯?

當然,在技術上,分身也與換臉有著本質的差別,“換臉實際上是把一個人臉映射到另一個人臉上,前期投入成本很大,但‘分身’一旦建模之後,只需要輸入文字就可以生成視頻,不需要任何表演成本在裡面。”

陳偉表示,搜狗當然考慮到了人工智能倫理問題。“我們更多的想法是跟很確定的公司和領域合作,盡量找到剛需的場景。這樣的好處就是不會把技術濫用。”

因此,與做幾個簡單Demo不同,搜狗這一分身技術不僅僅是停留在實驗室階段,而是將深入不同剛需場景,在不斷迭代中快速進入商業化落地階段。

在陳偉的預想中,在“分身”技術的支持下,視頻製作成本將會大大降低,最終惠及用戶。

首要的就是與搜狗現有產品線打通。像在輸入法搜索,包括搜狗AI硬體上面“分身”技術將如何落地,都正在探討中。

而通過與新華社的合作實踐,AI“分身”技術也吸引了不少客戶。比如在AI老師上,已經有項目正在進行中。“像公開課這種老師單向輸出的形態,特別適合做(AI分身)。老師只需要準備教案和文稿,通過這種方式形成各種教學視頻,後期加上一些剪輯也可以帶有一定的互動能力。這種比單純的文字教學效果要好得多。”

在技術上,“分身”支持搜狗公有雲調度,同時也支持私有化部署,可在客戶本地部署“分身”整套裝務。提供出去的服務在資源佔用上、實時性都可以達到要求。可以根據客戶手中IP打造“AI分身”,也不排除塑造全新虛擬形象的可能。

陳偉透露,後續,搜狗AI“分身”會繼續在教育,法律,醫療,娛樂等領域發力。(本文首發鈦媒體,作者/趙宇航)

獲得更多的PTT最新消息
按讚加入粉絲團