每日最新頭條.有趣資訊

AI錄音筆一戰成名!搜狗以語言AI為核心重點突破多點開花

新智元原創

編輯:白峰、鵬飛

老羅4月1號的直播首秀,種草了一款非常火爆的AI產品,搜狗的AI錄音筆S1。

老羅和助手邊開吹風機邊錄音,搜狗S1完美降噪並還原出清晰的語音驚豔全場,S1背後隱藏了哪些AI黑科技?從輸入法到搜索,再到今天火遍全國的AI錄音筆,搜狗正悄然推動整個AI行業的技術革新。

老羅種草的搜狗S1錄音筆背後到底隱藏了哪些黑科技,今天我們就來一睹為快。

連蘋果產品都不放在眼裡的老羅,為何被一款錄音筆驚豔到?

老羅對產品的理解以及極致的追求,導致他是一個不會輕易誇讚產品的人,尤其是電子產品。他做錘子的出發點,也是因為市面上的產品沒有達到他的“理想態”。但是在 4 月 1 號的直播首秀,老羅卻被一款錄音筆的 AI 黑科技震撼到,絕口稱讚,這款錄音筆就是搜狗剛剛推出的 S1。

光說不練假把式,在兩百多萬網友的親眼見證下,老羅的助手現場開啟吹風機,同時老羅揉起一張噪音非常大的糖紙對 S1 的錄音過程進行干擾,錄音結束現場回放,S1 的 AI 降噪效果震驚全場,在如此巨大的噪音干擾下,搜狗 S1 經過一個簡單的點按操作完美還原了當事人的清晰語音,讓老羅直呼“了不起”。

眾所周知,老羅的粉絲是對科技、對極致產品、對匠心有追求的一群人,可以說搜狗的 AI 錄音筆滿足和超越了粉絲們的期待,直播僅僅展示了 S1 強大的 AI 降噪功能,實際上 S1 能做的遠遠不止這些,接下來我們就來看看 S1 都集成了哪些黑科技,才能達到如此驚豔的效果。

8麥克風陣列和AI加持,吹風機對著狂吹也不怕

直播進行到一個小時,搜狗CEO王小川出現在直播間,川總開始介紹自家的產品,向大家透露了錄音筆完美降噪的秘密。

原來S1用了“8麥克風陣列”,直觀上來看,麥克風多了自然會收集到更多更廣的聲音,但強大的硬體只是實現了更準的拾音,要想實現降噪,還需要一系列的AI音頻處理技術。

直播結束,小編趕緊去搜了搜,一款被吹爆的錄音筆就這點能耐?一搜不要緊,直播中展示的僅僅是S1眾多黑科技的冰上一角,S1還有一個很重要的功能是支持“語音轉文字”,目前支持中英日韓等10種語言、川粵津陝等10種方言的錄音和轉寫,官方稱實時轉寫準確率達98%。除了實時轉寫,S1還支持整個錄音文件的轉寫,看官方數據1小時的錄音只需要5分鐘即可完成,高效!

如果我錄了很多音頻,怎麽才能找到我需要的文件?帶著這個疑惑我們去查看了S1的搜索功能說明,竟然支持各種標簽組合查找錄音內容,比如按時間、按文件大小或者兩者組合等等。錄音轉好了,我想在 PC 端查看,還要通過 USB 導出到電腦?這樣就out了,搜狗 S1 支持一鍵雲端共享,只需一次存儲,手機APP、網頁端、PC 客戶端都有了!

以語言為核心布局AI,搜狗眾多黑科技相繼落地

沉寂多年的錄音筆市場因S1再次成為熱點,讓搜狗在智能錄音筆行業再下一城,與搜狗“以語音AI為核心”的戰略布局是分不開的。

其實,搜狗早就開始了AI領域的布局,並擁有眾多的AI軟硬體落地產品,軟體技術包括搜狗同傳、AI錄音筆的自由對話翻譯、輸入法變聲、AI合成主播、一站到底汪仔的智能問答技術等。

輸入法+變聲:用馬雲的聲音和好友聊天

AI 變臉變聲早就有了。但是將 AI 變聲功能整合到輸入法中,絕對堪稱是搜狗的一次絕佳創意。

以往的變聲方式非常繁瑣,不僅額外下載 app,兩個 app 之間還得來回切換。搜狗將變聲融入到輸入法中,用戶不需要跳出當前的對話就能夠即時變聲。

普通的變聲軟體只是簡單的更改了音頻,比如將用戶的聲音變細來模仿蘿莉,變粗來模仿大叔。

而搜狗知音的語音技術團隊則是從語音表征學習、語音合成等領域切入。用表征學習來學習源端說話人的音色、內容、韻律這三大特徵,再利用語音合成技術,將源端說話人的特徵和要轉換的角色特徵合成為最終變聲音頻,達到各個方位的相似和自然。

如此一來就打破了音色轉換的局限,用戶可以變聲成特定的角色聲音,比如王者榮耀裡的妲己、海綿寶寶,甚至馬雲,並且還原度極高、自由空間大。

多模態語境同傳:機器同傳首次實現會看、能理解、會推理,正確率提高 40%

同一個詞,放在不同的語境下意思可能截然相反。例如 LOL,在聊天的時候它即可能表示 laugh out loud,也可以表示 Lords of Legends,需要結合當前的語境來判斷。

類似的理解錯位,在同傳的時候非常影響與會者對演講者內容的理解和參會體驗。搜狗推出的首個具備多模態認知能力的同傳系統,首創了“語境引擎”,在搜狗同傳“聽”的基礎上,增加了“看”和“能理解會推理”兩項新技能,PPT 內容翻譯正確率提高 40%!

通過“看”來自主學習演講者的演示內容,再通過“理解”和“思考”講演講者的內容,更加準確的識別並翻譯出來。再一次引領了行業的技術進步!

不光有聲還有影:AI 合成主播,不僅能報新聞還能當法官

2019 年 3 月 3 日,全球首位 AI 合成女主播在央視正式上崗,引發全球熱議。

該主播使用了“搜狗分身”技術,通過模擬人說話時候的聲音、動作、表情、肢體語言等,讓 AI 合成主播看起來更像一個真人,可以來回走動,肢體還會配合說話的內容做出相應的動作。

搜狗甚至還推出了 AI 虛擬法官,通過北京互聯網法院的在線智慧訴訟服務中心為民眾提供更為便捷、高效的線上訴訟服務。

春節前夕,搜狗將分身技術應用到輸入法,用戶可以直接打字過程中,直接讓虛擬天氣主播“雅妮”實時播報氣象。

更重要的是,搜狗分身技術在國內外尚屬首例,終於有一個國人獨有的技術了!

搜狗汪仔:研發 9 個月耗資 4000 多萬,江蘇衛視《一站到底》一戰成名

2 年前,搜狗汪仔就在江蘇衛視的智力挑戰節目《一站到底》大放異彩,以 0:3 開局,最終卻以 8:6 獲勝,讓現場的所有人包括電視機前的觀眾都震撼不已。

早在幾年前,IBM 超級計算機系統“沃森”(Watson)也曾在美國智力遊戲 Jeopardy!(危險邊緣)上,擊敗了當時最強人類選手。不過 Watson 是特殊接口文本輸入,輸入內容準確無誤,且答案限定在特定範圍內。

但汪仔面臨的難度提升了好幾個台階。首先主持人不需要完全念完題目,在念題過程中選手可以隨時搶答。汪仔正是通過語音識別和圖像識別兩種技術的結合,準確識別題目並迅速給出答案。

其次《一站到底》的題目是不給定類別的,需要汪仔通過算法來識別問題的類別。

除了會答題外,這個汪仔聊天的能力也很強,撩起妹來也是一把好手。

別看外表有點萌,其實汪仔背後是語音識別、OCR、自然語言理解、數據挖掘、信息檢索、知識圖譜和文本計算等多項 AI 技術的結合。

AI進化論:技術讓冰冷的工具,變成有溫度的智能助理

技術,最終要服務於人類。

為什麽我們要追求自動駕駛、語音助理、會話機器人等等新技術,目的不是為了取代人類,而是為了能夠讓機器人像人類一樣與我們溝通。讓工具適應我們,而不是我們去遷就工具。

冷冰冰的工具,最終要變成一個有溫度的,會替我們思考、為我們服務的助理。就好像搜狗輸入法讓打字工具變成寫作助理、搜索讓檢索工具變成問答助理、錄音筆讓聲音記錄工具變成信息助理。

搜狗的發展,正在潛移默化地推動整個AI行業的技術革新,為行業和用戶創造更大的價值。

獲得更多的PTT最新消息
按讚加入粉絲團