每日最新頭條.有趣資訊

科技巨頭的語音生意經

語音識別正在成為人類與互聯網溝通的新主流方式。

出品/新摘商業評論

撰文/令諸侯

近日,一份來自大西洋彼岸的報告成為很多人關注的焦點。

這份由美國知名投資機構Mangrove Capital Partners發布的《2019年語音技術報告》(以下簡稱報告)指出:2025年語音經濟規模或將達1兆美元,正式超過移動應用經濟。

人們早已經捕捉到了某種信號。

過去幾年,谷歌、微軟、亞馬遜、百度等全球科技巨頭紛紛押注語音賽道,投影在人們面前的是接踵而至的明星語音產品——Echo智能音箱、Siri智能語音助手、GoogleAssistant谷歌語音助手、Cortana(微軟小娜)人工智能助理、Alexa語音識別引擎、百度小度助手(DuerOS)。

一個明顯的感覺是,語音識別正在成為人類與互聯網溝通的新主流方式。

但熱火朝天、寸土必爭的搶跑下注背後,人們不禁會想到那個柏拉圖式的問題:智能語音到底是什麽?它從哪來?又要到哪去?

科技巨頭搶灘智能語音

從歷史中不難找到關於語音技術的“蛛絲馬跡”。

早在80年前,首個能夠合成語音的機器誕生於美國新澤西州茉莉山上的貝爾實驗室,如果把語音技術的發展看成一條射線,那麽這個被譽為世界上最偉大的實驗室可以看作是它的起點。

1954年,藍色“巨人” IBM與喬治城語言學家合作成功研製出一台能夠把60句俄語話翻譯成英語的機器。而在不久後,第一個基於計算機的語音合成系統面世,語音技術就此開始被疊加著與日俱增的想象。

人類最不缺乏兩種能力,一種是想象力,另一種是創造力。但即使用幾十年後的今天來看當時,也很難預測出語音技術的發展軌跡。

當然,更難想到的是,這將成了一個全球的角鬥場。

對於智能語音技術,坊間有一個頗為形象的比喻——遙控中樞。在一切都趨向具象化的如今,語音自然成了下一個產品形態的“摩斯密碼”。誰能制定密碼規則,誰就能掌控全局。

這是一場持久戰。

縱觀當下世界智能語音互動市場的幾大主要玩家,百度從2010年開始做語音技術,如今已近十年;美國的亞馬遜Alexa花了二十二年;即便是誕生最晚的谷歌Google Assistant也有著近十餘年的數據沉澱。

騏驥千里非一日之功。掩藏在如今頗具智能化的Siri、谷歌助理、微軟小娜以及百度小度背後的是這個行業高築的技術護城河。

今年年初,百度公布了語音領域的四項重大技術突破,其中,在線語音領域全球首創的流式多級的截斷注意力模型(SMLTA,全稱為「Streaming trancated multi-layerattention」),被業界人士將該項技術突破評價為技術領域的“登月計劃”。

在剛過去不久的AI開發者大會上,百度展示的一項“全雙工免喚醒”能力,又一次刷新了目前人機語音互動智能程度的上限。全雙工免喚醒能力是小度助手5.0的重要技術革新。

在全雙工狀態下的小度,除了能實現免喚醒詞連續對話之外,還有一個非常關鍵的技術突破,稱之為“拒絕反應”,即小度知道什麽時候該應答和執行任務,什麽時候只需要聽著,不搭話、不反應——簡單說,語音技術的突破,讓機器的表現更逼近“真人”了。

在現場,觀眾們感受到的只是更順滑的對話、更懂事兒的智能印象,但背後卻是諸多學術難題的一一攻克。

去年公布的第二十屆中國專利評審結果中,百度的語音、機器翻譯、無人車相關三項專利獲獎,成為人工智能領域至今為止在國內專利界獲得的最高級別政府獎項。

在此之中,“語音專利”涉及的新語音識別模型——採用深度學習算法在24時內對數以百億級的大規模數據進行實時分析,高性能計算,令語音識別技術的準確率達97%,解決了語音識別領域關鍵性、共性的技術難題,被MIT 評為“2016年全球十大突破技術”。

在AI開發者大會上,百度還推出了針對遠場語音互動的鴻鵠芯片,可以實現遠場陣列信號實時處理,高精度超低誤報語音喚醒以及離線語音識別。

另一邊,百度旗下的明星產品小度智能音箱在今年第一季度更是達到了330萬台的超高出貨量,位居中國市場榜首。

顯然,百度正在建立從硬體底層芯片、到上層的智能硬體系統,再到系統軟體,語音客戶端,語音伺服器及後端互動一體化的全鏈路語音互動技術。

可以肯定的是,下一個十年,語音技術將成為新的決定性主題。

“技術+場景”才是王道

人工智能發展至今共歷經了三次浪潮。

第一次浪潮使用算法建立了推薦引擎,提供訪問互聯網服務,推動了谷歌、亞馬遜和Facebook的崛起。

第二次浪潮幫助企業利用結構化數據去優化決策流程,帶動了類似Palantir這樣的大數據公司的出現,它們挖掘大量結構化數據,找出人眼和人腦難以發現的信息關聯性。

現在人工智能第三次浪潮襲來,人工智能獲得了眼睛、耳朵和無數其他感官,可以收集從來沒有過的新數據,隨後使用這些數據推動更複雜的流程自動化。

這次變革顯然不同以往。恰如最近李彥宏在《人民日報》發表的文章中所說,“作為引領此次變革的戰略性技術,人工智能對世界的影響將遠超以往歷次工業革命。”

事實確實如此。在人工智能的大潮下,眾多領域的既有模式被重塑,應用場景不斷顛覆,生產關係開始被重新制定。

而其中,語音則是極其重要的一環。

擺脫了文字和螢幕的束縛,語音技術從根本意義上改變了人們與軟體互動的方式,可以完全替代移動應用成為未來通訊的主要方式。

如果說現在人們與移動應用的互動是二維的,那麽語音互動就是三維立體的。而這種升維競爭同樣也裹挾著互聯網的商機。

語音技術領域不斷攀升的融資金額是最為明顯的一個例證。報告數據顯示,今年語音技術創業公司融資額高達7.86億美元,遠遠超過2018年的5.81億美元以及2017年的2.98億美元,同時每筆融資的規模也在大幅上升。

百度是當之無愧的領頭羊。

作為最早布局人工智能的技術公司之一,百度擁有建立在超大規模神經網絡、兆級參數、千億級樣本上的人工智能算法,依托數十萬伺服器和中國最大的GPU集群的計算能力。

作為中國最大的搜索引擎公司,百度還收集了大量漢語(尤其是國語)的音頻數據,這些都為百度語音識別系統Deep Speech 2技術成果提供了基本的數據優勢與支持。

百度美國的人工智能實驗室負責人Adam Coates 曾表示,至2017年2月份,Deep Speech 2的短語識別詞錯率已經降到了3.7%,在轉錄某些語音的能力也基本上是“超人級的”,能夠比國語母語者更精確地轉錄較短的查詢。

更引起外界關注的,是建立在語音識別、圖像識別、自然語言處理、用戶畫像等技術能力之上的小度人工智能語音助手(DuerOS對話式人工智能系統)——百度技術的集大成者。

從2015年的“度秘”到2017年發布的DuerOS,再到2018年發布的一系列小度智能硬體產品,小度人工智能語音助手保持著穩定的迭代速率,不斷融入新能力,以開放的姿態構建軟硬結合的AI生態系統,更好地服務合作夥伴,成為名副其實的“智慧中樞”。

從技術到產品,從產品到下遊合作商,可以看出百度的智能語音系統已然初步成型。技術與具體場景相結合,在智能語音互動技術領域,百度正發揮著“標杆”的作用。

語音,撬動未來商業的關鍵

通用電氣前CEO,被認為二十世紀最傑出CEO的傑克·韋爾奇曾在他的自傳中寫道,「如果你想讓車再快十公里,只需加一加油門,如果讓車速提高一倍,就要換軌道了。」

事實是,商業的軌道正在發生偏移。

《2019語音技術報告》中有這樣一種觀點:“語音互動扭轉了以往人機互動的存在形態,用戶與設備間基於語音互動的全新關係開始搭建,與之前互聯網向移動互聯網過渡一樣,其對底層平台的全新需求也在醞釀當中。”

從商業的發展模式來看,變革分兩種,一種是自上而下,另一種是自下而上。前者要求市場迅速調整身位,迅速利用新的排列組合應對新變化;後者重體驗,形態更迭更加悄然無聲,但更堅韌,也更持久。

語音技術對於商業形態的影響正如後者。

不妨對未來的商業雛形做個預測:在未來某個時間節點,我們不再需要打字,而是可以使用語音盒手勢,鍵盤基本消亡,在語音技術的加持下,產品形態將會被徹底改變,無螢幕的智能手機、語音電商、語音廣告、個性化的品牌語音……

這個預測正在發展成現實。

有數據為證,根據Juniper的數據顯示,在美國和英國,未來幾年語音電商將迎來集中爆發,規模將從2018年的20億美元增長至2022年的400億美元。

同步落地的還有亞馬遜的語音廣告業務。消息稱亞馬遜正計劃開發Alexa語音助手的商業價值,進而建立一個大型的數字廣告業務,測試包括視頻在內的多種廣告產品,為2018年廣告營收增長做準備。

頻頻布局的背後是各家對語音技術商業價值的篤定。

儘管如今留給智能語音技術的難題還有很多,但在此刻提前布局,構築好技術底座,待浪潮再次湧來之時,便能乘勢而上。

可以預見,中國智能語音市場也將成為推動這股浪潮不可或缺的力量和重要參與者。正如在中國徒步旅行三個月的英國大臣麥克·貝茨所記錄的那樣:“這片土地從來不缺乏奇跡。”

獲得更多的PTT最新消息
按讚加入粉絲團