“人機自然互動技術”的趨勢與挑戰

最近AI寒冬論再起，從圖像到語音再到自動駕駛這三個人工智能賽道輪番被詬病，特別是語音賽道，如今更是備受美元資本市場冷落。為什麽會出現這個情況呢？我想主要還是大家當前的認知和信心問題，因為從實際商業化進程來看，圖像和語音是人工智能領域早就規模商業化的領域，圖像主要是面向安防等行業的專業應用，而語音主要是以智能音箱為代表的面向消費電子的個人應用，其他比如金融、醫療、零售、客服等AI應用相對規模還是小一些，而自動駕駛更是需要時間，短期內商業普及的可能性微乎其微。從最近五年的融資事例來看，人工智能的融資總額還在上升，但是已經越來越集中於A輪以後的企業，也就是說資本更加看較為成熟的AI公司。

事實上，商業化進程更快的技術率先遇到信心低谷也是正常現象，畢竟技術和市場都存在一定的交叉周期，過早落地就意味著暴露出更多實際應用的問題，這就需要資本低谷來消化技術爆發早期的泡沫，這總比一些技術或者產品的“見光死”要好很多。早期互聯網和移動互聯網也都經歷了類似的階段，智能手機的孕育期也超過了十年並且更迭了一波巨頭才實現爆發前夜的積累，似乎有點符合股票市場的艾略特波浪理論。不過語音相對更加淒慘一些，基礎技術的研究差不多有60多年的歷史，直到最近幾年才有像樣一點的產業落地，而且語音相對圖像天生就沒有奪目的本領，語音賽道的低調讓人覺得沒有圖像賽道那樣炫目多彩。這一點其實就很不符合美元基金的審美邏輯，美元基金強調的是故事的性感，而且更加希望公司能夠登陸美股市場。當然，換個角度來看，語音賽道並非一個燒錢的賽道，事實上燒錢的業務本身也有問題，技術的優勢在於先發優勢，只有唯快不破才能立於不敗之地，而資本只是幫助構建壁壘的工具。這個世界有太多事情並不是燒錢就能獲得的，正確往往就是不容易。比如人工智能和區塊鏈，雖然區塊鏈的技術理念很好，但是太過於炒作並且只為牟利不顧道德，所以從全球關注趨勢來看，可以借用一句俗語“We know more than we can tell”來總結。

進一步的說,聲音雖然承載了人類的思想和情感，但是圖像卻承載了人類的表象和直覺，顯然人類的第一印象，內涵豐富遠遠比不上外表豔麗，這是人類基於生殖繁衍的本性追求，也是無可厚非。更讓人惱火的是，聲音天然還不具有群體示範效應，比如在人數眾多的會場，演示圖像總是容易引起觀眾的驚歎，而若是演示語音則一般都會是災難，對觀眾（所以不叫聽眾）來說，“看”總比“聽”更容易High起來。何況我們人類也沒很好解決聚眾場所的“雞尾酒會效應”問題，這種場合下的智能語音體驗絕對是一塌糊塗。即便相對簡單的家居環境，做好遠場技術也是難度極大的挑戰。到現在為止，我們也沒有很好解決遠場通話和遠場識別問題，這點大家可以從全球銷量累積已經過億台的智能音箱產品中得到驗證，可以肯定的是，智能音箱已經應用了最為先進的技術，但是仍然遠遠達不到很多AI廠商所給大家描繪或者演示的體驗預期，事實上，短期內也不可能達到。

上面提到了“遠場”這一概念，這是借鑒的學術名詞，一般我們定義為1尺以上的距離，1尺大概是1KHZ單頻聲波的一個波長，也是一個手臂自由操控的距離，為什麽要定義這一概念？主要是為了讓行業對新技術有一個新的認知，遠場語音互動技術主要是解決真實場景下舒適距離內人機任務對話和服務的問題，舒適距離的意思就是不要太遠也不要太近，太遠就會讓人不自覺提高說話聲音，這增加了能耗容易讓人疲勞，太近了則會觸發人類的安全意識，天天趴在耳朵上說話也受不了。為了更加準確定義場景，我們一般取5米作為標尺，事實上3米之內才是最好的距離。所以，遠場這個概念就是希望加強人們對於語音可以釋放雙手這一最大魅力特性的認知，遠場就是語音新技術最為顯著的標簽，這也是聲智對語音技術做出的主要貢獻之一。

但是，即便以遠場語音互動技術為核心的智能音箱全球爆發，國內更是在推出後一年時間就達到了2200萬台的銷量，仍然還是面臨了很多質疑和批評。這些質疑主要集中在兩點：一是語音賽道的商業趨勢問題，二是應對巨頭競爭的策略問題。實際上這兩個問題有些相悖，第二個問題已經例證了第一個問題的尷尬，就是因為這個賽道太重要了，所以全球巨頭都在其中競爭，包括了這個時代最有錢的所有互聯網巨頭：亞馬遜、谷歌、微軟、蘋果、臉書、三星、百度、阿里、騰訊、華為、小米等等。

即便如此，第一個問題我們還要闡述清晰，因為這不僅有市場趨勢問題，還有商業路徑問題。我們首先看下面一張圖片，我們知道全球最大的圖書館是美國國會圖書館，大概有3000多萬本藏書，若每本書按照100萬字來統計，總共也就30TB左右的數字容量，實際上人類每年產生的文字資料總共也就160TB。相比之下，僅Facebook一家產生的數據就有300 x 365 TB，全球的數據可能超過了2000PB，而且這個總量還在快速增加。那麽面對這些海量的數據，我們人類怎麽才能獲取知識？我們一生也不可能讀完美國國會圖書館的藏書，就更沒有可能遍歷當今的機器數據。當然我們知道這其中很多都是重複數據，但是篩選重覆信息本身也是人類學習的過程。顯然，我們人類無法記住1億人的面孔，也無法辨識1億人的聲音。人類知識和機器知識實際上已經開始各成體系，機器顯然具有比人類更強的知識去重、篩選、複製和迭代的能力，而我們人類知識想要獲得更快的發展，也必須依賴機器知識的支撐，這就必須要解決人類知識和機器知識的互動相通問題，怎麽才能簡單的把機器所理解的知識複製粘貼到人類世界？以前文本時代我們有搜索引擎，那以語音圖像為主的人工智能時代呢?所以，我們必須要有人機自然互動系統，只有這樣才能高效的獲取更有價值的機器知識，才能解決未來數據爆炸時代的知識獲取問題。至於商業化路徑，其實搜索引擎已經做了很好的示範，人機互動系統肯定會催生更多的商業變現路徑。

至於第二點對於巨頭加入競爭的擔憂，其實任何一個賽道只要未來市場空間足夠大，就必然會產生這種結果。巨頭為了支撐不斷攀升的市值，就必須布局未來天花板足夠高的產業，即便這個產業的商業模式當前還比較模糊，除非這個行業沒有足夠的商業空間或者戰略價值。我們一定要相信這個世界的聰明人很多，即便倒下了很多巨頭，也從來沒有哪個巨頭純粹是因為戰略方向問題倒下的，更多的原因反而是巨頭在執行方面出現了巨大的問題，戰略其實也是一個執行問題。

但是我們也要承認語音行業的不足，語音行業還比較缺乏對於商業落地的認知，若比較圖像、語音和自動駕駛這三個賽道，語音特別喜歡使用晦澀的術語比如自動語音識別、自然語言理解等等來給技術貼標簽，而不像人臉識別、車牌識別、自動駕駛這樣直接對應場景應用。而更為麻煩的是，晦澀的術語不僅增加了商務對於場景的解釋難度，也拔高了客戶對於技術的應用預期。這其實都非常不利於新技術在商業的規模化應用。

舉個例子，“人機自然互動技術”就倒霉在這個術語上，這估計是人類追求的終極夢想，可以作為學術術語，但是落地到產業這個名詞就過於抬高預期，非常不友好。坦誠的來說，我們現在能做好人機任務對話特別是遠場系統就相當厲害了，至於能否挑戰人類智慧現在還是看不到任何苗頭。即便作為學術名稱，卻也感覺有點單薄，不如學學通信領域用“G”來定義。這完全可以類比，因為通信解決的是人和人互動的問題，人機自然互動解決的是人和機器互動的問題。隨著機器的數量越來越多而且越來越智能，人和機器的互動將是未來世界的主要問題。若採用“G”來劃分人機互動技術，則大概可以劃分成如下5代，和移動通信類似，當前也就在第4代階段，距離5G還有一定的周期。

即便參照“G”的分類方法也有很多種，若以商業普及作為重要的參考因素，個人覺得可以按照如下的方式來劃分：

第1代人機互動技術：以旋鈕和鍵盤為代表，以模擬信號和字元為主要互動手段，可互動信息複雜度較高，效率很低，只能實現相對簡單的任務，但是可靠性也最強。這個階段的產品主要是包括打字機、電視、照相機、早期計算機、功能手機等各種電子設備，一般都是小巧簡單的作業系統或者不用作業系統。

第2代人機互動技術：以滑鼠為代表，以複雜圖形為主要互動手段，可互動信息複雜度較低，效率得到提升，易用性增強，學習成本降低。這個階段的產品主要就是個人電腦，Windows和Linux是代表性的作業系統。

第3代人機互動技術：以觸摸屏為代表，以簡單圖形為主要互動手段，可互動信息複雜度更低，易用性提升，學習成本急劇降低。這個階段的產品主要就是以觸摸屏為核心的智能手機，IOS和Android是代表性的作業系統。

第4代人機互動技術：以語音為代表，以遠場語音為主要互動手段，從這個階段開始，人機互動的作用半徑變得更遠，真正釋放了雙手，而且人機互動變得更加簡單，同時人機互動和內容服務耦合更強，互動具備了知識學習和傳遞的屬性，但是由於存在更多模糊空間，遠場語音互動的可靠性相對下降。Amazon Alexa、Baidu DuerOS、iFlytek iFlyOS和SoundAI Azero是代表性的互動系統。

第5代人機互動技術：以多傳感融合為主要互動手段，可互動信息的理解度和可靠性更高，融合互動將成為人和機器互相學習的關鍵路徑，並且這個階段人機互動的智能程度和主動程度都會得到大幅提升，機器可以感知人類的情感並且與人發起主動互動。

再總結探討一下，第5代人機互動（5G or 5I? 5I means the fifth generationhuman-robot interaction technology）的技術趨勢可以暫時歸結為下面4個方向：

第1個方向就是遠場化，雖然第4代人機互動就主打遠場語音互動，但是我們要坦誠地面對現實的殘酷，當前的技術遠沒有那麽好，我們在遠場可靠性方面還有很多難點沒有突破，比如多輪互動、多人噪雜等場景還有待突破，還有需求較為迫切的人聲分離等技術。第5代技術應該徹底解決這些問題，讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步，需要整個產業鏈的共同技術升級，包括更為先進的傳感器和算力更強的芯片。更為重要的則是基礎理論技術的進步，特別是聲學的基礎理論突破，我們已經等待太久了。當然這也很難，比如生理聲學就受製於當前實驗條件和人類倫理的約束比較難於突破，所以腦機接口當前來看就更加困難，直接挑戰人類智慧的技術路線當前來看都不太靠譜。

第2個方向就是融合化，“聲光電熱力磁”這些物理傳感手段，必然都要融合在一起，只有這樣機器才能感知世界的真實信息，這是機器能夠學習人類知識的前提條件。而且，機器必然要超越人類的五官，能夠看到人類看不到的世界，聽到人類聽不到的世界。機器的感知能力必須要超越人類，事實上眾多儀器也已經達到了這個目標，只不過，我們要把這些先進的傳感手段做的更加小巧更加便宜更加可靠，這是高端技術能夠走進尋常百姓家的關鍵所在。從當前的技術進展來看，聲音和圖像的融合更為成熟，關鍵就在遠場化。圖像識別若應用到消費場景也必須遠場化才行，比如說：抬眼一撇，從此便記住了她的容貌，而不是尷尬的站在攝影頭面前不知所措，這種互動體驗非常不友好更不吸引人。

第3個方向就是智能化，這也是最難實現的，因為智能本身的定義就是模糊的，這個智能化也不是類人智能，而是人類知識和機器知識互相傳遞的泛化，也就是讓機器可以理解人類的模糊知識，這並不是自然語義處理所能解決的事情。比如“像魚忘掉海的味道”，當前再好的NLP引擎也無法釋義，同樣機器也無法準確理解“小橋流水人家”，這就是意境。人也是這樣，高學歷也並不意味著有文化，比如我們AI公司，學歷都很高但是有時就比較缺文化。機器要智能就要有文化，那怎麽來實現呢？人類怎麽做的呢？比如高考時候的語文和英文考試，想拿高分閱讀量就是一個硬指標，所以機器也要這樣，先不用管什麽方法什麽模型的，記憶的足夠多就會有顯著效果。數據足夠多的公司，未來必然也會比較聰明。

第4個方向就是主動化，主動化要在智能化的基礎上實現，讓機器嘗試理解人類情感表達。這才是人工智能最大的商業價值所在，因為人和人之間的互動過程中，特別是在有商業價值的地方，主動互動佔據相當大的比例。想想其中的奧妙，當前互聯網最為火熱的三大領域：搜索、電商和社交，歸根結底，到底是在做什麽呢？搜索的商業變現為什麽最終落在廣告業務呢？社交的商業變現為什麽最終落在遊戲業務呢？若想挖掘人機互動的商業價值，主動互動就是關鍵的技術。只需要部分理解人類思想和情感，就能稍稍影響人類的決策，這就是巨大的商業空間。況且，機器沒有人類的那麽多情感負擔，比如說機器怎麽說甜言蜜語都不會覺得惡心，我們人類肯定不會把機器看成我們的上下級關係，也不會把人類的框框強加於機器，當然另外一個可能也是極為可怕，機器可能也無底線的無恥，其目的就是為了推銷一款商品。任何技術其實都有兩面性，但是掌握技術的是人類，是每一家的企業，所以一家的企業價值觀決定了技術是服務人類還是敗壞世界規則。歸根結底，還是人的問題，人的問題，也都是教育的問題。要讓機器不斷學習更好的造福人類，人類也應該不斷學習適應機器才是。

這點還要稍微展開一下，人世間最難的莫過於重塑一個人的思想，以遠場語音為核心的人機互動技術逐漸影響人類的決策，想想這就是令人激動的偉大事業。顯然，機器以海量的數據、強大的算力和優異的算法為基礎，永不疲憊的進化迭代，遲早是能夠大概理解一下人類的，這就足以影響一個人簡單的決策了，我們人類其實也蠻懶的，日常小的決策非常依賴於周邊人群的建議，這就是一種趨同性，而機器恰恰擅長參與並引導這種趨同性。當然，若將這種能力用錯了地方，對人類的傷害也很大，所以搜索引擎的谷歌才會有“不作惡”這個價值觀，若沒有這個風險誰會閑來無事提這個價值觀呢。

另外一點就是人機自然互動可能會改變人類學習知識的過程，我們已經習慣了在學校裡集中學習知識的系統過程，但是隨著智能手機的普及，現在碎片化學習的傾向已經愈發明顯了。而遠場語音互動把這個傾向還擴展到了老人和兒童群體，特別是在中國，老人和兒童是文字知識儲備最少的兩個群體，他們對於遠場智能互動的需求更為迫切，這也是智能音箱能在國內快速爆發的重要原因之一。智能音箱甚至讓剛學會說話的兒童都開始了碎片化學習，大量的兒童故事和科學故事，讓現在的小孩很早就懂得了比我們當初更為豐富的知識。隨著他們長大，以及我們當前的知識獲取習慣，長期集中系統的學習是否需要變革？或許長期集中在一起的學習更為重要的是要滿足人類社交的需求，而不是更好的學習知識。所以，當我們總是批評國人不好好看書的時候，也需要小小反思一下，知識的載體並非只有書籍一種，而書籍的知識更新速度確實太慢了，無法解決我們對於知識爆炸的焦慮。所以，什麽樣的學習方式才是最好的呢？學習方式本身是不是也應該進化呢？至少，我們知道，當前人類學習知識的方式已經比一百年前迭代進化很多了，下一步是不是機器應該參與到這種人類進化過程呢？

這樣來看這個故事很性感，但是同樣挑戰也是極大。任何一件事情都會有兩面性，我們需要從不同角度來審視。人機互動的核心是語言，其最大的挑戰其實也是語言。語言是洞悉人類天性的窗口，天然承載了人類的思想和情感，那麽怎麽才能讓機器來承擔這種能力呢？這還在探索，至少從現在來看，深度學習好像很難解決這個問題，當前的實踐只是證明了深度學習更適合模式識別這個領域，對於語言理解的效果不是那麽顯著，而腦機接口更是挑戰了人類極限，短期內也很難看到實質性成效。

語言更令研究者頭疼的是個體的差異性，族群的差異性還好，至少還有一定的規律，但是個體的自由語言卻能讓其他個體理解，人類甚至還可以“只可意會不可言傳”。但是機器不行，機器只能基於數據分析尋找規律，其特殊能力在於能夠從海量數據中發現人類難以理解的數據關聯，但是人類的能力更強大，隻用簡單的小樣本就可以邏輯推理，這是當前機器學習嚴重缺失的能力，當前機器學習領域火熱的對抗網絡、遷移學習等無法解決這個問題。

所以，當前還只是人機自然互動的萌芽狀態，即便第4代互動也還任重而道遠，幸運的是這項技術已經規模商業化落地，至少突破了可用的及格門檻。若要讓這項技術能夠持續推進並做好商業化，最為重要的還是基礎教育問題，我們從百度指數的分析來看，年輕人對於AI的關注顯然還不如30歲以上的人群，所以我們還需要加強這個領域的教育普及，吸引更多的年輕人投身聲學語音和語言理解這個行業，也期待更多學術機構能夠聯合起來，打破學科之間的壁壘，攜手培養更多跨學科的年輕人。

本文章圖片來源於網絡，版權歸原作者所有。

-End-