對話微軟小冰武威：聊天機器人的演進之路

智東西（公眾號：zhidxcom）

文 | 寓揚

聊天機器人一直都是一個性感的話題，電影《Her》中那個風趣又善解人意的虛擬戀人，可謂是我們對於人工智能技術的美好遐想，但要達到那一步對於我們還是一場長途跋涉。

但這絲毫不影響當下聊天機器人的火熱，尤其是隨著近兩年智能音箱的爆發。在AI的舞台上，微軟小冰是一個明星人物，憑借著“鄰家女孩”溫柔可人般的形象，以及良好的互動體驗，可謂風靡萬千少男少女。

自2014年誕生以來，在微軟（亞洲）互聯網工程院諸位技術大牛的辛勤培育下，目前已經成長至第六代，從最初的閑聊走入更多應用場景，從大家熟悉的主持節目、唱歌、講故事、寫詩，到新聞評論、金融、智能家居、手機助手等都有它的蹤影。

在近期舉辦的自然語言處理領域的世界頂級會議之一EMNLP （Empirical Methods in Natural Language Processing ）上，作為6場Tutorial分享之一，微軟小冰團隊總結了他們在聊天機器人領域的探索。

微軟小冰首席科學家武威博士

近期，智東西來到微軟（亞洲）互聯網工程院，與微軟小冰首席科學家武威博士圍繞聊天機器人技術進行一場深入溝通。透過微軟小冰背後人機互動技術的演進，我們看到了小冰由最初單一模態的文字回復更新到如今可以用語音、文字、影像等多模態的互動，其背後對話模型也由檢索模型更新到生成模型、共感模型，小冰由最初靜態、被動的聊天機器人變成了一個動態、互動性更強的虛擬助手。

一、從單一模態到多模態演進

四年前，剛誕生的微軟小冰只能在微信中被動的回復用戶的文字消息，而如今它已經成長到第六代，逐漸具備了語音、視覺的能力；在互動能力上，也實現了從被動回復到主動互動的轉變；在與6.6億人類用戶的交談中，小冰的互動體驗越來越好。

武威就微軟小冰的技術迭代談道，最開始小冰是一個單一模態（文字）的聊天機器人，等到了第三代的時候，小冰有了視覺感官。當時用戶發送一張照片給小冰，小冰就可以“看”到這張照片，並基於這張照片跟用戶進行聊天。

而隨著小冰更新到第五代後，它有了實時視覺感官，此時小冰擁有了對視覺資訊的動態感知能力。比如當你從小冰面前走過，向它揮手，它可以感知到這些動態的資訊並作出回應。

在第六代小冰中，微軟小冰團隊又將實時視覺感官、聽覺、全雙工語音以及對話引擎進一步融合，形成一個互動能力更強的更智能的“物種”。

而這背後正是多模態互動技術，也是當下業界的一個研究熱點。武威表示，“多模態一定是未來人工智能研究的一個方向。”多模態跨過了自然語言，是一種更加貼近人的互動方式。因為人的互動本身，無論輸入還是輸出都是多模態的，而做人工智能，我們本身就希望能模擬人的行為。

武威認為，從自然語言的角度來講，多模態技術還處在行業的探索與發力期。目前大家都意識到了多模態的重要性，但是同時又缺乏相應的數據進行研究。目前無論是學界還是業界也都在進行一些數據集的建設。

小冰在多模態上也發展的較為靠前，目前微軟小冰團隊已經同構多感官融合的架構實現了一些多模態互動，比如你輸入一段文字/語音/圖片，小冰會根據它看到或聽到的進行回復，而回復的內容可能是文字、語音或者一個表情等，武威認為這種互動已經是一個近似多模態的場景。

像目前的智能音箱，主要以語音互動為主，未來人機互動又是否會以一種模態為主模態呢？武威認為，這一問題要結合具體的互動場景來判斷。但如果從人類互動的角度來講，可能某一時刻，某一種模態扮演更加重要的作用，但基本上人所有模態都的需要的，所有模態都影響人的感知。

二、從回復到互動三種模型的迭代

最初微軟小冰團隊的目標是，無論用戶給出怎樣的輸入，小冰都能夠給出一個不錯的回復，並且盡可能的將小冰與用戶之間的對話維持下去。或許正是基於這樣的目標，小冰在模型上經歷了從檢索模型到生成模型再到基於生成模型的共感模型，自身互動能力也經歷了從被動回復到動態互動的演進。

在小冰誕生以前，搜索引擎的技術已經相當成熟，微軟在做小冰時，將微軟在Bing搜索引擎中積累的技術能力應用到聊天機器人中，就形成了檢索模型。

武威介紹道，得益於搜索引擎的發展，檢索技術更加成熟，隨著深度學習時代的到來，它們能夠更好的讓機器學習特徵，並建立更好的排序模型。檢索模型的特點在於對數據庫資訊的重用，只要數據庫中有對應的資訊，機器就可能給出一個很好的回復。

但檢索模型的局限在於，一方面如果索引中沒有相關的回復，那機器人就沒有辦法給出很好的回答；另一方面檢索模型是對相關資訊的重複使用，這就導致回答相對單一，互動體驗受到局限。

正是檢索模型的局限性，學界與業界開始研究生成模型，就自然語言而言，目前生成模型也是一塊前沿的研究領域。武威稱，生成模型是未來對話研究的一個方向，未來還有非常大的發展空間。它是更接近人說話過程的一個模型，簡單來說就是對語言的合成。比如小冰可以根據你的說話內容，合成出不同模態的回復，或者合成出不同性格的回復，這樣回復的內容就會更加豐富，更加像人類的表達。

目前這兩種模型都應用在微軟小冰中，並承擔不同的分工。武威介紹道這兩種模型各有特點，檢索技術非常成熟，直接使用已有的回復，並且符合語言的邏輯，相對來說效果會更好一些，在主流的聊天機器人產品上仍扮演著重要角色。

而生成模型是一個更自然的對人類互動進行建模的過程，但技術還不那麽成熟，比如生成的回復，經常會是一些萬能回復“我知道了”、“我也是”等，語言本身可能也相矛盾等，這些問題都是對話生成的一個研究重點，很多問題有待解決。

在兩個模型的配合上他認為，生成模型更適合從全局出發，對人機互動對話的全流程進行把控，而檢索模型可以解決目前生成模型做的不太好的一些問題，針對互動細節進行優化。比如在具體應用中，如果小冰識別到了用戶的意圖，並且能夠在數據庫中找到一個非常合適的回復，就可以使用檢索模型進行回答；如果無法找到一個合適的回復，就可以依靠生成模型進行對話的生成。武威還補充道，在印度尼西亞、日本等地，微軟的聊天機器人都是基於生成模型進行回復的。

但是在武威看來，單純的生成模型在人機互動中仍然是一種被動回復，讓回復的結果更加人性化，但還算不上互動。而共感模型是基於生成模型，逐漸解決的就是小冰從回復到互動的問題。

武威說，共感模型的關鍵在於互動，它是主動與被動回復的結合，是一個帶有策略的動態的對話過程。比如在人與人的互動中，會有主動的一方與被動的一方，並且雙方的角色也可能會不斷轉換，這構成了一個完整的互動過程。共感模型也是如此，它是一個動態的交流過程，小冰可以去察覺用戶的對話意願，來判斷是該主動一點，還是多一點傾聽，通過主動與被動的對話策略來引導對話的延續。

從檢索模型到生成模型再到第六代微軟小冰中的共感模型，武威稱，這是一個由淺層、簡單層次的回復，上升到對話引導和管理的過程。

三、NLP技術的前沿探索

但目前聊天機器人仍屬於早期的探索階段，儘管微軟小冰已經在行業中走到一個比較靠前的位置，但也仍存在許多問題有待解決。

武威從技術與場景兩個維度談道，從技術上來說，如今的聊天機器人在回復上仍有很多問題，比如不相關、缺乏內容等；從場景來說，聊天機器人最終會走向什麽樣的場景也有待探索。

針對與當下行業在人機互動技術上的難點，他說機器如何更好的理解用戶，怎麽理解用戶的意圖，怎麽能夠產生更加流暢、內容豐富的回復，都是聊天機器人行業需要解決的問題，行業仍然在探索期。

儘管對話生成領域有大量工作致力於增強對話生成的多樣性，但武威指出這一領域仍有較大空間，多模態儘管是未來的一個研究方向，但是多模態進入人機互動後，會帶來怎麽的新問題，目前行業都有待進一步探索。

而被譽為人工智能桂冠上的明珠的NLP（自然語言處理）技術，武威稱，只能說我們有了大模型、大數據，我們可以利用它們產生一個不錯的表示，但這個表示離理解有多遠，則很難講。

比如在機器閱讀理解中，如果我們稍微波動一下數據，這對人來講可能沒有太大影響，但是機器就會產生較大的錯誤，這就說明機器在很多問題上理解的並不到位。此外端到端的生成模型就像一個“黑盒子”，我們很難解釋為什麽會生成這樣的回復，這也導致我們很難進一步去解決其中的問題。

2018年伊始，阿里和微軟亞洲研究院相繼刷新了斯坦福大學發起的SQuAD（Stanford Question Answering Dataset）文本理解挑戰賽成績，一時間機器閱讀理解得分超過人類成為一個熱議的話題。

武威對機器閱讀理解的這一進展持肯定觀點，他稱正是得益於SQuAD之類數據集的出現，我們在此基礎上不斷迭代算法模型，近幾年來整個機器閱讀理解取得了飛躍性的發展。

但是不能憑空說機器閱讀理解超過人類，應該說在特定數據以及特定的評估準則下，機器可以跟人類水準持平，甚至在指標上超過人類。

儘管近兩年NLP開始在諸如智能硬體、車載以及垂直行業領域開始落地，並且取得一些不錯的效果，但武威認為NLP最終還是要回到通用上來。因為人理解世界是以一種通用的認知進行的，開放式對話才是人的一般狀態。

此外他還強調道，通用NLP是基礎，細分領域的NLP只有扎根在這個基礎上，才能夠有更深的發展。

但在通用NLP上，儘管有谷歌的BERT模型在11項NLP任務中都取得不錯的效果，但數據背後模型究竟理解到了什麽，都有待行業探索。

武威就自然語言談道，當下已有機構將通用的開放式聊天對話和基於任務式的對話結合在一起去做相關的研究，並且微軟小冰也在做相關領域的探索。

結語：多模態、個性化互動成趨勢

通過與武威的溝通和微軟小冰在人機互動上的一些探索可以發現，多模態互動、任務與非任務結合的對話方式等都可能是未來人機互動的一個研究趨勢。

此外，他認為個性化也是聊天機器人的一個方向，目前很多高校、機構也都在朝著這一方向探索。微軟未來也會在小冰框架基礎上，生產各種各樣的具有不同個性的聊天機器人。

要想推動聊天機器人進一步發展，武威認為一方面數據非常重要，另一方面在模型的方法論上也有待突破。比如當下我們深度依賴深度學習這種基於序列到序列的建模，但下一個這種級別的模型是什麽？能帶來本質變化的模型是什麽？有有待業界去研究。

如果說電影《Her》代表了我們對人工智能的一種探尋，那我們還需要多久才能達到那一狀態？武威謹慎地稱很難評估，因為有些東西一旦能夠評估，就說明你已經知道答案了，而NLP之所以我們當下難以攻克，正是因為我們目前不知道未來的答案是什麽。