搜狗王小川：人與機器將會共創怎樣的未來？

在 BMW ·極客公園 Rebuild 2019 科技商業峰會現場，搜狗 CEO 王小川展示了搜狗輸入法上線的最新功能——「變聲」。他挑選了高曉松的聲音，對著手機說了一段話，很快，高曉松的聲音出現在會場裡。

王小川介紹，把任意用戶的音色變成特定人音色是變聲領域最難的技術，這一次是搜狗首次將變聲能力落實到用戶產品，可以看作語音表征學習、遷移學習方面的重大突破。除了「變聲」，王小川還展示搜狗 AI 合成主播、AI 錄音筆等新技術。

在外界看來，搜狗原本是一家以搜索引擎為核心業務的公司。2017 年 11 月登陸美國紐約交易所上市後，王小川便迅速向公眾發布了搜狗未來的 AI 戰略。

這個戰略包含了兩個部分。其一，是人機互動，涉及感知和認知層面對語言的理解；其二，是以語言為核心，圍繞機器提升其閱讀和推理能力，稱為知識計算。智能硬體、翻譯、問答……近年來，搜狗在 AI 領域進行了集中布局。在王小川看來，搜狗關注 AI 的初衷是「讓表達和獲取信息更簡單」。

搜狗公司內部有個「狗勝節」，時間定在 2016 年 3 月 12 日。那天是周六，李世石與阿法狗的圍棋對決進行到第三場，阿法狗連贏。王小川將這場比賽看作是是人工智能啟蒙運動的勝利。

近期什麽樣的工作將被機器取代？未來人類會被機器取代嗎？很長一段時間，王小川常常會被人問到這個兩個問題。他的回答是，目前機器有強大的感知，但認知的能力還有限，比如對話、翻譯、問答機器處理起來還是與人有一定差距。

對上市公司的 CEO 而言，在穩固且可預期的業務上深耕，再正常不過。王小川為何執意要帶著搜狗走進充滿未知、道阻且長的領域？他所追求的 AI 未來究竟是怎樣的？搜狗又是如何思考人與機器的關係？

以下是搜狗公司創始人王小川在BMW·極客公園Rebuild 2019科技商業峰會上的演講，經極客公園編輯整理：

王小川：感謝張鵬，我是他的老朋友，非常榮幸今天在成都做這個主題演講。張鵬每年都會給我一個新的主題，我再去融入自己的思考。這次的題目非常難，講人與機器的共創未來。在這裡面，很關鍵的問題是要理解，今天人和機器是怎樣一個關係。

我們一直在尋求人和機器的關係。在討論這種關係的時候，就要涉及到整個歷史的趨勢，尤其是什麽事情是必然會發生的。只有對趨勢有了解，對於必然有認知，我們才能夠開始探討「人與機器的關係」，這個哲學上的問題。

縱觀歷史發展，我們經歷了幾個時代，從史前文明、農業文明、工業文明到信息文明，每次都是有重要的技術突破。離我們最近一次的信息文明其實並沒有結束，是計算機和互聯網發展推動了信息文明的快速發展。

即便到今天，在中國還有大量的場景並沒有信息化，比如教育，現在學校都在利用信息化推進它們的整個部署。但這時候已經有一個苗頭了，就是智能文明的降生。說到智能文明，人工智能是我們繞不過去的話題。

人工智能有廣義和狹義之分。狹義的人工智能，講的就是 2012 年之後的深度學習，尤其是 2016 年阿爾法狗的誕生。可人工智能有更長的歷史，最早從上世紀六十年代的專家系統，之後是特徵工程，到現在我們開始使用的更多的監督學習，尤其是對語音圖像的處理能力。

在深度學習和監督學習之後，我們還在做的工作行業內叫強化學習，或者是認知推理，這個到現在還沒有進入到實用階段。我們今天講到的深度學習還停留在現有的語音圖像處理階段。所以，我們很好奇未來這樣的必然趨勢，是必須對技術的發展有很多具體的了解。

今天不是講理論課，我更多是想探討背後的技術將會帶來什麽變化。其實，2016 年給我最大的衝擊是阿爾法狗，我們稱之為一場啟蒙運動。相對以前的文藝複興，它是在探尋人和人，以及人和神之間的關係。阿爾法狗之後，我們關注的是人與機器的關係。

2016 年那場比賽我參與比較多，我在新浪直播全程見證了李世石被機器打敗。在那場比賽中，跟我一塊做嘉賓的是中國圍棋隊總教練余斌。賽前，他堅定認為人一定會打敗機器，甚至覺得機器能夠下圍棋是一件不可理喻的事情。

比賽之後，余斌教練的精神出現了一定的崩潰，我聽說是新浪編輯幫忙計程車送他回去的，他已經不知道怎麽打計程車了。當一個機器文明誕生時，對於我們來說，特別是專家，被機器取代的那一刻，自己內心是難以接受的。之後在醫療、駕駛等各領域都會發生這樣的變化。

比賽前我們對阿爾法狗有很多質疑，比賽之後，我們發現很多年輕朋友把阿爾法狗稱為狗狗，對它有很大的接受，圍棋九段選手們把它稱為阿老師。今天，我們通過擬人化的方式接納了機器。這種接納的速度會更快一些。

什麽樣的工作將會被取代？這是很多媒體人好奇的問題。我想，這是近期要去解決的回答，還有一個問題是人類是否會被機器取代，這是更加遠期的問題。實際上，16 年到現在的 3 年時間，我永遠被追問的最核心問題也是這兩件事情，而不是探討背後的技術本身。

關於近期的問題，什麽樣的工作將被機器取代？我們要理解當下機器本身的強大，以及它目前的局限性。我們收到媒體或者影視作品的解讀，理解到機器強大，想象它已經變成人的形狀，能跟你對話，甚至比你更加厲害。實際上，今天的技術遠遠沒有到。

今天，我用兩個觀點來闡述現在人工智能本身的局限性。第一，今天人工智能已經具有了強大的感知能力。什麽感知呢？就是聽覺、視覺，跟外界接觸之後進行信息低層次處理的感知。現在圖像識別裡面，機器做人臉識別已經可以超越人了。

今天早上，我看新聞講京東開始養豬，做了一個豬臉識別系統。我們知道人在做人臉識別的時候，是天生的在幾千萬年進化裡面對人像的理解，機器用幾年時間就學會了。但我們人類識別兩隻豬長得有什麽不一樣會變得更加困難。

可對於計算機而言，學習豬和學習人的臉部特徵是類似的事情。這樣的領域裡面，機器的感知能力是可以接近甚至超過人的。

但是要強調一點，這些能力是在它見過的有限的環境裡面。人的能力則在於兩人說話的時候有一個雞尾酒效應，一個人講話時是一種聲音、音色，另一個人是另一個音色，兩個人同時講話的時候人很容易區分，機器目前還做不到。今天，機器對於複雜的未曾見過的感知問題還沒有辦法處理，但是對於見過的場景裡已經可以比人做得更好。

另外一個問題就是認知領域，機器就會難很多了，尤其是跟語言相關的。語言是我們對世界的一種抽象認識，就像人類簡史裡講到的。我們在森林裡去找仙女，這樣的事情是有概念有故事的，這個事情機器沒有掌握。加上人類還有遷移學習能力，機器目前都不具有。

在這種局限性下，我們可以做一種簡單的斷言，在認知問題裡面機器只能輔助人類，比如說當你寫一部小說或者對話的時候，機器並不能獨立工作，但在認知問題、感知問題裡面機器可以獨立上崗，就像圖像和語音的處理。

我們的做法是以語言為核心，去探討語言相關的感知和認知，感知是處理語音、圖像，認知處理的是對話、翻譯和問答。這個感知裡面已經可以做到跟人的水準相同，但是在認知領域會非常難。

從優先順序看最容易做的事情是機器翻譯。即便如此，今天我們可以看到它跟人相比較起來也有一定的差距，尤其人覺得特別簡單的事情機器並不一定處理很好，而人覺得複雜的問題機器可以做得很好。這與感知不一樣。在感知方面，機器可以全面地比人做的好，機器不精準的地方人也做不好。而認知世界裡，機器和人好像是不同類型的人。

感知裡面，我們做了語音識別。搜狗是中國今天 ToC 領域語音識別量最大的引擎。因為我們擁有中國最大的輸入法，每天有超過 6 億次語音識別請求，包括語音修改，目的就是以語言為核心使得人跟人通過感知能進行更好的溝通。

之後，我們覺得這件事情不代表技術前沿，我們又做唇語的識別，之前是用聲音轉化為文字，現在我們可以做到用嘴形變化轉化為文字，我們是最早公開演示的系統，而且在特定場景的識別率已經高達到 90%。

最近，我們剛剛發表了一篇論文，關於機器和人語建模，在嘈雜環境能大大提升人語識別的準確度，在我們北京的實驗室和展廳裡面可以體驗到這樣的技術。

除了語音識別，還有語音合成，包括風格遷移。在互聯網上，除了機器能識別你以外，當你在表達的時候，機器能夠做更多輔助的工作，這個系統是先用 14 分鐘我的語音做訓練，然後跟特定的歌合成，我們可以把自己的音色做遷移，變成個性化合成，這是用我的聲音來唱歌。所以語音裡面，這樣一個技術已經可以做到除了圖像識別以外，還能做各種聲音的變換，下面我們還可以展示更加先進的技術。

除了這樣的遷移以外，我們現在還能做到的就是 AI 語音變聲的技術，我們應該是首次將語音變聲技術用到實際的產品裡面，今年谷歌大會發表了語音表征識別的技術，我進行一下演示，可以把任何人的聲音轉化成特定的聲音，這是在表征學習當中一個重大的突破，我們也是首次把它做了實用。這裡點語音，然後點變聲，我們做了很多人的特定音色，從明星，到卡通人物，到特別聲音，比如高曉松，我可以給大家演示一下。

（高曉松聲：大家好，歡迎來到極客公園 2019 年現場和大家一起分享人和機器的共創未來。）

還可以變成其他的動漫聲音，遊戲聲音，或者剩下的方言。這樣的變聲技術並不是簡單的語音合成，能把語音、語調、情感做到這樣一個遷移。所以在輸入法中間我們做了一件好玩的事情，大家意識到沒有，這裡只是好玩。可當我跟網絡教育行業進行溝通的時候，整個行業沸騰了。

在遠程的直播行業當中，我們遇到有些老師帶有口音，我剛才是把一個國語轉成帶有東北腔，但倒過來你口音能轉成正常的語音，在知識付費的這種遠程教育當中，這些學校的老師，或者說之前找的導遊，會對他們有一個新的顛覆。

有一些導遊聲音可能不足夠好聽，但知識很淵博，對於一個網絡的知識付費的公司而言，當他找不同人的時候也要考察他們的音色到底好不好。現在可以把任何一個人，5 毛錢的音色變成價值 50 元的音色，而且當他找不同的老師或者導遊的時候，產品也能做到非常標準化，因為輸出高度一致。今天在表達信息和獲取信息上，語音方面已經可以做到非常的突破了。

今年年初我們發布了另外一款技術，叫做 AI 的合成主播。這件事情把語音、圖像和文字的關係完全聯動起來，我前面講的技術能夠把嘴形識別變成聲音、變成文字，現在我們倒過來，也是同樣的技術，能把文字變成聲音變成它的表情，並且在這裡面我們年初已經在新華社和央視裡面上線了這樣一個產品。

這就是我們稱之為的 AI 合成主播，能合成人的聲音、嘴形、表情，同時也是我們全球首個用 AI 能取代人的分身技術。這個技術發布之後，全球 100 多家媒體都能做這樣的報導。我們給大家看看效果。

這個技術在年初已經上線，全球很多媒體都會採購，包括國內最大的一家保險公司在線客服也將採用我們的技術，用機器取代部分人。在感知視覺裡，機器和人溝通機器能做到很大的取代人的作用，獨立開展工作。

這是我們做的機器翻譯，包括語音同傳，我們有非常豐富的落地場景，我們之前首個離線翻譯引擎，用到離線翻譯機，沒有網絡的情況下也能工作。我們也能在講中文和英文的時候，翻譯成其他國家的文字進行傳遞。我們還能翻譯成全球的文字，全球更多的網絡谘詢是英文文寫的，我們現在能用中文瀏覽很多內容。

今年初，我們還推出搜狗的錄音筆，希望將語音的感知和認知技術更好地結合。因為這個領域，我們發現發現僅手機的場景已經不太夠用。錄音筆在重新定義錄音筆行業，跟以前最大的區別是，當你關掉錄音筆以後，它還能實時傳到終端設備，並且實時轉成文字，1 小時的語音 5 分鐘可以成稿。

為什麽做這個工作呢？我們在醫院裡，當醫生跟病人溝通時，我們可以用它生成病例。醫療整個大環境當中，信息化做得遠遠不夠，最大的環境是門診的地方。醫生和病人的溝通，現在沒有寫成一個規範的病例，這使得我們整個醫療 AI 很難實現。

語音到語言的轉換，寫摘要、寫病例，甚至法庭寫記錄的方式改變，會使整個行業發生心的變化。我剛剛提到的這個領域，這樣一個認知是很困難的。搜索語言就出現很大的瓶頸，幾乎很難理解用戶想要的關鍵詞是什麽意思，通常機器作為輔助是給你更多的結果做選擇，給你十條結果。

未來，隨著 AI 技術發展，機器越來越準確之後，這樣一個輔助能夠逐步給你標準答案的結果。這裡可以看到，從語言處理當中，我們的努力方向就是從搜索走向問答，以後你用語音提問給你直接的結果。現在，我們能看到 40% 的用戶提問能給到直接的回答。從搜索到問答，最終的形態是走向個人助理，讓機器和人產生後面的交流，能輔助你完成一些任務。

這裡給大家畫一個很有意思的圖，我們認為整個行業在感知、認知領域裡面，未來技術可能帶來的產品變化。

下面這個圖是一個基於感知、語音圖像處理的進步，帶來的變化。從文字、語音到圖像，包括輸入法、智能硬體，甚至合成主播，這是感知問題裡面能夠做得非常快，且能獨立工作。的部分。

在縱軸認知上的發展，更多帶來計算、推理、認知的能力。搜索再往下走能在醫療領域裡做更多的信息處理，如果再帶上語音的衝力，可能能做到以後問答的機器。

從橫軸的自然互動到縱軸的計算，到最後我們能實現智能助理和 AI 助理，幫助每個人取得分身，把你的能力在互聯網上變得最大，這是我們從近期開始演化，大家能看到的過程。智能硬體和智能音響還只是處於中間的位置。

回到更大的話題，這不是搜狗一個公司能完成的事情。人類是否會被機器取代，這是我們認為長期需要回答的事情。有一個悖論，學術上很有名，我們的感知說人腦太聰明了，我們竟然能造成出一台比自己更聰明的機器，但是另一個人說人腦太聰明了，我們不能造出一台比人腦更聰明的機器。

大家理解嗎？這兩個句子都是成立的，人腦聰明的時候，到底是否機器能超過人自己，這是很難回答的問題。這裡可以看到，我的斷言，未來我們所做出的人工智能跟人腦不是進行直接的比較，也不是做出擬人的機器成為人工智能發展的未來，而是走不同的道路。

在人最擅長的領域裡邊，機器的設計原理，從目前可知道的技術成都是沒法到達的；但是倒過來，機器所擅長的這些事情，人也做不到。就像一個計算機，我們不會跟一個計算機比拚計算速度怎麽樣，同時未來的人工智能在特定領域裡的使用也一定遠遠超過人，這是人沒法跟機器較量的。

但是，我們通用的智能，我們的生命力，適應環境的能力，在可見的技術裡面，機器也是做不到的。這裡我想提到的一個基本觀點，首先不要妄自菲薄，我們想機器會把人取代了，因為我們找不著一個方法比人更厲害、能完整替代人的機器。

但是我們之前有一種狹隘的理解，我們特別害怕機器在某個領域裡面把人給超越了，就像下圍棋一樣。事實上，我們要去接受機器在很多情況裡面能夠替代人的部分的功能，或者增強人部分的功能。比如在座各位有很多人都在戴眼鏡，大家想過沒有，你已經被技術入侵了，因為眼鏡使得你視力變得更好，因為手機我們每個人變成千里眼、順風耳，未來一樣的，技術跟人會產生新的融合，它會改變我們人。

離開技術，我們會變得更加弱小，但是跟技術在一塊我們會變得更加強勢，所以不要狂妄，我們對技術是碾壓的態度，技術會改造我們，會把我們變成新的人類。

跟一個猴子說，如果改變基因把你變成人你會願意嗎？猴子會說我肯定不願意，因為它不理解你在說什麽。同樣的，我們如果用技術改變一個人，把你變成一個超人你會願意嗎？今天就在發生這樣的事情，我們大多數人還是采取這種拒絕的態度，因為覺得人更渺小，但是未來人跟機器會有一種新的合體，跟技術在一塊我們會變得更加強大，形成新的生態，這是人與機器協同進化的未來。

我們的使命是在人工智能中做簡單的工作，讓表達和信息獲取變得更加簡單，在大時代找到自己的位置。謝謝。