每日最新頭條.有趣資訊

達摩院這一年:科學家上山,新技術下海

達摩院,在金庸小說中是少林寺最高等級的武學研究機構,若非有精深的武學造詣,是沒資格加入的。

或許是緣於對武學的癡迷,2017年10月,風清揚(指阿里巴巴董事局主席馬雲的花名)將新成立的研究院命名為“達摩院”,同時宣布,未來3年內阿里巴巴在技術研發上的投入將超過1000億元,主要研究自然語言處理、人機自然互動、量子計算、機器學習、基礎算法等多個產業領域。

為了能夠達到精深的“武學造詣”,達摩院初期計劃引入數百名頂尖科學家和研究人員。同時,達摩院與全球頂級高校開展多學科、多領域、多模式的學術合作,以聯合科研基地和開放式阿里巴巴創新研究計劃為載體,構建全球產學研技術合作生態。

作為阿里巴巴向科技型公司加速進化的結晶,成立9個月以來,達摩院對外界而言,一直披著一層神秘面紗,這個機構有多少人?他們做過哪些事?他們怎麽讓前沿技術從實驗室步入到公眾的日常生活中?

“皇冠”下的科學家群體

第一財經記者了解到,目前達摩院已囊獲了大數據專家金榕、視覺識別和搜索領域國際級權威學者華先勝、世界級量子科學家施堯耘、電腦視覺專家任小楓等為代表的一批技術帶頭人,在人工智能、量子計算、芯片、自然語言處理等多個領域有所建樹。

今年6月,在電腦視覺知名賽事Pascal VOC comp4目標檢測大賽上,冠軍來自中國的達摩院。幾乎同時,達摩院自主研發的新一代語音識別模型——DFSMN,剛剛打破了全球語音識別準確率紀錄,被谷歌等國外巨頭在論文中重點引用。

達摩院取得的成績遠不止此。今年1月,在美國斯坦福大學發起的機器閱讀理解頂級賽事SQuAD上,阿里巴巴憑借82.440的精準率打破了世界紀錄,並且超越了人類;在今年5月舉行的國際頂級機器翻譯大賽WMT上,達摩院領先眾多國外巨頭與學術研究機構,連奪英文-中文翻譯、英文-俄語互譯、英文-土耳其語互譯5項第一,而這項成果是由阿里達摩院機器智能實驗室NLP首席科學家司羅的團隊所斬獲的。

司羅長官的是達摩院自然語言處理團隊。自然語言處理(Natural Language Processing,簡稱“NLP”)是一種使機器理解人類語言的AI技術,處於人工智能中最高層次——認知智能,因此被譽為人工智能皇冠上的明珠。

儘管“NLP”這一術語並不如大數據或雲計算那樣耳熟能詳,但人們每天都在使用或受益於它,其應用場景包括搜索引擎、智能客服、商業智能和語音助手等。NLP和人工智能其他層面一樣,需要技術+場景+數據的三要素積累。

“阿里擁有大量的數據、計算資源以及應用場景,相對於學術界有更多優勢,在世界範圍也領先同類技術公司。這是吸引我加入達摩院的最重要原因之一。” 司羅告訴第一財經記者。

作為最早一批從學術界轉向企業界的人工智能科學家之一,司羅並沒有感到任何不適。“我在普渡大學任教期間就對技術的應用場景以及產品化、商業化的工作非常感興趣,當時也有很多和企業界的合作。” 他體會最深的是,在學校他是一個賦能學生的角色,但跟產業界的人在一起,他能感受到自己的作用和影響力被放大了。

2006 年,卡內基梅隆大學博士畢業的司羅進入普渡大學電腦系任教。他專注於機器學習、NLP等領域的研究,短短幾年就發表了100余篇論文;2012 年,成為普渡大學電腦系終身教授後,一舉奠定了其在學術圈的地位。令人意外的是,2014 年司羅結束了8 年的學術生涯,成為阿里人工智能科學家陣營的一員。

其實,很多大企業原來都嘗試過建立一個自然語言平台,但成功的並不多。其原因不只是技術因素,還有業務甚至是組織架構的因素。以NLP為例,公司很多其他的業務部門都有自己的一部分NLP的能力和團隊,如果用了平台的功能,會對原有的組織架構造成衝擊。

“在設計平台的時候我們已經考慮到了上述問題,平台做一些通用性的工作,這些通用性的工作可以服務好廣大的業務方,把他們比較難做的一些基礎能力承擔下來,他們去做更多和業務更貼合的創新。” 司羅表示,團隊在一些重點技術上花了比較大的時間和精力,在重點項目上作出的成績非常突出,不僅解決了準確性,而且還在運行效率、佔用的資源等方面都有比較大的提升。

科學家的新上山下鄉

“此前在學校主要是跟學生打交道,處理一些相對學術性的研究工作;現在在企業界可以跟更多非常優秀的同事交流,有機會跟更大的、更強的技術團隊去合作。”阿里達摩院機器智能實驗室NLP首席科學家司羅告訴記者,在阿里巴巴工作的側重點不只是腳踏實地,更要讓技術在應用場景中產生影響力。

這也與阿里巴巴的研發文化相匹配。第一財經記者了解到,包括司羅在內的新入職科學家大多被要求深入一線,到一線技術部門去鍛煉,向業務同事學習商業模式,向產品同事學習產品理念,向客服同事學習用戶喜好。

司羅就曾被派往阿里巴巴的搜索事業部,甚至很多研發人員成了“豬倌”。

為了探索智慧農業,阿里人工智能養豬團隊的十幾名研發人員,在豬場陸陸續續待了幾個月。平時吃豬場食堂,住集體宿舍上下鋪。通過阿里的AI技術,給每一頭豬建立了自己的檔案。機器算法團隊的影片影像分析技術,記下了豬的體重、進食情況、運動強度等等。如果一隻豬長臥不起,那人工智能就會判斷它是懷孕還是病了;如果只是豬想偷懶,飼養員就會讓它多走走。

這種下一線的做法,也被達摩院機器智能技術實驗室主任金榕戲稱為“上山下鄉”。

“很多同事剛來(阿里巴巴)的時候,可能技術思維多一些,但達摩院更希望技術能與產品、業務共舞。”司羅解釋道,阿里本身希望技術能夠在業務中真正地發揮價值,上述到一線學習的機會能夠讓科學家們更深入地了解一些重要業務部門和一些重大的業務需求,可以更好地將技術能力和業務需求連接起來。

記者了解到,達摩院已經成功搭建了包括自然語言處理、語音識別在內的多個通用技術平台,用於支撐阿里巴巴整個核心技術體系。而在司羅所長官的NLP團隊中,有近百人的團隊分布在中國、美國、新加坡等實驗室,其中30%以上人員有博士學歷。

達摩院NLP團隊肩負著構建阿里巴巴整個經濟體的自然語言處理技術體系的使命,支撐整個阿里巴巴這個大經濟體語言智能技術和應用。司羅團隊的自然語言處理技術現已經應用於淘寶、天貓等幾乎阿里所有的產品線上。

全球化是阿里集團未來20年三大核心戰略之一。越來越多的人開始在阿里經濟體上進行全球買和全球賣,但“語言”成為了一道門檻。

以阿里巴巴國際站為例,七成買家以英語溝通,還有30%為西班牙語、土耳其語、俄語等小語種。而賣家端的調研數據顯示,大約96%的賣家對小語種無能為力。這一現狀,也催生了對機器翻譯的巨大需求。

“目前團隊聚焦的還是阿里經濟體和阿里生態所涉及的語言,主要包括英語、西班牙語、土耳其語、法語、俄語等相對有比較多人來講的語言。”司羅告訴第一財經記者,阿里現在主要採用神經網絡機器翻譯技術。

神經網絡機器翻譯技術的核心在於數據,司羅解釋稱,只有在海量數據的前提下才能獲得更好的人工智能模型效果。而數據正是阿里的優勢,這也促進了阿里機器翻譯技術近年來的突破性發展。

阿里巴巴方面稱,現在每日的機器翻譯調用總量已經達到7.5億次。除了應用於電商全鏈路服務之外,阿里的機器翻譯技術還廣泛應用於菜鳥物流通關、阿里雲國際社區、飛豬旅行翻譯助手、釘釘社交口語翻譯等一系列產品。

目前,國內發力自然語言處理領域的科技公司不在少數,它們大多是基於固有業務進行更新,提高服務品質,無論是阿里、百度、騰訊三巨頭,還是華為、科大訊飛、搜狗、今日頭條等,無一不是結合自身固有業務優勢,以AI為催化劑,加速業務變革與更新。以今日頭條為例,主要通過寫稿機器人進行創作;通過AI實現數據進化從而進行個性化推薦。而早於國內發展的國外NLP技術已實現產品商業化,並擁有規模龐大的數據庫和眾多實用的語言處理工具。以微軟小冰為例,小冰已擁有超過1億人類用戶,對話數據超過300億,覆蓋範圍超過5個國家。

技術創新絕不是為了發論文

除了自然語言處理,達摩院還在構建圍繞語音識別的智能語音互動平台。

未來在家庭、工作場景的智能設備會越來越多,這些設備沒有鍵盤和觸摸屏,需要比較便捷的方式跟互聯網連接,它們本身會成為互聯網的入口,這當中語音識別就是一個重要的入口,通過這項技術人類才能與設備互動。

作為達摩院機器智能實驗室智能語音互動首席科學家,鄢志傑告訴第一財經記者,相比其他AI技術,語音識別雖然相對成熟,但要突破現有技術門檻,並與應用場景深度融合,難度非常大。很多中國公司也缺乏自主創新的戰略耐心,但他從阿里看到了這種決心,於是在2015年加入了達摩院機器智能技術實驗室的前身,iDST。

此前,鄢志傑在微軟亞洲研究院工作了近8年。“研究院的工作主要偏重學術研究,比如寫論文、在公開標準數據集上做一些算法方面的提升。”鄢志傑稱,一直想有一個機會讓自己的研發成果更早落地成為產品,從而能夠被更多人使用,聽到來自用戶的直接反饋。

在阿里,達摩院並不是一個純研究部門,它與業務和商業是緊密相關的,即使是前沿技術研發也是為未來的業務與商業研發。這意味著,實驗室除了學術以外,還有自己的產品以及商業邏輯。

“我們(實驗室)其實有三類人,一類是純做算法研究的,一類是做算法落地的,還有一類是推動產品化落地的技術人員,這三類人我們力圖把他們放到一個組織底下,這樣算法的研究成果可以迅速被產品化,被消費者所使用。”鄢志傑告訴記者,這是從“算法—產品—商業”融合的方向,還有一種是從“商業—產品—算法”的方向,即從產品一側或者從商業一側直接收到市場的反饋,這些反饋就能直接給到算法團隊裡面,業務為研發提供豐富的數據與場景,一旦做出來就能夠創造巨大產品價值和商業價值。

“阿里的技術研發與創新,絕不是為了發論文,而是要成為業務發展的眼睛,為未來的業務指引方向。”鄢志傑說。

與一般公司在研究部門、產品部門等不同組織之間進行知識交換不同,達摩院的知識交換效率更快。以阿里自主研發的語音識別模型DFSMN為例,鄢志傑稱,從算法的驗證結束到最後鋪開到阿里雲上開放給開發者使用,整個過程隻用了約1個月的時間。

語音識別中有一個很重要的模型叫聲學模型,聲學模型可以理解為建模學習人們的發音,它是語音識別準確率的一個核心模型。歷史上很多準確率的提升都是因為聲學模型的換代,從GMM(高斯混合)模型到DNN(深度神經網絡)模型,以及後續的CNN(卷積神經網絡)、RNN(循環神經網絡)等模型應用。

DFSMN是阿里巴巴達摩院機器智能實驗室語音識別團隊推出的新一代語音識別模型,對比目前業界使用最為廣泛的LSTM(長短期記憶網絡)模型,DFSMN語音識別模型訓練速度更快、識別準確率更高。阿里巴巴稱,採用全新DFSMN模型的智能音響或智能家居設備,相比前代技術深度學習訓練速度提高了3倍,語音識別速度提高了2倍。

當前,語音助手是潛在的語音互動控制中樞,巨頭紛紛搶灘。亞馬遜Alexa通過運行獨立的程式,稱為“技能”(Skills)來實現不同功能應用,極度類似手機裡在作業系統上運行APP。Alexa後端整合內容及服務,前端整合觸及用戶的各類終端設備,用戶數和服務數都在快速生長,具備了語音互動控制中樞的屬性。在亞馬遜Alexa打開智能語音市場太空後,谷歌Assistant、微軟Cortana和蘋果Siri都在積極拓展生態系統,三星、Facebook等更多巨頭預計也將入局。

達摩院活得時間要比阿里巴巴長

第一財經記者了解到,在時間分配上,達摩院的很多科學家都是三三製。比如司羅和鄢志傑,跟業務的緊密溝通佔到三分之一的工作時間,還有三分之一是用來帶領團隊,另外三分之一用來跟蹤全球最新、最前沿的技術發展趨勢,為團隊規劃研發方向。

一位阿里巴巴內部人士透露,雖然阿里科學家們每天的工作非常繁忙,但大多數同事都能保證生活與工作的平衡,很多同事還生了第二個孩子,家庭也很幸福。

目前,阿里巴巴在資本、技術、人才等方面已具備了探索科技未來的基礎。阿里巴巴已擁有25000名技術研發工程師、近千名博士學者和多名入選MIT TR35傑出青年創新人才,形成了集產品、研發、研究於一體的創新人才梯隊。

在研發體系上,達摩院已經構建了短中長三個層次的研發體系,面向未來3~5年前沿應用技術、面向未來5~10年原創性基礎技術,以及面向未來10~20年前瞻性基礎技術的研究,並在不同類型的技術領域採用多種不同的合作模式,打破與阿里巴巴集團現有多個研發事業部之間的壁壘,促進阿里巴巴形成涵蓋科學、技術和工程的多級研發體系,並在研究合作模式上保持動態性和優勝劣汰的管理機制。

在組織機構上,阿里巴巴達摩院實行院長負責製,阿里巴巴集團首席技術官張建鋒擔任首任院長。同時成立學術谘詢委員會,首批名單中十人中有3位中國院士、5位美國院士,包括世界人工智能泰鬥Michael I. Jordan、分布式計算大家李凱、人類基因組計劃負責人George M. Church等。

在科技驅動發展的這個時代,對核心技術的掌握,尤其是在基礎科學、顛覆性技術領域的突破,這將決定企業能走多遠。對於要做102年企業的阿里巴巴而言,加大對科技創新研究的投入,走科技驅動的發展路徑,成為一種必然。“達摩院”由此創立。

馬雲在達摩院宣布成立當天發表演講稱,研究不應該是Research for fun(為快樂研究),也不應該Research for profit(為利潤研究),而是Research for solving the problem with profit and fun(為解決問題研究並帶來利潤和快樂)。

“For fun走得太遠,for profit走得太近,都走不長。一個企業做得多大,在於企業解決多大的社會問題。這是阿里巴巴思考的邏輯。” 馬雲說道,“解決社會問題”是阿里巴巴始終貫徹的技術研發邏輯,阿里巴巴已經不是一家普通的商業公司,要成為一家技術驅動、技術和商業完美結合的公司。

這也決定了達摩院在阿里巴巴的定位。

在學習IBM、微軟研究院、貝爾實驗室等在過去人類歷史科技發展過程中取得的巨大經驗和教訓後,阿里達摩院必須走出自己的路。或許是看到達摩院取得的優異成績,6月26日,阿里巴巴倡議發起了“羅漢堂”。未來羅漢堂將於達摩院一起,研究與科技創新半生的社會經濟形態變化等新課題。

馬雲對達摩院的發展提出三個要求,“活得要比阿里巴巴長”、“服務全世界至少20億人口”、“必須面向未來、用科技解決未來的問題”。

獲得更多的PTT最新消息
按讚加入粉絲團