和谷歌搶人，挖微軟牆角，Facebook AI實驗室逆襲之路

堅持5年能得到什麽？

馬雲說，“對於一家創業公司而言，能堅持做5年，就一定是‘牛’的。”

同理，對於一家傳統互聯網公司而言，能堅持5年用新技術為原有業務改頭換面，更牛。

而從2013年12月10日對外正式宣布成立AI實驗室FAIR至今，Facebook真真正正做AI正好5年時間了。這家在科技創新上素來以“落後、跟隨”之姿發展的公司，如今也正在期待著憑借AI再創互聯網社交傳奇。

傳統社交數據的爆發式增長

“沒有深度學習，現在的Facebook就無法正常運營，因為它已經深入到Facebook的方方面面了。”FAIR創辦者&首席AI科學家、卷積神經網絡發明者之一的Yann LeCun在總結Facebook這5年發展時說道，“但實際上，在2013年之前，Facebook高層並不讚同成立這個實驗室。”

眾所周知，Facebook以傳統社互動聯網起家。而因初初創立時，祖克柏還是哈佛大學的一名學生，所以這個社交平台一開始也只在哈佛大學的學生中被廣泛熟知。

得益於互聯網的快速發展，以及社交這一“有點就可擴散至面”的特性，Facebook很快便成為了美國高校學生日常社交的常用工具。

隨著用戶範圍的擴大、開辟廣告業務以及接入第三方服務，到2009年年初，Facebook的用戶數就已超1.5億，用當時祖克柏的話說，“如果Facebook是一個國家，那麽它將是世界上人口第八多的國家，比日本、俄羅斯和尼日利亞等國都多。”

但1.5億的用戶量和主要以圖片為資訊承載的社交模式，顯然還不足以讓祖克柏為數據優化及處理憂心，而素來“後知後覺”的公司高層最關心也依舊是產品線的拓展。直到2013年的一次宴會，這一現狀才有所改變。

其實，Facebook並不是不重視技術的發展，只是真的很“後知後覺”。這點，從歷年來的F8大會就可以窺見一二。

2007年，Facebook召開了第一屆F8大會，推出了面向開發者的社交圖譜。次年，又推出了社交工具Facebook Connect。但實際上，這些只是基於Facebook現有業務所做的調整，而非技術創新性突破。

也因此，2009年的F8大會因沒有新進展而停辦。

此後兩年時間裡，雖然其做了多番調整，相繼推出了新社交插件、Timeline、開放式圖譜協定、圖譜API等。但依舊可以看出，這些技術及產品不具備創新改革的能力。

為此，2013年的F8大會再次停辦了，這對才上市不久的Facebook，是個不小的打擊。

相關數據統計，到2013年年初，Facebook全球日活躍用戶數已然超過了6.5億。加之第三方服務、廣告業務、影片直播、Instagram等產品線的發展，以及各產品間數據共享需求的增加，傳統互聯網技術儼然開始無法繼續支撐下去了。

而此時，諸如谷歌、微軟、蘋果等同類互聯網公司，早已開始向科技公司轉型，如谷歌早在2010年就成立了谷歌X實驗室，更是在2011年成立了谷歌大腦。而蘋果更是在2011年就推出了智能語音助理Siri，將機器語音學習從實驗室帶到了大眾的生活中。

此時的Facebook，顯然已經落後了。

“Facebook CTO Mike Schroepfer此前一直不同意成立AI實驗室，但事實顯示，AI對於Facebook未來發展越來越重要。”LeCun回憶說，“在去祖克柏家赴宴時，我和他詳談了AI的重要性。幸運的是，祖克柏當時也認為‘開放創新’應該成為Facebook發展的重點。”

“之後沒多久，FAIR就成立了。”

追趕深度學習

從成立之初，FAIR的定位便是一個負責研究技術的部門，其研究重點也大多聚焦在解決推理、預測、規劃、無監督學習等底層技術問題上。

當然，技術研發離不開人才，但Facebook於AI方面的積累幾乎為0。所幸，祖克柏肯投入，除LeCun外，5年時間裡，FAIR還相繼吸引來了包括VC維和SVM的締造者Vladimir Vapnik，提出隨機梯度下降法的Léon Bottou，做出高性能PHP虛擬機HHVM的Keith Adams、ICCV 2017最佳論文得主何凱明等在內的多位深度學習頂級專家，甚至還用7位數年薪與Deepmind展開了搶人大戰以及大力挖角微軟。截止到目前，FAIR的團隊規模就已擴大至了近200人。

如此大的人才投入下去，成果自然也不會少。

· Caffe2

沿襲Caffe的大量設計，2017年4月FAIR推出了兼具擴展性、高性能和便攜性的Caffe2，一個輕量化和模塊化的深度學習框架，可在移動設備上進行訓練和預測。

· PyTorch

2017 年初，FAIR發布了基於Python開發的PyTorch。因其集成了Caffe2和ONNX 的模塊化、面向生產的功能，提供從研究原型到生產部署的無縫路徑，並與雲服務和技術提供商進行深度集成，在GPU速度和記憶體使用率方面都極具優勢。

今年10 月，Facebook還舉辦了第一屆 PyTorch開發者大會，來自加州理工學院、FAIR、fast.ai、谷歌、微軟、NVIDIA、特斯拉等多位行業頂級專家均有參與。

· FastText

為了加快機器文本分類和學習速度，2016 年FAIR推出FastText，可對數十億個單詞量文本進行快速分類。截止到目前，FastText已經可以對157 種語言的文本進行分類，也被應用於諸如“消息回復建議”等的場景中。除此之外，FastText還和DeepText相結合，進行自然語言理解和翻譯。

· Fairseq機器翻譯模型

基於CNN，FAIR推出了集速度、準確性和學習能力為一體的NMT神經機器翻譯架構——Fairseq，其速度較谷歌的RNN提高了9倍。

而為了避免需要翻譯大量的數據集（通常稱為語料庫），FAIR在去年發布了MUSE，通過監督和無監督式學習的方式，學習和翻譯110種雙語詞典以及自我構建新的雙語詞典。

· bAbI

長期記憶能力不足是神經網絡的缺陷之一，為此，FAIR開發了一個支持記憶體網絡的機器學習模型，它能夠參考此前的對話內容做記憶性回答。比如，在學習了《魔界》這部電影的劇情後，其就能概括出故事的最後戒指是出現在了Mount Doom中。

而為了讓模型有足夠的數據學習，FAIR還構建了一個問答任務數據集——bAbI，包含數千個對話示例，可以提高模型理解文本的準確性。

· Mask R-CNN

作為一個以圖片分享為核心的社交平台，每天上傳至Facebook上的圖片數據量是極為龐大的。而為了在合適的時間為用戶展示合適的圖片，FAIR通過理解圖片中的不同部分的像素，以理解圖片的特殊含義，比如分析人手部動作的具體含義，實現影像實例分割。

目前，Mask R-CNN已被應用於檢測劣質內容等場景中。未來，Facebook還將會應用它為AR、智能相機等業務賦能。

5年堅持下的“煥新”

可以看到，5年時間，Facebook在AI，尤其是深度學習基礎技術研發上已初具規模。當然，任何高端技術在走出實驗室之前，都無法創造實際價值。為此，在FAIR技術成果轉化過程中，Facebook還成立了其第二大人工智能實驗室AML，旨在研究AI技術的具體應用。

一般而言，如這樣分成兩個部門應該存在著很大的溝通交流問題，不過很顯然，Facebook在這方面做的很好。所有來自FAIR的預測推理、視覺、語義理解技術都被廣泛應用到Facebook的各個產品中，如其圖片濾鏡已可以跟Snapchat媲美，不同用戶主頁News Feed上呈現的內容是由機器影像分析後決定的以及清除垃圾數據、內容及郵件翻譯、智能攝影監控、簡化版數字助理“M”等，都是AI賦能的結果。

而在Facebook近年大力發展的VR/AR業務方面，上述中多項技術都有所應用。甚至還有消息稱，Facebook內部已經在緊鑼密鼓的研發語音助理，代號為 “Aloha”。

可以說，AI已經成為了互聯網社交外，Facebook最核心的部分。從2014年開始，即便在今年遭遇重大數據洩露問題的情況下，F8大會再未出現停辦的情況，也或多或少都有較為亮眼的新產品或技術推出。Facebook也終於在2016年發布的“十年版圖”中，將AI、VR等技術放在了戰略核心的位置上。

就連那位此前一直反對成立人工智能實驗室的Mike Schroepfer也終於承認，“AI是Facebook未來三大重點發展領域之一，其余兩個是虛擬現實和讓更多的人連上網絡。”

就連LeCun都說，“在FAIR創辦之前，Facebook做的都是一些短期的工程項目，最長的項目周期也不過6個月。”由此可以期待，下一個5年，FAIR或許能給我們帶來更多的驚喜。