每日最新頭條.有趣資訊

用開源框架做生態地基,百度PaddlePaddle做對了什麽

今年3月,“深度學習三巨頭”Yoshua Bengio、Yann LeCun、Geoffrey Hinton獲得圖靈獎。他們被稱作“拯救了人工智能”的人,見證了深度學習一路走來的艱辛。

2005年前後,科學界幾乎已無人看好機器智能化的前景。“人工智能”似乎都已成為科幻的代名詞。但是,巨大的變革也正是在此時產生,而這一切,都是源於“深度學習”技術的出現。

“深度學習三巨頭”之一的Yoshua Bengio曾撰文所說:“深度學習徹底改變了人工智能的面貌,讓計算機視覺、語音識別、自然語言處理和機器人領域重新煥發生機。”

計算速度的大幅提升,以及海量帶標記數據集的出現,是深度學習技術獲得成功的關鍵;而深度學習框架的應運而生,讓研究人員和開發者可以更方便、快速的搭建自己的神經網絡,則是深度學習得以迅速助力行業產生落地應用的重要因素。

正如百度高級副總裁、深度學習技術及應用國家工程實驗室主任王海峰在首屆WAVE SUMMIT 2019深度學習開發者峰會上分享的觀點:“深度學習框架承上啟下,下接芯片、大型計算機系統,上承各種業務模型、行業應用,是智能時代的作業系統。”

人工智能領域的中美較量

在人工智能技術的發展方面,中國和美國的較量一直未曾停止。根據烏鎮智庫最新發布的數據,截至2018年,全球人工智能企業共計融資784.8億美元,其中美國373.6億美元,中國276.3億美元。排名第三的英國僅融資35.6億美元。中美兩國的領先優勢明顯。

對於人工智能的發展,技術研發是比拚的重中之重。從專利的角度,根據全球專利數據分析平台智慧芽(Patsnap)的數據,中國在機器學習方面的專利申請數量,已於2014年左右超過了美國,在計算機視覺方面更是遠遠趕超美國。

在深度學習框架方面,美國科技巨頭起步較早。2012年前後,Theano作為歷史上第一款深度學習框架,開創了深度學習的革命化先河。頂級科技巨頭如Google、Facebook、亞馬遜等,也紛紛推出自己的深度學習框架TensorFlow、PyTorch和MXNet.

而後的幾年中,不少深度學習框架紛紛經歷了輝煌和沒落。例如,基於Java和Scala的開源的分布式深度學習庫Deeplearning4J等,既無社區支持,又缺少像Python這樣強大的社區,只能默默發展。而最早期的Theano,則已經停止更新維護走向沒落了。

巨頭的支持對於深度學習框架尤為重要。當前全球排名最靠前的深度學習框架,背後都是頂級科技巨頭如Google、Facebook等,以及強大的社區支持。

中國的頭部科技公司在開源深度學習框架方面卻動作略慢一些。2016年下半年,百度開源了PaddlePaddle,成為首家也是目前國內唯一開源開放的深度學習框架,百度成為了國內趨勢的引領者。

PaddlePaddle:“國貨”當自強

PaddlePaddle源自於百度深度學習實驗室於2013年創建的內部工具“Paddle”,旨在為百度提供能夠支持多 GPU、多台機器並行計算的深度學習平台。

2016年下半年開源以來,PaddlePaddle一直在推動國內深度學習框架的發展。在剛剛舉辦的百度首屆WAVE SUMMIT 2019深度學習開發者峰會上,PaddlePaddle首次對外公布了自己的全景圖,使我們得以了解這一中國最具領先性的深度學習框架的發展進程和趨勢。

PaddlePaddle核心框架層面的發布,涵蓋了從開發、訓練到部署的一整套能力。在開發層面,PaddlePaddle已開源60多個經過真實業務場景驗證的官方模型,涵蓋視覺、NLP、推薦等 AI核心技術領域,成為官方支持模型最多的深度學習平台。

其中,首次發布的視頻識別工具集,為開發者提供解決視頻理解、視頻編輯、視頻生成等一系列任務。

而面向工業應用的中文 NLP 工具集 PaddleNLP,將自然語言處理領域的多種模型用一套共享骨架代碼實現,可減少開發者在開發過程中的重復工作。

依托於百度強大的中文能力,該工具的中文語義表示模型和基於用戶大數據訓練的應用任務模型可謂業內效果最好。

在訓練環節和部署環節,PaddlePaddle也進行了升級。例如,優化分布式IO增加了遠程文件系統流式讀取能力,GPU多機多卡同步訓練通過增加稀疏通信能力提升帶寬不敏感訓練能力,在低配網絡帶寬網絡環境下,例如10G網絡下,同步訓練可提速10倍。

在核心框架之外,百度同時提供一系列配套的工具和組件,方便開發者去使用PaddlePaddle。例如AutoDL Design、升級PARL,並首次提出並發布預訓練一站式管理工具PaddleHub。

技術之外,離不開生態和社區的支持。科技巨頭推出的深度學習框架的一大優勢,就是其有能力、資源建設社區,幫助開發者成長。

例如,百度此次發布了基於AI Studio的算力支持計劃,提供總計1億元免費算力,來破除算力桎梏,促進深度學習的發展。

該計劃支持免費使用工業級應用的一些旗艦型的GPU硬體,包括V100的卡,另外提供免費、免安裝的集成環境,讓開發者可以直接上手使用。

目前,在應用場景和產業落地方面,深度學習的產品還需要大量的試錯成本。科技巨頭提供的免費算力的支持,無疑將給予開發者大膽探索的信心。

這一計劃,不禁讓我們想到矽谷諸多科技巨頭在培育技術驅動類項目時候的做法。例如,Facebook在扶持Oculus的VR內容生態時投入的數億美元,這些錢激勵了VR內容生產者,使得VR硬體和軟體在技術和產品迭代上互相促進,同步發展,也為未來的市場增長奠定基礎。

由此可見,百度在深度學習架構領域的布局非常縝密,當技術前景越來越廣闊時,就進一步展現出了深度學習開發框架在產業關係中的戰略要衝地位。未來,借助深度學習,百度在AI方面的技術能力和未來TPU計算能力將有更多的發揮空間。

巨頭們紛紛開始調整架構,意味著深度學習正在走向系統化和專注化,在這個數據、感知與運算的深度纏繞的產業領域,開發以及開發者生態自然成為了產業活躍度的基石,這也決定了只有Google TensorFlow、Facebook PyTorch和百度 PaddlePaddle這樣的巨頭才能玩得起。

中美深度學習博弈:一場關乎未來的戰爭

深度學習技術平台一直是全球科技巨頭的部兵重鎮。中美兩國的深度學習框架產品,也各有特點。

國際科技巨頭的產品,例如谷歌的TendorFlow相對偏底層,使用較為複雜。從技術層面來看,與之相比,PaddlePaddle 更加貼近應用者,能讓開發者聚焦於構建深度學習模型的高層部分。

TensorFlow 裡需要數行代碼來實現的功能,可能在 PaddlePaddle 裡只需要一兩行。

很多開發者表示,百度的PaddlePaddle的代碼和設計更加簡潔,佔記憶體小,易學易用且高效靈活。

本土化則是PaddlePaddle的另一個特點。PaddlePaddle不僅中國本地化的文檔更加健全,支持團隊也更加完備與本地化。相對於TensorFlow等海外產品,其對中國的開發者來說無疑能夠提供巨大的支持。

此外,引領著產業互聯網的大潮,百度除了面向開發者的底層接口外,還提供了更多面向企業快速應用的高層封裝,使為企業提供服務的開發者能夠更加易於快速入門, 相比現在的諸多開源框架更接近應用層面。

從社區的層面來看,老牌的TensorFlow起步早,全球用戶基數大,社區或許相對領先一些。但是,PaddlePaddle的本土化特色,使其在中文社區影響力巨大。並且,在社區建設上,如上文所述,百度誠意滿滿,未來可期。

在今年3月Google的TensorFlow開發者峰會上,TensorFlow發布了兩門TensorFlow課程,顯示出TensorFlow對於社區和開發者教育的重視。但是,這兩門課全部是在線課程,在Google Colab平台和Udacity的平台上教授。

而在這個方面,百度PaddlePaddle可以說是線上、線下並行,對社區建設和開發者教育的重視和投入上,相比TensorFlow更勝一籌。針對開發者,百度不僅提供免費在線課程、免費算力支持,還不間斷舉行賽事活動,持續推動深度學習發展。

除了開發者,百度還針對AI企業開辦黃埔學院,計劃深度扶持1000家AI企業,並針對高校也提供了深度學習師資培訓項目。百度對於深度學習社區的建設,可以說是深入到了社會、產業的方方面面。

開源框架帶來雙贏,助力深度學習落地行業

圖:AI 將可能給各行業帶來的增量價值,自麥肯錫全球研究院《Notes from the AI frontier: AI frontier: Applications and value of deep learning》

深度學習正在給各行業的業務場景帶來改變和顛覆。根據全球頂級科技行業分析機構CBInsights最近發布的《2019年AI趨勢報告》,深度學習是當前絕大部分AI應用的引擎。

從行業採用度和市場優勢兩個分析維度來看,開源深度學習框架都是趨勢的核心,已具備極高的行業採用度,且市場會越來越大。

圖:CB Insights對於2019年人工智能發展的NExTT分析框架

CB Insights指出:“AI的進入門檻變得空前的低,這要感謝開源軟體。開源AI框架是雙贏的局面:一方面令人人都能用上AI;反過來,貢獻者社區也為加速Google等公司的AI研究提供了幫助。”

報告同樣分析了各行業採用深度學習框架的程度。可以看出,醫療影像與診斷、預測性維護(製造業)是當前採用度較高的行業。

那麽,深度學習框架是如何運用到真實的行業場景裡的呢?

以農業領域的森林蟲害防治為例。北京林業大學研發了面向信息素誘捕器的智能蟲情監測系統,研究對象是紅脂大小蠹。這套檢測系統的應用大幅降低蟲情監測的人力成本,以往人工檢測需要一周的工作量,現在用自動檢測一小時內就能處理完。

還有中科院遙感與數字地球研究所應用PaddlePaddle Faster R-CNN模型,結合特徵提取網絡VGG16及區域建議網絡(Region Proposal Network,RPN),以及融合attention機制的Deeplab v3網絡對遙感影像進行目標檢測與語義分割,從而實現對重大工程目標與建設用地變化圖斑的提取。

輔助國家進行重大工程用地擴張與變化情況的監測工作,並對土地資源的利用進行有效管理與控制。

寫在最後

從上世紀50年代人工智能成為一門科學到算法和算力成為不可承受之重,從本世紀初深度神經網絡技術使人們重燃希望再到人們對機器學習的興趣在過去十年經歷爆炸式發展,深度學習正在經歷它的高光時刻。

而站在又一次工業革命的轉捩點,深度學習開發者們需要的無疑是一個包容、開放的生態,這裡面有個性化的服務,也有完備的技術,還有人能分享自己的經驗,優化架構框架,從數據集特性、遷移學習、指標到可視化分析……更有發揮的空間,每一位開發者研究成果都能再次壯大這個生態。

幸運的是,這些事,百度正在做,並且做的很好。

更多精彩,敬請關注矽谷洞察官方網站(http://www.svinsight.com)

獲得更多的PTT最新消息
按讚加入粉絲團