每日最新頭條.有趣資訊

百度用實踐告訴你,AI+5G時代的基礎架構是怎樣

中新網5月8日電 “未來,AI無處不在,基礎架構‘無’影隨行。”5月6日,在第十屆全球軟體開發大會上,百度副總裁侯震宇發表題為《面向 AI 的基礎架構建設》的演講,分享AI發展對基礎架構的挑戰,以及百度在其中的實踐經驗及解決方案。

侯震宇於2003年加入百度,歷任新產品研發部架構師、基礎架構部主任架構師、百度移動雲首席架構師等職務,十幾年來始終致力於百度的基礎架構建設工作。

在演講中,侯震宇表示,AI是一次巨大的浪潮,在全球範圍內都帶來了巨大的市場機遇和發展潛力。包括Statista、前瞻產業研究院、中信證券等權威機構的調研數據表明,中國已成為全球第二大潛在的AI市場。用AI帶動互聯網行業技術創新、推動傳統產業升級轉型,將是中國AI界接下來面臨的一個巨大機遇和挑戰。

就百度而言,在AI+自動駕駛、AI+家居、AI+教育、AI+醫療、AI+安防等諸多業務場景中,百度已早早展開了探索。例如,百度Apollo已成為目前全球涵蓋產業最為豐富、最為全面的自動駕駛平台;小度助手則擁有中國市場規模最大、最繁榮、軟硬體一體化的對話式人工智能生態;百度推出的教育智能化解決方案,以百度積累的海量專業內容、精準用戶畫像為數據基礎,整合“ABC(AI, Big data, Cloud Computing)”三大關鍵技術,深入多個互動場景,打造“人工智能+教育”的智能教育模式,推動AI教育全面落地……這些都是百度推動AI技術快速落地、賦能傳統行業取得的成果。

為了支持AI時代的業務場景,百度構建了國內體系最完整、功能最全面的人工智能技術開放平台——百度大腦核心技術及開放平台,提供全棧、端到端、軟硬結合的AI技術、產品和方案,從深度學習框架、深度學習實訓平台、場景化AI能力、定製化訓練平台,到軟硬一體模組和解決方案等實現全面開放,加速創新AI產品落地,助力企業智能化轉型。百度大腦已對外開放了171項領先的AI能力,並通過百度智能雲,為互聯網、交通、工業、醫療、零售、金融等諸多行業賦能。

AI時代的基礎架構:無處不在的計算,無處不在的連接

從百度的AI實踐中可以看到,AI的發展會給基礎架構帶來了巨大的變化和挑戰,需要能夠從端到端來提供AI的計算能力,這就要求計算系統從舊有的對海量數據處理能力、對IO高峰值的追求,轉變為滿足AI訓練功能方面IO密集、計算密集、通信密集的需求,和AI推理功能方面大吞吐和低延遲的需求。

基於此,侯震宇認為,面對即將到來的AI+5G時代,無處不在的計算將是所有系統的靈魂。真正的計算會發生設備(Device)、邊緣(Edge)和雲(Cloud)中,因而D-E-C場景將會是接下來需要重點研究的問題;與此同時,包括芯片之間、系統之間、設備之間的互相連接,將幫助將不同場景中的計算連接在一起,產生更大的計算力,推動數據流動,創造出更大的價值。

從芯片、到集群系統、再到D-E-C,計算無處不在

面對D-E-C場景給計算帶來的挑戰,百度從芯片、集群系統等多個角度展開了探索。在芯片層面,侯震宇表示,過去,我們用DSL(Domain Specific Language)去針對某個領域,設計出一種表示語言,讓它能夠更好的描述在這個領域上的場景或數據特徵。未來更應該關注的是DSA(Domain Specific Architecture),即在特定領域場景裡架構體系。在這個大的思考下,百度設計出了昆侖芯片,目前昆侖芯片的記憶體帶寬已經達到512G,性能達到260Tops,通過應用定義、場景適配和模塊化設計,IP+芯片可覆蓋D-E-C場景,同時支持AI訓練和推理。

在集群系統層面,百度通過打造大規模AI計算集群系統,提供了百萬TOPS級算力。在這一系統中,百度自研超級AI計算平台X-MAN、高性能存儲池和高速互聯,共同構成了百度整體的基礎設施;通過計算優化、IO優化、通信優化,實現整體性能加速;集成層面,通過智能調度/ADP、AutoCompiler實現了作業調度和資源分配。

在芯片、基礎設施、性能優化之上,百度打造了國內唯一完整、全套的深度學習平台PaddlePaddle。PaddlePaddle包括核心框架、工具組件和服務平台三大部分。在核心框架層面,它可以提供開發、訓練和預測一整套的技術能力;在此之上,又提供了包括視覺、自然語言等在內的豐富模型,形成完整的模型庫,通過模塊化的方式提供給使用者,以及包括遷移學習、強化學習、自動化網絡結構設計、訓練可視化工具、彈性深度學習計算等在內的工具組件;而在服務平台層面,PaddlePaddle則提供了零基礎定製化訓練和服務平台EasyDL和一站式開發平台AI Studio。通過一整套的框架和服務,百度可以幫助廣大開發者和企業利用工具化、平台化的方式,降低深度學習應用門檻,加速推動產業智能化變革。

在計算需求的基礎上,百度還為AI場景設計了高性能共享存儲系統。通過計算與存儲硬體分離,實現彈性擴展;通過運用分布式塊存儲,軟硬結合,發揮新存儲和網絡技術優勢;通過共享存儲系統,針對AI場景海量小文件優化,支持數據共享訪問。

針對AI時代計算需求帶動的計算架構發展,侯震宇認為,在5G時代,整個D-E-C驅動的泛在計算架構已經基本成型,計算無處不在。有5G的強勁推動,在泛在計算架構中,計算從有邊界發展為無邊界;計算的中心化和去中心化實現了融合,轉變為分層次、一體化的計算;計算和網絡也實現了深度融合。

芯片互聯、系統互聯、數據中心互聯、5G邊緣互聯,連接無處不在

計算的無處不在的背後,真正可能會推動產生巨大變革的,往往是互聯技術。互聯讓計算連接起來,形成更大的計算力,推動數據流動,產生出更多的價值。因此,連接也無處不在。這個連接既涉及到芯片間的互聯、系統間的互聯,也涉及到數據中心內外部的互聯和5G終端邊緣上的互聯。

據侯震宇介紹,在芯片級系統內部,百度運用了NVLink、PCIe Fabric,以及昆侖芯片自己定義的芯片間互聯技術。此外,不久以前,百度宣布同微軟、Facebook展開合作,聯合制定OAM (OCP Accelerator Module) 標準。該標準用於指導AI硬體加速模塊和系統設計,也是用以實現更多芯片卡之間的互聯。

除了芯片間的互聯,百度在雲(Cloud)上,也就是數據中心內部,使用了ClosFabric網絡架構,實現了整個數據中心內部高速、無收斂比的互聯。同時,把整個基礎性資源,包括計算資源、存儲資源等全部區分開,提供CPU Memory池,以及更多的存儲池。通過前述的高速互聯,以及必要的安全隔離,實現了資源共享,從而提升了效率,使整個計算力變得更強大。因而一定意義上來說,網絡是真正基礎設施最底層的東西,使得基礎設施能夠面向更大型的AI計算。

而在5G時代背景下,從數據中心到邊緣節點,再到終端設備、應用場景,存在著從2毫秒到200毫秒不等的延時圈。基於這麽大的延時圈,百度通過不同的通信技術,如MEC計算節點、WiFiNode等,去實現更好的通信,支持智慧城市、智慧交通、智能家居等業務的發展。這些也是百度面對5G的浪潮,在基礎設施層面目前正在做和計劃在做的工作。

在演講的最後,侯震宇表示,在未來,計算無處不在,互聯無處不在,百度也將通過努力,讓AI無處不在。百度所構建的AI基礎架構,“無”影隨行。所謂“無”,就是讓所有的服務都以雲的形式、大平台的形式,無縫地對接給大家,從而以更加簡單、更加易用的方式,實現百度AI能力的普惠。

獲得更多的PTT最新消息
按讚加入粉絲團