性能媲美250台CPU伺服器，NVIDIADGX-1實力有多彪悍？

智東西（公眾號： zhidxcom）編 | 智東西內參

深度學習（DL）是人工智能（AI）的一個熱門研究領域。足夠多的例子證明，深度學習能夠發現高維數據中的複雜規律，可應用於科研、商業和軍事等領域。如今，深度學習正在攜手大數據、GPU計算共同引爆AI革命。

從打敗世界圍棋冠軍的AlphaGo開始，人工智能聲名鵲起，活躍在智慧醫療、自動駕駛、語音助手等諸多領域，逐漸浸入人們的生活。以智慧醫療為例，通過用海量來自行業的真實數據進行訓練，人工智能可以快速高效地完成症狀預判、預測潛在的藥物分子活性、癌症早篩等任務，真正惠及於民。

而做出這一切成就的前提是擁有海量的數據和強大的算力。過去的半導體行業依賴於摩爾定律的推動，而GPU的出現為AI計算帶來了新的動力。近十年來，GPU的長足發展，使之在通用計算方向擁有彪悍的數據處理能力，極大拓展了AI的應用範圍。

不過，構建一個AI平台不僅需要搭建包含許多GPU等硬體的伺服器，還有諸多挑戰：

1、深度學習需要用海量數據以更好的完成特徵提取，當數據量不斷增大，傳統硬體方案顯得力不從心。

2、深度學習在軟體設計方面耗費的實踐價值可達數十萬美元，而開源軟體需要數月時間才能變得穩定；

3、深度學習開發者需要方便易用的框架、庫、驅動程式等複雜組件；

4、深度學習在上述軟體堆棧方面需要大量的人才進行編寫和維護。

為應對這些挑戰，盡可能滿足開發者的需求，NVIDIA推出了其吞吐量可媲美250台CPU伺服器的深度學習超級電腦——NVIDIA DGX-1，專為深度學習和高性能計算而設計。

本期的智能內參，我們推薦NVIDIA搭載Tesla V100 GPU的NVIDIA DGX-1系統架構白皮書，結合DGX-1在具體行業的應用，解讀NVIDIADGX-1的系統架構、性能優勢，以及為相關AI企業和研究人員提供參考。

如果想查閱此白皮書《搭載Tesla V100 GPU的NVIDIA DGX-1系統架構》，可在智東西公眾號下載。

加速模型訓練的神器

人工智能（AI）可以是什麽？NVIDIA在其系列影片《我是人工智能》中說，AI是醫生，輔助Sigma Technologies 公司更早、更有效地檢測和識別肺癌；AI是可靠的司機，幫助卡車製造商 PACCAR 實現車隊的自動駕駛；AI是創作者，打造出從廣告片直到劇情片等一系列具有驚人創意和情感的藝術作品；AI是辛勤的農夫，助力收割機Agrobot，旨在革新農業的未來；AI也是保衛者，協助肯亞政府追蹤斑馬的行動軌跡以使其免遭滅絕。

NVIDIADGX-1超級電腦，能夠做到讓上述各行各業個開發者們均能方便快捷地享受到AI帶來的便利。

1、醫療行業

由美國麻省綜合醫院創立的機構CCDS的數據科學家擁有從全球各地不斷匯入的海量醫學影像，從16年12月收到第一代DGX-1 AI超級電腦開始，到現在CCDS已經開發出數十種深度學習訓練算法，在放射學、心髒病學、眼科學、皮膚病學和精神病學等領域開展工作。

DGX系統協助CCDS數據科學家執行各種AI研究計劃

將龐大的並行計算陣列引入臨床設備非常困難，但NVIDIA Tesla系列GPU的強大算力使得緊湊的並行計算模塊成為可能。在GPU上運行2001年研究所用的數據集時，其系統性能可以提升到每秒13至14幀。據該小組研究，NVIDIA的GPU比當時最新多核CPU至少快了70倍，而且對於較大規模的體紋理數據性能更為突出。

2、轉舵AI的汽車行業

自動駕駛技術以超越人類的準確度和即時決策能力，有望改變人類旅行、貨物運輸以及城市設計，其市場2025年的估值為400億美元，商機相當龐大。

自動駕駛需要高性能、低能耗的 AI 運算硬體。而為自動駕駛汽車提供高度精確感知系統的關鍵是快速開發和訓練深度神經網絡模型，以迅速收集和處理資訊，即時決策來規避安全風險。

由沃爾沃汽車和供應商 Autoliv 共同創立的合資企業Zenuity擁有豐富的深度學習經驗，Zenuity清楚地知道，要處理指數級增長的感測數據，深度學習訓練平台不僅需要具有突破性的性能，還要能讓研究人員迅速測試模型，縮短開發周期，避免把時間浪費在設計打造軟硬體以及排查故障上。

最終，Zenuity選擇了DGX-1深度學習平台，Zenuity深度學習部門經理Benny Nilsson 表示：“DGX-1無疑是AI和深度學習領域的黃金標準”。

Zenuity自動駕駛汽車

3、實時影片檢測與分析

深度學習技術的興起，也為影片內容分析提供了新的途徑。目前深度學習計算框架更多運行在單個節點上，多節點之間的擴展性較差，深度學習模型主要依賴於單精度運算，可在有限空間中承載更大的模型。而NVIDIA DGX-1的強悍參數使它足以勝任龐大的深度學習任務。

中科院自動化研究所模式識別國家重點實驗室也利用NVIDIA DGX-1來為實現實時的影片超分辨率而提速。所謂影片超分辨率，即是從低分辨率影片中恢復高分辨率影片，相比基於CPU的計算，DGX-1將速度提升超過50倍，並達到實時處理的效果。

中科院自動化研究所模式識別國家重點實驗室的影片超分辨率研究

4、網易全產業鏈AI

受益於DGX-1的性能優勢，網易得以更快、更準確的訓練模型，優化翻譯引擎的響應速度，支持智能化服務新玩法的落地。未來，除了音樂和遊戲業務外，網易在包括雲計算、教育、新聞、電商等全產業鏈業務都將加持AI技術。

網易感知與智能中心的技術專家劉東認為，中心大量使用GPU來進行深度學習訓練，DGX-1帶來主要的好處是加速模型訓練，此前在單節點上進行中等規模的數據集訓練可能需要1個月的時間，現在使用DGX-1大約7-10天就會有結果，也就是說能試驗更多的算法，產品更新也會更快。

高性能背後的秘密，DGX-1系統組件詳解

前面說了那麽多NVIDIA DGX-1深度學習超級電腦的應用，它為何有如此強大的算力呢？

顧名思義，DGX-1是一個專為深度學習打造的集成系統，能夠為幾百上千層神經網絡提供高性能計算（HPC）能力。

在DGX-1問世時，NVIDIA創始人兼CEO黃仁勳曾說過，3000人花了3年才研發出這樣一款深度學習超級電腦，足見其研發難度之高。

每台DGX-1配有8塊NVIDIA Tesla系列V100 GPU加速器，其性能相當於250台傳統CPU伺服器，其使用的高性能NVLink GPU互聯技術大大提高深度學習訓練的擴展性。

搭載V100的DGX-1系統組件

搭載Tesla V100的NVIDIA DGX-1主要有如下幾個組件：

1、 NVIDIA Tesla V100

Tesla V100是NVIDIA最新款加速器，Volta架構是NVIDIA第一款專為AI打造的Tensor核心技術的GPU架構，為DGX-1提供了更高的AI和HPC計算能力。每個V100加速器配有的GV100 GPU包含80個流多元處理器（SM）。

Tesla V100加速器

2、NVIDIA NVLink技術

每個Tesla V100擁有6個NVLink連接，分別具有50GB/秒的雙向帶寬，雙向總帶寬每秒達300GB。當擴展到所有8個GPU時，NVLink的優勢最大，其總體性能優勢比PCle高出約30%。

3、雙路Intel Xeon CPU

DGX-1內置了兩塊CPU，用於開機、存儲空間管理和深度學習機構協調。

4、QUAD EDR IB

DGX-1配有4個QUAD EDR IB（擴展數據速率InfiniBand）端口，兼具高頻帶寬與低延遲特性，總雙向通信傳輸速率達到每秒800GB。

5、三個機架部門的封閉式設計

為了節省電量，DGX-1採用三個機架部門的封閉式設計，可置入精巧的機架空間。

DGX-1的亮點黑科技

除了擁有出色的硬體設計外，DGX-1還擁有專門針對深度學習的系統軟體和強大軟體庫，經過和NVLink以及8個GPU的配合，DGX-1能為生產和研究領域提供靈活的深度學習應用開發和部署平台。

借助集成的NVIDIA深度學習軟體堆棧和DGX-1雲管理服務，DGX-1可以在短短一天的時間開始深度學習任務，同時將設定工作減至最少，使得用戶無需花費數月的時間來集成、配置和排除硬體軟體故障。

這裡，我們將詳解Tesla V100採用的NVLink技術和 DGX-1 軟體兩大亮點。

1、NVLink

考慮到通信運營成本較高，開發者必須通過計算重疊數據傳輸或通過 PCIe 互聯仔細編排GPU 訪問以大幅提升性能。隨著GPU 運行速度越來越快，以及GPU/CPU 比率不斷攀升，更高性能的GPU 互聯技術為用戶提供了更靈活的通信調度，亦需要其來正確平衡更高的GPU 吞吐量。這項挑戰促使了NVLink 高速互聯技術的問世。

NVLink是NVIDIA打造的世界上第一個靈活可擴展的高速GPU互連方案，該技術可實現NVIDIA GPU 與同代GPU 或支持NVLink 的CPU 以及節點內其他設備之間的連接。

NVLink 使用NVIDIA 全新高速信號互聯技術(NVHS)。NVHS 通過差分對傳輸數據，速率鋼彈25 Gb/ 秒。其中8 個差分連接組成“ 子鏈路” (子鏈路負責一個方向的數據傳輸)，兩個子鏈路(一個子鏈路對應一個方向)組成一個“ 鏈路” (一個鏈路可連接兩個處理器，如GPU 到GPU 或 GPU到CPU)。單個鏈路支持端點間鋼彈50 GB/ 秒的雙向帶寬。多個鏈路可整合至一起，以實現處理器間更高的帶寬。Tesla V100 採用的NVLink 可支持多達6 個鏈路，實現理論上的最大雙向總帶寬，即300 GB/ 秒。

DGX-1採用8-GPU的混合立體互聯網絡拓撲

2、DGX-1軟體

目前已有可以大規模運行深度學習的DGX-1 軟體。其主要目標是讓從業者能夠在DGX-1 上部署深度學習框架和應用程式，同時將設定工作減至最少。該平台軟體的設計理念為最大限度地減少伺服器上安裝的作業系統和驅動程式，並通過由NVIDIA 維護的DGX Container 注冊表在Docker容器內配置全部應用程式和SDK 軟體。DGX-1 的可用容器包括多個經優化的深度學習框架、第三方加速解決方案及NVIDIA CUDA 工具包。

DGX-1深度學習軟體堆棧

此軟體架構具有很多優勢：

（1）每個深度學習框架都位於單獨的容器內，所以每個框架都能使用不同版本的庫。

（2）系統易於維護，且由於應用程式並非直接安裝於作業系統上，所以作業系統鏡像非常乾淨。

（3）可無縫提供安全更新、驅動程式更新及作業系統補丁。

智東西認為，在深度學習蓬勃發展的今日，NVIDIA專為深度學習打造的超級電腦DGX-1可以說是應運而生。DGX-1不僅是一個硬體強大的超級電腦，更是深度學習應用的綜合解決方案平台，為開發者提供了強大的開發工具，大大降低開發門檻。

DGX-1適用於數據中心環境的大規模部署。它可以為深度學習任務帶來驚人的運算力，強力地推動人工智能或深度學習的發展，能夠在智慧醫療、金融等諸多領域大顯身手，引領人工智能的浪潮。

如今，智慧醫療、科學計算等行業的一些公司或研究機構已經成為了DGX-1的用戶，這也反映出了這些行業對算力的迫切需求，未來，隨著深度學習的快速普及，行業對DGX-1這類的AI超級電腦的需求會更加強烈。