7nm Vega20香歸香，但AMD需要的是新架構

雷鋒網消息，作為今天凌晨Next Horizon活動的一部分，AMD正式公布了基於7nm Vega20 GPU的兩款加速卡，分別為Radeon Instinct MI60和Radeon Instinct MI50，主要針對企業加速器市場，AMD希望在從HPC到機器學習的各個方面顯著提高其性能競爭力。

這兩款加速卡都是基於AMD的7nm Vega20 GPU，儘管我們此前已經得知了如Vega20基於第5代GCN架構、是AMD現有Vega10架構的改進版本等部分消息，但此次Next Horizon活動上AMD再次公布了其他一些細節。

從芯片的功能模塊而言，7nm Vega20實際上與現有的14nm Vega 10 GPU非常接近，它們都具有64個CU（4096流處理器），都使用HBM2顯存。Vega20的核心頻率為1800MHz，單精度浮點（FP32）性能為14.7TFlops，半精度浮點（FP16）性能為29.5TFlpos。

二者的差異主要在於額外的加速器功能，AMD為Vega20增加了加速器市場所必需的以計算為中心的功能。在加速器功能方面，Vega20 GPU以及MI60/MI50加速卡在幾個關鍵領域上與Vega 10及MI25不同， Vega20的雙精度浮點運算性能是單精度浮點的一半，為7.4TFlops，而Vega 10只有1/16。

此外Vega20也支持INT8和INT4等對於機器學習推理特別有用的低精度數據類型，其INT8性能是FP16性能的2倍，為58.9Tops，INT4性能是FP16性能的4倍，達到118Tops。不過從AMD的演示中尚無法弄清這些新數據類型的靈活性以及它們可以使用的指令，這對於理解新GPU的全部功能非常重要。

AMD還增強了Vega20的顯存系統，為GPU增加了另外一對HBM2顯存控制器，顯存位寬恢復至Fiji時代的4096bit，同時顯存頻率也提升到2Gbps，使GPU的顯存帶寬達到1TB/s，這甚至超過了NVIDIA旗艦產品GV100 GPU，為AMD帶來了優勢。

同時由於這是一款專注於企業的GPU，它提供了端到端的ECC校驗能力以及可靠性、可訪問性和可維護性（RAS）技術，這對於大規模HPC計算結果的準確性至關重要，也標誌著AMD GPU幾年來首次提供完整的ECC支持。

另外雷鋒網了解到，Vega20還支持AMD MxGPU技術，這是業界唯一基於硬體的GPU虛擬化解決方案，基於行業標準的SR-IOV（單根I/O虛擬化）技術，使黑客難以進行硬體級別的攻擊，有助於為虛擬化雲部署提供安全性。

在PCI-E通道方面，AMD已經透露Vega20支持最新的PCI-E 4.0標準，在同為x16配置下帶寬可比PCI-E 3.0提升一倍，達到32GB/s。除此之外，AMD還為Vega20設計了一對片外Infinity Fabric鏈路，允許Radeon Instinct卡通過相乾鏈路直接相互連接，每條鏈路均為100GB/s的全雙工帶寬。

值得注意的是，由於每個GPU只有2條鏈路，因此AMD的拓撲選項僅限於環上的變化，4路配置的GPU不能全部直接相互通信。另外，AMD仍堅持使用PCI-E顯卡的形式，沒有像NVIDIA一樣的定製夾層式卡，所以這些卡需要通過頂部的橋接器連接。

得益於7nm工藝，雖然Vega20集成了132.2億晶體管，比目前Vega10的125億個晶體管增加了6.4％，但面積僅為331 mm?，反而要比Vega10的484 mm?要小很多。MI60和MI50的TDP均為300瓦，在同等功耗下的性能提升超過25％，同等頻率下功耗降低50％，不過AMD表示新計算卡的真正威力在於它們的新功能，而不是與現有MI25計算卡競逐傳統FP16/FP32算力。

“傳統的GPU架構限制了人們處理和分析現代雲數據中心不斷變化的巨大數據集的需求。”AMD Radeon技術集團工程高級副總裁David Wang說，“AMD全新Radeon Instinct加速卡結合了世界頂尖的性能和靈活性，配合業界領先的開放式軟體生態系統ROCm，將助力於解決當今和未來最困難的雲計算挑戰。”

AMD一並公布了用於加速計算的全新ROCm 2.0開放軟體平台，專為大規模集群而設計，允許用戶在開放環境中部署高性能、高能效的異構計算系統。除了支持新的Radeon Instinct 加速器和AMD Infinity Fabric Link GPU互連技術外，還為新的DLOPS提供了更新的數學庫；支持CentOS、RHEL和Ubuntu等64位Linux作業系統；支持TensorFlow 1.11和PyTorch（Caffe2）等最流行的深度學習框架的最新版本。

谷歌TensorFlow的工程總監Rajat Monga說：“谷歌相信開源對每個人都有好處，我們已經看到它對開源機器學習技術有多大幫助，很高興看到AMD接受它。通過ROCm開放軟體平台，TensorFlow用戶將受益於GPU加速和更強大的開源機器學習生態系統。”

回想此前的Vega10，在與上代Fiji架構同為4096流處理器的情況下，顯存從4096bit反砍一刀降至2048bit，晶體管數量從89億暴增至125億，但其對應的遊戲顯卡Vega 64居然打不過僅有72億晶體管的GP104核心（GTX1080），同頻效能相比Fiji核心的Fury X甚至毫無提升，使得許多人戲稱AMD“在Vega10裡塞了36億電爐絲”。

雷鋒網認為，AMD此次公布的Vega20雖然依然保持4096流處理器的規模，但補完了半速雙精度、INT8、INT4和ECC等HPC加速卡所需的關鍵元素，讓Vega20方才算是Vega架構初次顯露出其真正形態。

不過，AMD依然需要清晰的認識到，與在CPU領域同Intel的競爭一樣，NVIDIA的領先使其有能力從架構以及指令集等方面佔據優勢。近兩年來AMD在性能、功耗、面積三方面上一直無法兼顧，長期處於舍去其一再田忌賽馬的狀況中，Vega20所取得的進步成績完全吃的是7nm製程的紅利。

從目前展示的數據來看，Vega20的性能相比Vega10大約提升了20%，很可能依然不及NVIDIA上代16nm、120億晶體管的GP102核心（1080Ti），300瓦的TDP也不算低，唯一有明顯優勢的也就只有新製程帶來的面積縮減了。

反觀NVIDIA，在2014年半導體制程受困於28nm節點時，AMD的GPU止步不前，NVIDIA則拿出了堪稱黑科技的全新Maxwell架構。在晶體管數量從71億縮減至52億、流處理器從2880個減少至2048個、TDP從250瓦降低至165瓦的情況下，GM204核心的GTX980性能依然勝過了上代Kelper架構GK110核心的GTX780Ti，再次強調：二者同為28nm。

在NVIDIA如此恐怖的架構設計面前，AMD這樣依賴製程紅利不但不是長久之計，更不如說是無異於飲鴆止渴。如果AMD再繼續固守老舊的GCN架構修修補補，而不研發高能效的全新架構，一旦NVIDIA也使用了7nm工藝，完全可以如Intel一樣將AMD再次一招打回解放前。