眼看AMD率先踏入7nm時代，英特爾想必很難受

當地時間11月6日上午9點，北京時間11月7日凌晨1點，AMD在美國舊金山召開Next Horizon技術大會。會上AMD首次公開展示了下一代基於7nm生產工藝的EPYC（霄龍）伺服器處理器（代號：Rome），同時還推出了同樣基於7nm生產工藝的AMD Radeon Instinct MI60圖形加速卡。此外，雲平台翹楚AWS也參加此次活動，並宣布在其最受歡迎的EC2裡推出三款採用AMD EPYC（霄龍）的實例系列。

▲AMD總裁兼首席執行官蘇姿豐博士在現場展示了代號為Rome的EPYC（霄龍）處理器

▲AMD Radeon技術事業部研發高級副總裁David Wang手上拿的正是基於7nm生產工藝的AMD Radeon Instinct MI60圖形加速卡

全新AMD計算架構

在本次技術大會上，AMD首次詳細介紹了即將推出的“Zen 2”高性能x86 CPU。該模塊化系統設計採用AMD Infinity Fabric互聯的增強版本，在單個處理器封裝內鏈接多片獨立的矽晶片（“chiplets”）。得益於先進的製造工藝，這種多芯處理器的“Zen 2”CPU核心採用7nm生產工藝，而芯片的I/O部分則採用業已嫻熟的14nm生產工藝，從而可以獲得更高的性能——在同等功耗下擁有更多的CPU核心；而與傳統的單片設計相比，生產成本又更低。對於為何芯片的I/O部分會採用14nm生產工藝，而非7nm，AMD給出的解釋是：I/O部分採用7nm生產工藝並不會明顯縮小芯片面積，並且成本相比採用14nm生產工藝要更加昂貴。

▲採用7nm生產工藝的處理器將會擁有更高的晶體管密度，功耗降低一半，並且在同等功耗下的性能提升超過25％。

▲“Zen 2”CPU核心採用7nm生產工藝，而芯片的I/O部分則採用業已嫻熟的14nm生產工藝

得益於全新的設計方法與來自台積電的7nm生產工藝，Zen 2在性能、電量消耗和密度上擁有巨大提升，並且有助於降低數據中心的運營成本、碳足跡和散熱需求。除此之外，Zen 2還擁有以下幾個提點：1、更優良的執行流水線，給計算引擎帶來更高的效率；2、前後端改進 ——更優良的分支預測器，更出色的指令預取，重新優化的指令緩存和更大的運行緩存；3、浮點增強 – 浮點寬度翻倍，增至256 bit，載入/存儲帶寬翻倍，增加了分發/收回帶寬，所有模式都能夠保持高吞吐量；4、領先的安全性 – 硬體增強的Spectre（幽靈）漏洞修複，採用軟體遷移並強化在設計中，同時增加了記憶體加密的靈活性。

▲Zen 2架構採用多種全新的前端設計，例如：擁有更優良的分支預測器，更出色的指令預取，重新優化的指令緩存和更大的運行緩存。

▲Zen 2的浮點寬度增至256 bit，並且載入/存儲帶寬翻倍。

▲除了Zen 2之外，AMD在此次技術大會上還提到基於7nm+的Zen3和Zen 4這兩個x86核心架構也都在按計劃推進。

AMD EPYC （霄龍）伺服器CPU的新動態

AWS計算服務副總裁Matt Garman 參會並登台宣布首批基於AMD EPYC（霄龍）處理器的Amazon Elastic Compute Cloud（EC2）雲實例立即上線。作為最受歡迎的AWS雲實例系列的一部分，由全新AMD EPYC（霄龍）處理器驅動的新服務具有行業領先的核心密度和記憶體帶寬，從而給通用型和記憶體優化型的工作負載帶來超高的每美元性能。

AMD EPYC（霄龍）處理器的核心密度可以給M5a和T3a實例客戶提供計算、記憶體和網絡資源之間的平衡，滿足網頁和應用伺服器、企業應用後端伺服器以及測試/開發環境中應用無縫遷移的需要。對於R5a實例客戶來說，AMD EPYC（霄龍）處理器的記憶體帶寬優勢特別適合記憶體內的處理、數據挖掘和動態數據處理。

▲AWS計算服務副總裁Matt Garman 參會並登台宣布首批基於AMD EPYC（霄龍）處理器的Amazon Elastic Compute Cloud（EC2）雲實例立即上線。

在本次技術大會上，AMD還透露了其代號為“Rome”的下一代EPYC（霄龍）處理器的新細節，並帶來了性能預覽。首先下一代EPYC（霄龍）處理器擁有以下特點：1、處理器增強，包括最鋼彈64個Zen 2核心，更高的每周期指令和計算領先、I/O和記憶體帶寬。2、平台增強，包括行業首例支持PCIe 4.0 的x86伺服器處理器，每通道帶寬翻倍，顯著提升了數據中心加速器的性能。3、與當前的AMD EPYC（霄龍）處理器相比，每個插槽的計算性能提升為2倍，每個插槽的浮點性能則為當前的4倍。4、插槽與現在的AMD EPYC（霄龍）伺服器平台兼容。

▲下一代EPYC（霄龍）處理器單顆最多將會有64個Zen 2核心（128個邏輯核心），並且擁有更高的每周期指令和計算領先、I/O和記憶體帶寬。

▲採用Zen 2架構的下一代EPYC是行業首例支持PCIe 4.0 的x86伺服器處理器，其每通道帶寬翻倍，顯著提升了數據中心加速器的性能。

▲採用Zen 2架構的下一代EPYC處理器在性能上是第一代的兩倍，前者浮點性能是第一代的4倍！

在活動現場，AMD還用擁有一顆Rome EPYC的平台和擁有兩顆Intel Xeon Platinum 8180M的平台進行了對比（64核 VS. 56核）。在計算密集型的行業標準“C-Ray”測試中，擁有一顆Rome EPYC的平台耗時28.1秒完成測試，而擁有兩顆Intel Xeon Platinum 8180M的平台則耗時30.2秒，可見前者在性能表現上的確非常強勢。

▲擁有一顆Rome EPYC的平台在“C-Ray”測試中成功擊敗擁有兩顆Intel Xeon Platinum 8180M的平台

除此之外，Rome EPYC還是第一個支持PCIe 4.0的伺服器級處理器，它擁有128條PCIe 4.0通道，最多支持4TB多通道記憶體，而Intel Xeon Platinum 8180M則擁有96條PCIe 3.0通道，最高支持3TB多通道記憶體。

▲Rome EPYC和Intel Xeon Platinum 8180M的參數對比

值得一提的是，在本次技術大會上，AMD正式宣布EPYC霄龍伺服器正式登陸亞馬遜AWS，首批3款產品Amazon Elastic Compute Cloud（EC2）雲實例已經上線，這也是最受歡迎的AWS雲實例系列。另外，基於AMD的R5、M5實例也於今天在美國部分地區和亞太地區上線，並且很快也將會在更多地區延續上線。

▲AMD正式宣布EPYC霄龍伺服器正式登陸亞馬遜AWS

▲基於AMD的R5、M5實例也於今天在美國部分地區和亞太地區上線，並且很快也將會在更多地區延續上線。

全新的AMD數據中心顯卡

除了採用7nm生產工藝的處理器之外，AMD還在今天的技術大會上正式發布了全球首款基於7nm生產工藝的圖形加速卡——AMD Radeon Instinct MI60 and MI50，並計劃於今年第四季度上市。

▲AMD Radeon Instinct MI60

▲AMD Radeon Instinct MI50

AMD表示，7nm Vega核心集成了132億個晶體管，比目前的14nm Vega核心的125億個晶體管增加了6.4％，而前者的核心面積為331平方毫米，比14nm Vega核心的484平方毫米縮小了31.6％。此外，在同等功耗的情況下，7nm Vega核心的性能在14nm Vega核心的基礎上提升了超過25%；同等頻率下，前者功耗降低50%。

▲相比14nm Vega核心，7nm Vega核心在晶體管密度，性能以及功耗上的優勢比較明顯。

▲新的7nm Vega架構擁有靈活的高性能、目前世界上最快的FP64/FP32 PCI-E浮點性能、機器學習訓練和推理、領先的顯存和擴展性、唯一的硬體虛擬化、端到端的ECC糾錯保護。

兩塊加速卡的參數方面，AMD Radeon Instinct MI60集成了64個計算單元，擁有4096個流處理器，峰值整數性能可達INT4 118Tops、INT8 59Tops，峰值浮點性能可達FP16 29.5TFlops、FP32 14.7TFlops、FP64 7.4TFlops，顯存最多支持32GB HBM2，顯存帶寬達到1TB/s，TDP為300W。

而AMD Radeon Instinct MI50的性能則略遜一籌，它集成60個計算單元，擁有3840個流處理器。相比AMD Radeon Instinct MI60，前者性能降低約9.5%。此外，AMD Radeon Instinct MI50的顯存容量減少至16GB，TDP同樣是300W。

▲AMD Radeon Instinct MI60和MI50參數對比

從AMD在活動現場公布的數據來看，相比上一代MI25，最新的MI60核心在FP16浮點性能上快了20%，但其INT8、INT4整數性能則分別快了140％、380％。不僅如此，如果只是進行矩陣乘法運算，MI60只會比MI25快25%以上，但在Resnet-50這種特定應用中，MI60的性能表現則能達到MI25的2.8倍。

▲相比上一代MI25，最新的MI60核心在FP16浮點性能上快了20%，但其INT8、INT4整數性能則分別快了140％、380％。

▲如果只是進行矩陣乘法運算，MI60只會比MI25快25%以上，但在Resnet-50這種特定應用中，MI60的性能表現則能達到MI25的2.8倍。

▲由EYPC和AMD Radeon Instinct MI60組成的伺服器Demo

除了新硬體的發布，AMD還公布了ROCm 2.0，一款專為加速運算而生的開源軟體平台的新版本，包括了新的數學庫、更廣泛的軟體框架支持和優化的深度學習運行。ROCm 2.0也已針對Linux內核發行版進行了更新，將ROCm的可用性擴展至數以百萬的Linux開發人員和用戶。專為規模用戶而設計，ROCm使客戶可以在開放環境中部署高性能、高能效的異構計算系統。