每日最新頭條.有趣資訊

感謝美國政府,中國在下代超算中領先關鍵一步

日前,國防科技大學官方新聞宣布,由國防科技大學牽頭研製的“天河三號E級原型機系統”已在國家超級計算天津中心完成研製部署,並於22日順利通過項目課題驗收。未來2-3年內,國防科技大學團隊將打造出全自主的具有國際領先水準的新一代“天河三號”E級超級電腦。

E級超算,是指每秒鐘運算一百億億次的超級電腦。自從今年6月份美國SUMMIT超算超過中國的神威太湖之光,登頂全球最快超算TOP500榜單之後,中國,美國,日本和歐洲,這些在超算領域最為領先的國家和地區,紛紛加快了研製速度。其中,中美日三國最為領先,目前都計劃在2021年左右研發完畢,而歐洲的計劃則要落後幾年。

天河三號原型機打了誰的臉?

就在國防科技大學公布天河三號原型機進度之前一個禮拜,TOP500網站的總編輯發表了一篇典型西方視角的預測文章。文章總結了前一段時間全球超算領域最大的三個新聞,一個是日本富士通公司開發Post-K(後京級)超算的進度,一個是美國SUMMIT系統重新奪回TOP500榜單的冠軍,第三個居然是引述中國的一位參加E級超算的學者的話稱:中國的超算計劃需要推後大約一年,從領先美日約一年推後到和美日同一年完成。而TOP500總編輯給出的理由是:中國需要從三種國產CPU之中選出一種,需要做更加詳盡的評估,所以才需要推遲。文章中提到的中國的三種國產CPU是:上海高性能集成電路設計中心的申威系列,由國防科技大學創業公司飛騰公司生產的ARM架構的飛騰系列,以及天津海光公司依靠美國AMD公司授權,使用ZEN內核的X86架構處理器。

但TOP500總編輯沒有意識到,中國在超級電腦項目的研發上從來都是多種方案齊頭並進,互為備份,以降低風險的。並不存在需要從三種國產CPU種選出一種再進行研發的慣例。

實際上,中國目前正在進行的E級超算項目有三個:

天河三號

2018年5月19日,國家超算天津中心展示了天河三號原型機,預計在2018年底投入使用,而根據國防科大日前的這則新聞,實際上目前的進度已經提前。天河三號的全配置主機計劃在2020年投入使用,性能計劃為1EFlops. 天河三號將使用飛騰FT2000plus或者後續型號的CPU,以及國防科技大學的Matrix2000plus或者後續型號的加速器。 

神威E級

2018年7月神威E級原型機落戶於國家超算濟南中心,還需要三年左右的研發時間,將在2021年正式投入使用。神威的CPU肯定是申威系列的最新型號,加速器可能也會採用Matrix2000plus或者其後續型號。

曙光E級

2016年7月4日,中科曙光在其舉辦的“2016中科曙光技術創新大會(IDIC2016)”上宣布,由其牽頭的E級超算原型系統項目正式發布,在核心技術方面,曙光介紹了超融合自適應並行處理體系結構(HCAPP)和全浸沒式相變液冷技術(整台超算浸沒在冷卻液中),但對於所採用的CPU和加速器並沒有更多消息透露。外界猜測曙光可能會採用中科院體系內研發的CPU和加速器(比如龍芯系列)。曙光E級的最終部署時間也將會在2020年以後。

但是,天河三號原型機的出現,被打臉得最狠的並不是TOP500總編輯,而是美國政府。

事情要從天河三號的上一代機型,天河2號說起。天河系列超算,從天河1號開始就一直使用美國公司製造的CPU和加速器芯片。比如,天河2號使用Intel Xeon E5 CPU和Intel Xeon Phi加速器芯片,而天河2A仍然使用Intel Xeon E5 CPU,加速器芯片換成了國產Matrix2000。最重要的是,天河2號從2013年6月登頂TOP500排行榜,成為世界上運算速度最快的超算,一直到2016年6月讓位於神威太湖之光,整整“霸榜”了三年之久,美國的面子掛不住了。於是在2015年4月9日,美國商務部宣布對中國的四家超算機構禁運Intel的至強Xeon處理器和Xeon Phi加速器。受到禁運的四家中國機構是:國家超級計算長沙中心,國家超級計算廣州中心,國家超級計算天津中心和國防科技大學。對中國其他企業和機構沒有禁運。

天河三號將成為“爭氣機”

美國不是禁運嗎?那好,天河三號從CPU(飛騰),到加速器芯片(Matrix2000plus),到互聯接口芯片,路由芯片,全都採用國產貨;新型的計算處理、高速互連、並行存儲、服務處理、監控診斷、基礎架構等硬體分系統全都是國產原創設計;系統操作、並行開發、應用支撐和綜合管理等軟體分系統全面國產可控。而天河三號將要和美國的Aurora超算,作為人類第一批E級超算,爭奪TOP500的冠軍。這個臉打得狠不狠?(實際上在美國禁運之後,使用國產申威CPU的神威太湖之光又“霸榜”了兩年,直到上個月才讓位於美國的SUMMIT超算,也夠打臉的了)

美國更是搬起石頭砸了自己的腳

目前TOP500排名第一的美國SUMMIT超算的運算速度約為每秒12億億次,約為E級超算的12%。SUMMIT系統的更新太空有限。

美國的第一台E級超算名為Aurora (原計劃運算速度為18.5億億次), 將安裝在Argonne 國家實驗室,原計劃在2018年底投入使用,後被推遲到2021年投入使用,性能也將提升到(1E Flops,即100億億次)。戲劇性的是Aurora被推遲的原因:由於其原計劃使用Intel Xeon CPU和Xeon Phi加速器,其中Intel 的Xeon Phi加速器已經在2017年8月停產,而基於10nm製程工藝的下一代Xeon Phi加速器,Intel目前還根本沒有計劃。

那麽Intel為什麽停產Xeon Phi加速器?我們可以來列一列事實:

中國的天河2號分別使用了3.2萬顆Xeon E5 CPU和4.8萬顆Xeon Phi加速器。

對於Xeon Phi的銷量,Intel曾表示過2016年的目標是10萬顆出貨量。

可見,單單我國的天河2號就達到了Intel約一半的Xeon Phi銷量。

2015年4月9日,美國商務部宣布對中國的四家超算機構禁運Intel的至強Xeon處理器和Xeon Phi加速器。

2016年6月18日,Xeon Phi 7290/7250加速器價格直接腰斬。到2017年8月24日,Intel 宣布Xeon Phi 7200系列協處理器加速卡進入停產退市進程。

筆者毫不懷疑,Intel停產Xeon Phi產品線的重要原因之一是失去了中國超算的市場。

美國真是搬起石頭砸了自己的腳。Aurora未來的技術方案還有待觀察。

未來E級超算的競爭,也是核心處理器的競爭

美國的SUMMIT系統使用的是IBM Power9處理器和Nvidia Tesla加速器。第一台E級超算的處理器和加速器方案還有待觀察。

日本的第一台E級超算將是富士通公司的Post-K系統,使用富士通公司設計的ARM眾核處理器。

歐洲國家也為下一代超算在開發國產的處理器,基於ARM架構和RISC-V架構。這項工作的推動力量是歐洲處理器計劃(EPI)。該計劃是一個大型計劃的一部分,目標是發展不依賴於美國芯片製造商的超算製造能力,尤其是要擺脫對Intel, AMD,Nvidia和IBM的依賴。EPI計劃最近開始實施,目標是在2020年前製造出pre-E級的處理器版本。

需要指出的是,歐洲和日本的半導體企業均沒有目前最先進的半導體制程技術。全球邏輯器件(不包括閃存和記憶體)的最先進製程工藝掌握在四家企業手中:台灣的台積電,韓國的三星,美國的Intel和 Global Foundries. 這四家企業的邏輯器件製程工藝已經在向10納米以下發展。而歐洲和日本的半導體企業生產邏輯器件的製程工藝目前還停留在28納米以上。這意味著,歐洲和日本公司設計的先進處理器,他們自己也製造不了,必須由台積電,三星或者Global Foundries代工。

值得欣慰的是,中國的中芯國際正在向14納米的製程工藝進軍,將於2019年上半年量產。這意味著我國的超算芯片將會使用14納米的工藝(之前的申威,飛騰CPU和Matrix2000加速器均由國產28納米以上的工藝生產,或者由海外企業代工生產),我國超算芯片的性能將會迎來一次飛躍。

對於關注超算領域的人來說,2020年和2021年將會是非常熱鬧的兩年。我們將目睹人類首批E級超算投入使用。而在這場競賽中,中國的超算將是第一名的最有力的競爭者。

獲得更多的PTT最新消息
按讚加入粉絲團