每日最新頭條.有趣資訊

中國超級計算進擊史:1978年開始自研 作用堪比兩彈一星

一部“打破玻璃房”的歷程。

通透的玻璃房裡,放著一台從美國買來的超級計算機。房間鑰匙由美方人員保管,中國科學家經過授權才能進入玻璃房,並且得在美方監視下上機操作。

超級計算機運算的內容,必須經過美方允許。操作完成後,美方會馬上封鎖玻璃房。監控日誌還要定期上交給美國政府審查。

這是一段被中國超級計算機界頻頻提起的真實過往。

改革開放前後的中國,缺乏自研超級計算機的技術。為進行石油勘測,中國石油工業部花大價錢購買了一台 IBM 超級計算機。

花錢買得了設備,卻買不了技術。20 世紀 80 年代的西方國家正對中國進行高技術封鎖,其中就包括超級計算機。

美國雖然賣了超級計算機給中國,但依然嚴加監視以防核心技術泄密,因此就有了“玻璃房”的故事。

中國科學院院士、前國防科技大學校長楊學軍談起這段歷史時說:“這是中國科研工作者心中永遠的痛......就像農民自家沒糧,母親自己沒奶喂孩子。”後來中國大力支持自研超級計算機,國防科技大學是中堅力量,楊學軍成了超級計算機“天河一號”的總設計師。

顧名思義,超級計算機(又稱巨型機、高性能計算機)能一般個人電腦所不能。個人電腦通常是四核、六核或者八核處理器,而超級計算機聚集了數以千計萬計甚至更多的處理器,可處理大量的數據和高速運算。

眾所周知,“兩彈一星”是國家硬實力的體現,而超級計算機也是“兩彈一星”級別的國之重器。

上到軍用的模擬核試驗,下到民用的氣象預測,遠到太空探索,近到人類基因測序,都有巨大的計算量門檻,要想更快地得到計算結果,只能靠超級計算機。

美國是全球最早投入這個領域的的國家,自 20 世紀 50 年代後期起,就研發超級計算機以滿足國防和軍事需求。60-70 年代,全球的超級計算機行業基本由兩家美國公司主導。日本也不遑多讓,20 世紀 80 年代起大規模補貼超級計算機科研項目。

1993 年開始,美國田納西大學、德國曼海姆大學以及美國能源部的伯克利國家實驗室,每年都會發布兩次全球前 500 的超級計算機排名(TOP500)。發布時間一次在 6 月,一次在 11 月。

排名依據基準程序 LINPACK 測試值來進行。1993 年 6 月至 2010 年 11 月,TOP500 第一名都是美國和日本交替把持。

(表格來自 AMiner)

中國國家層面的超級計算機自研事業始於 1978。那年 3 月在全國科學技術大會上,鄧小平一句“中國要搞四個現代化,不能沒有巨型機”,開啟了自研超級計算機的歷史進程。

40 年間,國防科技大學的“銀河”與“天河”系列,中科曙光的“曙光”系列,聯想的“深騰”系列,以及無錫江南計算技術研究所的“神威”系列陸續登場,讓中國超級計算機事業從一片荒蕪走向與美日比肩。

從無到有的“爭氣機”

“我剛好 60 歲,就是豁出這條老命,也一定要把我國的巨型機搞出來。”

1978 年,國防科技大學接到了自研超級計算機的任務,當時任該大學計算機研究所所長的慈雲桂立下了軍令狀,“每秒一億次一次不少(運算速度 1 億次/秒),6 年時間一天不拖,預算經費一分不超”。

慈雲桂可謂中國計算機界的一代宗師。從電子管計算機到晶體管計算機,再到集成電路計算機,中國計算機每一次升級換代,他都是主要推手。

但超級計算機對他來說,依然是一座攀登難度極高的大山。1978 年,慈雲桂帶領團隊研製的通用計算機系統 151-4,運算速度不過每秒二百萬次,距離每秒一億次的超級計算機還有非常大的差距。

接到任務後,慈雲桂帶著團隊成立了十多個突破小組,“吃在工廠,睡在機房”。

研發過程中自然是問題頻出。團隊花幾個月做出來的方案,慈雲桂狠下心來一口否決了,帶著大家重新研製更加先進的總體方案。

冷液技術研發遇到困難,不得已採用容易操作的冷風技術。為了保證機器的穩定性和可靠性,團隊要對 2.5 萬條繞接線、12 萬個饒接點和200 多萬個焊點逐一檢查。

最終,慈雲桂團隊通過創造性地提出“雙向量陣列”結構,大大提高了機器的運算速度。不僅經費沒超,還提前一年完成了研製任務。

曾經指揮研究“兩彈一星”的國防部長張愛萍,給這台超級計算機起名為“銀河”。

(銀河-I,圖片來自新華社)

當時一位前政協副主席在聽完慈雲桂團隊匯報後說:“1930 年的紅軍打長沙是壯舉,50 年後,你們在長沙研製成功銀河-I 巨型計算機更是成功的壯舉。”

銀河-I 的誕生打破了西方大國在超級計算機上的技術封鎖,讓中國成為繼美國和日本後,世界上第 3 個可以自主研製超級計算機的國家。這台計算機也因此得一別名:“爭氣機”。

國家的意志

1983 年,除了銀河-I 的研製成功,還發生了兩件對中國超級計算機界影響深遠的事情。

一件是不起眼的小事:南京通信工程學院的大學生楊學軍,報考了國防科技大學研究生,投身於超級計算機的研究。

他的畢業論文是關於向量巨型機編譯技術,慈雲桂看了之後在論文旁邊寫:此人要想辦法留下來。

後來,楊學軍畢業留校,參與了銀河-II 的研製。銀河-Ⅲ 在 1994 年立項上⻢,年僅 31 歲的楊學軍被任命為總設計師。

再後來,他成了天河一號的總設計師,幫助中國第一次坐上最快超級計算機的寶座。

(左二為楊學軍)

另一件是影響全球格局的大事:任職三年的美國總統裡根,提出了“戰略防禦倡議”(SDI,又名“星際大戰”計劃)。

“星際大戰”計劃是冷戰的產物。裡根政府宣稱要改變同歸於盡(MAD)的核平衡戰略,轉而通過天基和地基系統,來防禦核武器的攻擊。

(1983 年裡根總統在電視演講星際大戰)

當時中國專家們普遍認為,“星際大戰”表面上是針對蘇聯的防禦計劃,但實質還有其他目的。

“(美國)試圖通過該計劃的實施,促進國防科技發展,進而帶動高新技術和國民經濟的全面振興,以確保美國在高科技領域獨佔鼇頭,最終達到搶佔21世紀戰略制高點的目的。” 時任航天部空間技術院科技委副主任的楊嘉墀說。

“星際大戰”計劃頒布後,不少國家和聯盟都跟進制定相應的政策:蘇聯和東歐集團制定了“科技進步綜合綱領”,日本提出“今後十年科學技術振興基本政策”,西歐 17 國聯合簽訂了“尤裡卡計劃”......

在這樣的大背景下,包括楊嘉墀在內的 4 位科學家上書鄧小平等中央領導人,建議“跟蹤世界戰略性高技術發展”。

鄧小平對該建議表示了支持,很快“高技術研究發展計劃”出爐。因為 4 位科學家上書和鄧小平同志批複時間都是 1986 年 3 月,所以該計劃又稱之為“863 計劃”。

863 計劃中,“智能計算機”被單獨列為一個主題項目(即 306 主題)。

“國家智能計算機研究開發中心”(以下簡稱智能中心)應運而生,並且選中了“中國科學院計算技術研究所”(以下簡稱中科院計算所)為依托部門。

創立於 1956 年的計算所,是中科院的王牌部隊。在這裡,誕生了中國第一台通用數字電子計算機,以及首枚通用 CPU 芯片。計算所還為 “兩彈一星” 成功上天完成了數據處理工作。

和國防科技大學一樣,中科院計算所後來也成為了中國超級計算機界的中流砥柱。從中科院計算所獨立出去的曙光,一直是 863 計劃 306 主題的主力。

自主研發深騰系列超級計算機的聯想,1984 年成立時也是計算所的班底。聯想最早的名字叫“計算所新技術發展公司”,其創始人柳傳志曾在計算所做了 13 年研究。就連參與神威系列研製的國家並行計算機工程技術研究中心,依托部門也是中科院計算所。

1990 年,智能中心正式成立。成立之初,它就面臨著發展戰略選擇的難題。

20 世紀 80 年代,世界興起人工智能熱的第二次高潮。當時,卡耐基梅隆大學設計了一個專家系統,每年可以為商業公司節省四千萬美元,引發許多國家和公司的跟進。

新算法(專家系統)對算力提出了新要求。在計算機專家淵一博的領導下,日本於 1982 年公布了“第五代計算機系統”十年研究計劃,希望研發出劃時代的超級計算機,讓機器能夠與人對話、翻譯語言、解釋圖像,並且像人一樣推理。

(日本第五代計算機系統概念圖)

“當時全世界正處於‘人工智能熱’的高潮,日本‘五代機’也好評如潮。在這樣的背景下,中國順勢而為走‘五代機’的路,看起來順理成章、無可非議。”306 主題專家組組長、中國工程院院士汪成為說。

事實上,306 主題的全稱“智能計算機”,正是起源於跟隨日本“五代機”的策略。

但在執行過程中 306 主題專家組發現,日本“五代機”主要目標是實現自然語言翻譯,這個方向並不是很適合當時中國的國情。同期美國的研發重點是個人電腦、高速工作站、超級計算機和互聯網,更具有借鑒意義。

專家組決定改變技術路線,負責這一主題的智能中心把研究方向從“智能計算機”調整為“高性能並行計算機系統”。

這一決定很快被驗證是正確的。專家系統存在的問題逐漸暴露出來:應用領域狹窄、知識獲取困難、維護費用居高不下......日本“五代機”計劃也隨之宣告失敗,人工智能進入第二次低谷。

計算的“曙光”

306 主題戰略轉移的決策,催生了曙光系列。曙光一號研發過程中,當時智能中心的主任李國傑主導了全新的技術路線和科研模式。

20 世紀 80 年代開始,李國傑就在從事計算機的並行處理研究。1981 他年出國攻讀博士學位,師從美國計算機權威華雲生教授。1986 年底回國後,一直在中國科學院計算所工作。

有留學經歷的李國傑,看到了中國研製超級計算機傳統路徑的不足。

長期以來,中國在封閉條件下研製計算機,採用分立元器件做主機板,一切從頭做起。研製周期短則 5-6 年,長則 7-8 年,往往機器研製出來就已經落後了,難以被市場所接受。

為了提高中國超級計算機的產品化和商品化程度,李國傑大膽開辟了新的路徑。技術上,他在國內首次採用大規模集成電路來研製並行計算機。計算機系統方面,他讓團隊在 UNIX 源代碼的基礎上,自行設計並行作業系統 SNIX。

科研模式上,李國傑派了一支 6 人小隊到美國矽谷。他把這種“借樹開花、借腹生子”的做法稱為“洋插隊”——利用國外協作配套完善的大環境,加速並行計算機的研製。

(曙光超級計算機研發現場,圖片來自科學報)

1993 年 10 月,曙光一號超級計算機誕生,峰值運算速度達每秒 6.4 億次,在多個技術上都取得了突破,比如採用全對稱共享存儲多處理結構、作業系統核心實現並行化。

而且,曙光一號投資少(直接研製經費只有 200 萬元)、研製周期短(從正式開發到成果鑒定只有一年半)、產品化程度高,與中國過去的超級計算機研製形成鮮明對比。1994 年,曙光一號被寫進了政府工作報告中。

1995 年,智能中心又推出了曙光 1000,實現了多個第一:第一台自研的大規模並行處理機結構的計算機,第一台實際運算速度突破每秒 10 億次大關的超級計算機,第一次獨立進入市場售賣。

過去幾十年間,中國超級計算機的研製生產都是為了滿足特殊部門的需要,以行政手段確定用戶推廣使用。曙光 1000 的研製推廣最開始也是政府行為。

但在經過產品化後,曙光天潮系列(含曙光 1000 和曙光 1000A)逐漸走上商品化銷售的道路。

1997 年,曙光天潮 1000A 落戶遼河油田。這是中國超級計算機第一次獨立進入市場,實現了國產超級計算機商品化零的突破,打破了進口產品對中國超級計算機市場的壟斷。

開篇提到的“玻璃房”故事,曙光用 1000A 為它畫上了句號。

(曙光 1000 大規模並行計算機系統)

為了更加適應市場需求,曙光於 1996 年獨立了出來,成立有限公司,李國傑任曙光公司董事長兼總經理,開啟了產業化的路程。

新公司選址時,李國傑要求離中科院計算所遠一點,以“斷掉”心理上的依賴。於是,曙光從計算所搬到了中關村水磨西街的四合院裡,緊挨著清華大學。

曙光獨立時,中國互聯網剛剛起步,但李國傑敏銳察覺到,互聯網大量的信息服務和數據處理需求,需要超級伺服器來滿足。

通常,超級計算機多用於科學工程計算,追求最高的計算速度。而超級伺服器是更加通用的高端計算機,除科學計算外,更多地用於事務處理與網絡服務。

於是,超級伺服器成為曙光一個重要的發展方向。

1998 年和 1999 年,曙光 2000-I 和曙光 2000-II 超級伺服器相繼推出,率先在中國研製成功大規模 UNIX 機群系統。

其中,曙光 2000-II 的峰值速度超過 1100 億次。有資料顯示,美國計算機界的權威學者來參觀曙光 2000-II 後,在向美國政府寫的報告中指出,中國高性能計算機研製已從落後走到非常接近西方的水準。

2000 年,曙光 3000 超級伺服器發布,峰值速度達每秒 4032 億次。這台超級伺服器在研製初期,就被北京華大基因研究中心“預訂”,在中國超級計算機史上創下先例。

(曙光 3000 超級伺服器)

曙光系列頻頻升級的同時,863 計劃在計算機系統研發方面的內涵也發生了變化。

1999 年至 2000 年間,863 計劃 306 主題進行重大課題“ 國家高性能計算環境” 。這意味著,不僅要研製超級計算機,還要用所研製的機器建立高性能計算環境,更好地支持高性能計算的應用。

每秒 4000 億次的曙光 3000 正是這一課題的成果之一。此外,課題還建立了 5 個高性能計算中心,以此構建起國家高性能計算環境。

2002 年,“ 十一五” 863計劃啟動了“ 高性能計算機及核心軟體” 重大專項,其主要任務是研製每秒 4 兆次的超級計算機,研究和突破網格關鍵技術。

863 計劃這兩次新動作,體現了中國打造超級計算機理念的變化:之前為缺乏超級計算機研製技術而補課,當下更加注重超級計算機資源的整合和應用。

相應地,超級計算機的研製模式也在改變。從“ 十五” 863計劃開始,超級計算機的研發打破了過去定向委託一家承擔的做法,引入了競爭機制。比如,研發 4 兆次超級計算機這一任務,同時落在了聯想和曙光上。

聯想第一台超級計算機是 2002 年研發成功的深騰 1800,峰值運算速度為 1 兆次。2003 年,聯想率先研製成功深騰 6800,峰值速度達 5.3 兆次,在 2003 年 11 月 TOP500 榜單中排第 14 位。

(聯想深騰 6800 超級計算機)

2004 年,曙光 4000A 也順利誕生,峰值速度可達 11.2 兆次。在 2004 年 6 月 TOP500 排名中,曙光 4000A 位列第十。這是 863 計劃研發的超級計算機首次進入世界前十。

(曙光 4000A)

中國超算的里程碑

2008 年對中國、對中國超級計算機界來說,都是一個非常重要的年份。

這一年,北京舉辦了奧運會。開幕式上,李寧腳踏“祥雲”在“空中跑道”奔跑時,一副中國式畫卷沿“空中跑道”展開。

這幅畫卷的數字影像正是由 233 兆次的曙光 5000A 計算而成的。

這台有著“魔術方塊”之稱的超級計算機,是當時除美國以外世界上最快的高性能計算機系統。但“魔術方塊”也僅是“十一五”863計劃的一個階段性成果。

2006 年,“十一五”863計劃設立了 “高效能計算機及網格服務環境” 重大項目,將研製千兆次高效能計算機列為主要目標之一。

“超級計算機的發展規律是每 10 年性能提高 1000 倍。2000 年的國際先進水準是 1 兆次,到 2010 年肯定會達到千兆次級。要佔領制高點,必須盡快開始研製千兆次計算機。” 上文提到的天河一號總設計師楊學軍說。

2004-2006 年間,中國最快的超級計算機曙光 4000A,運行速度只有 11.2 兆次。一步跨越到千兆次超級計算機不太實際。因此,千兆次超級計算機的研製分兩步走。

第一階段,曙光和聯想分別研究百兆次超級計算機,為千兆次超級計算機積累經驗。第二階段,中科院計算所和曙光、國防科技大學和浪潮、國家並行計算中心和無錫江南計算所分別研製千兆次超級計算機。

2008 年,233 兆次的曙光 5000A 和 157 兆次的深騰 7000 相繼登場。前者位在 TOP500 中排名 10,後者在 TOP500 中排名 19。

曙光 5000A 和深騰 7000 的誕生意味著,中國成為全球第二個有能力研製百兆超級計算機的國家。

但美國還是走得更快些,2008 年上半年 IBM 就推出了千兆次的走鵑,比楊學軍預測的 2010 年還要早。

第二階段的努力在 2009-2010 年間看到了成果。國防科技大學和浪潮聯合研製的千兆次超級計算機分兩期完成研製,2009 年誕生了天河一號,峰值運行速度 1206 兆次。

2010 年,第二期天河一號 A 研製成功。在 11 月的 TOP500 排名中,天河一號 A 以每秒 4700 兆次的峰值運行速度、2566 兆次持續運行速度值,把美國的橡樹嶺國家實驗室的美洲虎比了下去。

這是一個里程碑式的事件——中國自研的超級計算機,第一次在超級計算機 TOP500 榜單中名列第一。

天河一號還在國際上帶起了一個新的超級計算機體系結構。

傳統構建超級計算機的方法是集成更多的 CPU,但增加 CPU 數量受到功耗、佔地面積、系統可靠性方面的限制。

“按傳統方法構建一台每秒百億億次超級計算機,需要佔地 1.3 萬平方米,將近兩個足球場那麽大;需要用電 320 兆瓦,相當於一個大中型城市的用電量”。

天河一號總設計師楊學軍沒有沿用傳統方法,而是率先採用了 CPU+GPU 異構融合的體系結構,第一次從工程實現上證明了 GPU 可以被用於超級計算機。

由於這種結構能耗低、成本低、集成度高,很快國際上就掀起了一股異構超級計算機的熱潮。

中科院計算所和曙光研製的曙光 6000(星雲)也不遑多讓。這台超級計算機達到了 1271 兆次的峰值性能,在 2010 年 11 月的 TOP500 中位居第三,排在天河一號 A 和美洲豹之後。

無錫江南計算技術研究所研製的神威藍光,也達到了 1100 兆次的峰值運算速度。

三個千兆超級計算機中,神威藍光雖然運算速度較慢,但它是唯一全面採用中國自研 CPU “申威”的機器。

自研的 CPU 可以支撐起速度領先的超級計算機,這件事的重要性在近幾年越發顯現。

“芯”的戰爭,不變的定律

2019 年 6 月,繼中興、華為之後,美國川普政府將製裁矛頭瞄準了中國超算領域 5 家機構。

美國商務部工業和安全局發布公告稱,將把中科曙光、成都海光集成電路設計公司、成都海光微電子技術公司、天津海光信息技術公司和無錫江南計算技術研究所列入實體清單。

三家海光系企業都是曙光的子公司,也就是說,這次製裁的目標實質只有兩個:曙光和無錫江南計算技術研究所。

事實上,早在 2015 年,國防科技大學、國家超級計算長沙中心、國家超級計算廣州中心和國家超級計算天津中心就被列入到實體清單裡。

從天河系列(國防科技大學)到曙光系列(中科曙光)和神威系列(江南計算技術研究所),中國超級計算機三大系列全部受到美國製裁。製裁旨在卡住中國超算的“脖子”,封鎖最關鍵的芯片。

近年來,中國和美國在超級計算機領域的競爭越發激烈。2013 年 6 月起,天河二號以每秒 5.49 億億次的峰值性能,霸榜 TOP500 3 年。2016 年 6 月,神威·太湖之光以每秒 12.54 億億次的峰值性能接棒天河二號。直到 2018 年 6 月,美國能源部宣布建成峰值 18.77 億億次的 Summit,才重奪 TOP500 榜首位置。

(神威·太湖之光,圖片來自新華社)

國防科技大學 2015 年被美國列入實體名單後,採用英特爾至強處理器的天河二號,原定的升級計劃馬上被打斷。

神威·太湖之光則沒有這樣的擔憂。“國家希望能採用另一種技術路線來研製新的超算。新超算從布局之初的思路就是要打造擁有全國產架構、自主可控的軟硬體。”國家超級計算無錫中心主任、清華大學教授楊廣文說。

神威·太湖之光採用的 CPU 和神威藍光的 CPU 是同一個系列——中國自研的“申威”。楊廣文解釋:“‘申威’系列的技術路線比較明晰而穩定,而且採用上一代‘申威’ CPU 的神威藍光為神威·太湖之光的發展做了很好的鋪墊和嘗試。”

神威系列超級計算機和“申威”系列芯片,都出自無錫江南計算技術研究所。2003 年,當中國自研超級計算機還處在兆次階段時,江南計算技術研究所為解決在超算和國防、信息安全領域的芯片困境,就已經開始設計自己的高性能芯片。

超級計算機技術內涵龐雜,涉及架構、通信、存儲、集群很多領域,但在高水準的競爭中,芯片還是最核心的部分。天河二號被“卡住脖子”後,在 2018 年借助中國自研的 Matrix-2000 加速卡才完成升級。

當下超級計算機領域競賽焦點是 E 級(秒鐘運算一百億億次)超算的研發,中國為此正在準備的三個方案,全部使用國產 CPU 和加速器。

1978 年,因為“玻璃房”,中國科研人員走上了自主研製超級計算機的道路。如今中美關係緊張,美方又把芯片鎖進了“玻璃房”。競爭的內容在變,但不變的是——唯有掌握核心技術,才不會受製於人。

主要參考資料:

電腦報:

中國第一超級電腦煉成記

人物:

追記中國巨型機之父慈雲桂

AMiner:

2018 超級計算機研究報告

中科曙光:三遷背後的故事

永立潮頭,破浪前進-----慶祝中科院計算所創建四十五周年

“863”計劃:一個偉大科技工程的台前幕後

回顧與展望—863計劃高性能計算方向的實踐

這個 “最強大腦”,對中國國防的重要性堪比 “兩彈一星”!

超級計算機全球四連冠:

天河二號背後故事

“神威 · 太湖之光” 神在何處?

“神威”超算啟示錄

(本文為PingWest品玩“科技創新70載——慶祝中華人民共和國成立70周年”系列出品)

國內的教育市場從來不乏新概念與新方向,這些概念和方向適合海外教育市場的環境嗎?在線教育產品的成本優勢和價值戰略是什麽?這些優勢在海外還適用嗎?巴西特色下的教育市場又有哪些機會呢?9 月 20 號,帶著這些問題,咱們相聚北京聊一聊。

獲得更多的PTT最新消息
按讚加入粉絲團