每日最新頭條.有趣資訊

好樣的!清華大學生獲得今年三大國際超算賽事“大滿貫”

美國當地時間11月15日,2018國際大學生超級電腦競賽(SC18)在達拉斯落下帷幕,清華大學電腦系超算團隊摘得總冠軍,總分88.398分(滿分100分),高出第二名新加坡南洋理工大學11.518分。至此,在2018年三大國際大學生超算競賽ASC、ISC和SC中,清華大學超算團隊包攬了全部三項競賽的總冠軍,實現了繼2015年後的又一次“大滿貫”。 這也是清華大學超算隊伍在此三大國際性大學生超算競賽中累計獲得的第11項冠軍

參加本次競賽的清華學生超算團隊成員主要由電腦系於紀平(計52)、余欣健(計55)、何家傲(計62)、鄭立言(計64)、趙成鋼(計75)和交叉資訊院婁晨耀(“姚班”計科60)6名不同年級的大學生組成,由參加過多次國際競賽的高性能計算所研究生曹煥琦、馮冠宇和王邈擔任技術支持。指導教師為電腦系副教授翟季冬和博士後韓文弢。同時,大學生唐適之(計53)、陳宇(計54)、顧煜賢(計75)、陳晟祺(計63)和張晨(計71)5位同學參與訓練。

全球超級計算大會(Supercomputing Conference,簡稱SC)是國際超算領域的頂級會議,國際影響力巨大。作為會議的重要組成部分,SC比賽是超級電腦領域的頂級賽事,每年舉辦一次,吸引著世界各國家和地區的眾多高校參與。比賽旨在促進大學生與工業界之間的聯繫,推動世界各地區超算青年人才交流和培養,提升超算應用水準和研發能力。

本次競賽共有來自全球15所高校的本科大學生組隊參賽。清華大學作為唯一一所內地高校參賽。與傳統強隊新加坡南洋理工大學和台灣新竹清華大學等傳統強隊激烈角逐。比賽要求參賽隊伍在總功率3000瓦的限制條件下,自行搭建計算集群並在集群系統上進行6個應用程式的性能比拚。在48小時的競賽中完成超算集群的性能基本測試HPL(直譯為高性能線性系統套裝軟體)和HPCG(直譯為高性能共軛梯度),大規模機器學習,核裂變鏈式反應的穩態求解與模擬,論文複現——特大地震模擬,現場公布的神秘應用等內容。同時還設定了採訪、參會、海報設計等環節,成員需在比賽中向評委介紹自己優化的應用和正在進行的軟體優化設計,還需要在48小時內完成一篇在國際權威雜誌具有發表能力的英文論文

直擊現場

美國當地時間11月12日19:20,比賽應用環節正式開始。結合賽前集訓和現場超算集群的性能基本測試情況,清華團隊根據給定的部分應用程式負載特徵,討論決定採用GPU(圖形處理器)和CPU(中央處理器)不同節點結合的集群伺服器配置,很好地平衡了性能測試和應用程式的最終得分。

“最難的是如何取捨。就像攝影,不可能保證一個鏡頭就將遠全中近特各個景別全部涵蓋。”翟季冬這樣告訴記者。何況集群的設定還要包括處理器類型和數量、加速器類型和數量、互聯網絡、伺服器數量等一系列要素。既要保證基準測試程式的性能又要適應應用程式的需求,這就要求隊員們對電腦硬體本身和軟體的優化有極強的把握,同時對比賽策略作出抉擇以及對比賽結果擁有正確的預期。這是一場對同學們全方位能力的考察。

事實上,考察從出發前就開始了。由於主力隊員唐適之的簽證問題,團隊在出發前一天臨時更換了成員。這迫使團隊把早已計劃好的比賽策略推翻重來。於紀平回想起當時的情景,“心裡本來挺沒底的,但還是要硬著頭皮上,相信大家的實力。”

隨著比賽的深入,挑戰接踵而來。在應用環節開始之前是超算集群的性能基本測試,由隊長於紀平主要負責。比賽一開始,規則的突然調整讓經驗豐富的於紀平也措手不及。本來是在一定時間內分別記錄HPL和HPCG的最好成績,而新規則要求連續跑完兩項測試,成績才是有效的。這無形中為題目增加了不小的難度。於紀平回想起當天的“驚險”經歷:“因為HPL跑完電腦功耗已經很大,電腦過熱將影響緊接著的HPCG的速度。連續跑完兩項測試大概需要40分鐘到1個小時的時間,大約4點半的時候我得到一個成績,但我不太滿意,所以又重新跑了一次,很驚險地在結束的那一刻上交了成績。”

最讓隊員們憂心的神秘應用也在當晚公布——WRF(The Weather Research and Forecasting Model)氣象預報模式,是一道超算領域裡面的經典應用題目。在當今世界,WRF主要應用於氣象預報的預測,通常具有極大的數據量。“誇張一點說,如果使用本次比賽的集群要有將近一棟樓的倍數,才能跑完整個數據。”何家傲解釋到,“所以我們要在48個小時之內對應用進行編譯還要盡量跑更多的數據點,這是非常大的挑戰。”

題目要求在給定數據的基礎上由隊員們自己生成配置檔案和衛星雲圖。這樣的程式通常都是相關方面的科研專家來運行的,讓缺乏相關領域專業知識的本科同學在48小時之內完成這樣的任務無疑是一項非比尋常的考驗。

在多次比賽的積累中,清華團隊憑借對同類題目的了解,迅速跑完了第一個數據點。但由於題目編譯的複雜程度超乎尋常,在比賽已經進行到差不多一半時間時,題目的第二個數據點的編譯問題一直沒有解決。凌晨4點,6個年輕人被緊張的氣氛籠罩著。於紀平回憶“WRF三個數據點,輸入數據均為NetCDF(network Common Data Form)網絡通用數據格式,但是後兩個數據使用了舊版的NetCDF檔案格式。多次嘗試之後,我們發現了問題所在,通過在編譯過程中加入NetCDF對舊版格式的支持後修複了這個問題。”凌晨6點,第二個數據點成功跑了起來。早上9點,神秘應用的全部三組數據點成功跑完。

最終,憑借全面、深刻的超算系統與應用理解能力以及出色的性能優化能力,清華團隊在6個應用上取得佳績獲得88.398分,領先第二名新加坡南洋理工大學11.518分。以大比分優勢領先,成為今年SC18的總冠軍。比賽的另外一個獎項——最高LINPACK(直譯為高性能線性系統套裝軟體)獎由新加坡南洋理工大學獲得。

當地時間15日下午,頒獎典禮現場,當組委會賽事主席約翰·卡澤宣布清華超算團隊為總冠軍的時候,成員們激動地歡呼了起來。48個小時,這一場脫胎換骨的戰役,清華贏了!

本次會議中,電腦系博士後甘霖獲得高性能專委會傑出新人獎(IEEE TCHPC Award for Excellence for Early Career Researchers),是首位獲得該獎項的中國學者。同時,博士生林恆等人關於圖計算的相關研究“兆邊、秒級、百萬核的圖處理系統”(導師:陳文光教授)入圍了“戈登·貝爾”獎(全球共6項,其余5項均為美國研究團隊)。

興趣是最強戰鬥力

面對複雜的賽製、燒腦的題目,成員們更願意把它們視為有趣的挑戰

回顧比賽的過程,成員鄭立言說,“我們要讓一個程式不停地優化,讓它跑得更快,還要降低功耗需求,我覺得這樣的事情特別有趣。”

“從進入清華就拜託班主任打聽超算團隊了。”大學剛入學,成員趙成鋼就對超算團隊產生了濃厚的興趣,從參加組會、熟悉規則到做外圍支援,從優化程式、操控機器到訓練臨場應變,一年多之後,剛剛上大學二年級的趙成鋼就進階為正式隊員。

“團隊的選拔和培養主要以興趣為主,我們其實是一個興趣團隊。”翟季冬介紹到,同學們在日常培訓中會表現出不同的興趣,比如紀平、欣健對硬體感興趣,成鋼、晨耀對程式優化和程式分析方面有很大的發揮太空,立言和家傲的英文表達非常好……我們會在比賽中極力去發掘和培養他們的這些興趣。

在各司其職的比賽現場,互相照顧成為了這48小時中6個年輕人的日常狀態。何家傲說,我們一起解決問題,是志同道合的朋友更是患難之交。

“我們常說超算比賽就像F1賽事,是非常綜合的一個比賽。不僅要擁有先進的硬體設備,同時還需要隊員們對相關科學領域的應用有深刻的理解,在高性能計算方面有扎實的基本功,極佳的現場應對策略及語言表達能力等等。”指導教師韓文弢介紹到。

清華大學電腦系從2012年組建超算團隊至今,共組織參加了17次國際賽事,50多名同學參與其中。由於在高性能計算、並行系統和電腦系統等方面所具有的完整教學體系,清華大學電腦系為團隊的建設給予了充分支持,同時積累了良好的梯隊建設經驗。指導教師翟季冬在超算領域所取得的多項科研成果,也對團隊的多次奪冠有所幫助。

隊長於紀平說,通過參加比賽,接觸到了世界上最先進的硬體,因為比賽題目都是真實的科學計算應用,這更增進了自己的實踐能力。

超算比賽對於本科教學是很好的擴展和補充。電腦系為本科同學設定了《編譯計算》《高性能計算導論》等超算領域的專業選修課程,為同學們了解超算相關理論打下基礎。而通過團隊集訓以及比賽題目中的眾多真實的科學計算程式,更好地鍛煉了同學們的動手實踐能力,實現理論與實踐的緊密結合。

通過參加超算團隊,本科畢業後更多的同學選擇在超算領域繼續走下去。

知識點

超級計算(supercomputing),也稱為高性能計算(high-performance computing),是研發超級電腦(supercomputer)及其軟體和應用的領域。

國際大學生超級電腦競賽(SC超算競賽)2007年始於美國,與世界大學生超級電腦競賽(ASC,始於2012年),國際超級電腦競賽(ISC超算競賽,2012年源於德國)並列為世界最具權威性的三大國際大學生超算競賽。清華學生超算團隊從2010年開始征戰上述三大國際賽事,早在2015年清華超算團隊取得了三大賽事的全部冠軍,實現了第一次“大滿貫”。

編程是讓電腦為解決某個問題而使用某種程式設計語言編寫程式代碼,並最終得到相應結果的過程。為了使電腦能夠理解人的意圖,人類就必須要將需解決的問題的思路、方法、和手段通過電腦能夠理解的形式告訴電腦,使得電腦能夠根據人的指令一步一步去工作,完成某種特定的任務。這種人和電腦之間交流的過程就是編程。

跑數據指編程後,為檢驗其是否有紕漏,代入各種情況,並將其輸出結果與標準答案比對的過程。

NetCDF(network Common Data Form)網絡通用數據格式是由美國大學大氣研究協會(University Corporation for Atmospheric Research,UCAR)的Unidata項目科學家針對科學數據的特點開發的,是一種面向陣列型並適於網絡共享的數據的描述和編碼標準。目前,NetCDF廣泛應用於大氣科學、水文、海洋學、環境模擬、地球物理等諸多領域。用戶可以借助多種方式方便地管理和操作 NetCDF 數據集。

文 | 方鍶

圖 | 苑潔

編輯 | 粽

獲得更多的PTT最新消息
按讚加入粉絲團