omniture

上海交大廖秋承:超算競(jìng)賽給大學(xué)生種下計(jì)算的種子

2020-10-29 14:36 5342

北京2020年10月29日 /美通社/ -- ASC世界大學(xué)生超算競(jìng)賽是一場(chǎng)怎樣的比賽?對(duì)于擁有4參賽經(jīng)歷的廖秋承來(lái)說(shuō),ASC不僅是比賽,更是改變?nèi)松钠鯔C(jī)。非計(jì)算機(jī)專業(yè)出身的他因?yàn)锳SC接觸超算,熱愛(ài)超算,從隊(duì)員成長(zhǎng)為指導(dǎo)老師,更選擇將超算作為自己的終生事業(yè)。在今年初的ASC20啟動(dòng)會(huì)上,廖老師作為指導(dǎo)老師代表發(fā)言,講述了他對(duì)ASC超算競(jìng)賽的感悟和體會(huì)。

以下是廖秋承老師的演講實(shí)錄。

各位專家,各位老師,各位媒體朋友大家好。

我是上海交通大學(xué)代表隊(duì)的指導(dǎo)老師廖秋承。上海交通大學(xué)從2013年開(kāi)始參加ASC,至今為止參加了七屆比賽,共獲得一個(gè)冠軍,一個(gè)亞軍,一個(gè)e Prize和4個(gè)應(yīng)用創(chuàng)新獎(jiǎng)。2020年是我個(gè)人第5年參加比賽,從一名隊(duì)員到一名指導(dǎo)老師,中間走過(guò)的路程激動(dòng)人心又坎坷曲折。交通大學(xué)2013年建成國(guó)內(nèi)高校第一臺(tái)超級(jí)計(jì)算機(jī)π1.0,今年建成了π2.0,這個(gè)過(guò)程中無(wú)數(shù)科研成果從這兩臺(tái)超級(jí)計(jì)算機(jī)上誕生。包括中國(guó)第一個(gè)全國(guó)性的兒童早期白血病數(shù)據(jù)庫(kù)、目前世界上最大規(guī)模的4.3萬(wàn)億個(gè)粒子N體問(wèn)題模擬、比串行版本加速1.8萬(wàn)倍的BTE算法等,很多重要的成果都有ASC競(jìng)賽隊(duì)員的參與。

種下計(jì)算的種子

ASC不僅是讓大學(xué)生參加超算比賽、深刻了解超算的平臺(tái),更為高校提供了人才培養(yǎng)機(jī)制,讓高校從中獲取高性能計(jì)算專業(yè)人才。我時(shí)常跟學(xué)生打比方,如果說(shuō)戈登·貝爾獎(jiǎng)和Top500是超算屆的達(dá)喀爾拉力賽和F1比賽,ASC就是超算界的卡丁車競(jìng)賽。一個(gè)車手想成長(zhǎng)為F1賽車手,他從非常小的時(shí)候就要接受卡丁車專業(yè)訓(xùn)練,連續(xù)十幾年的時(shí)間里一直接受各種各樣的賽車訓(xùn)練知識(shí)、引擎的知識(shí),學(xué)習(xí)如何掌控重力、牽引力,輪胎管理和底盤(pán)管理等等。超算競(jìng)賽就像卡丁車競(jìng)賽,教會(huì)學(xué)生如何管理一個(gè)復(fù)雜系統(tǒng),從芯片微架構(gòu)體系結(jié)構(gòu),到芯片間的互聯(lián),節(jié)點(diǎn)的互聯(lián),到操作系統(tǒng),調(diào)優(yōu)到建模。從來(lái)沒(méi)有一個(gè)比賽像ASC比賽這樣,把所有方面全部結(jié)合在一起,這也給學(xué)生帶來(lái)非常大的挑戰(zhàn)。

根據(jù)我個(gè)人統(tǒng)計(jì),每年可能有超過(guò)40名本科生在我們實(shí)驗(yàn)室學(xué)習(xí),但最后只有5個(gè)人的名字出現(xiàn)在ASC的獎(jiǎng)狀上,這中間的淘汰機(jī)制非常殘酷,只有在這樣殘酷的條件下才有可能得到最優(yōu)秀的學(xué)生。超算競(jìng)賽是一粒種子,給大學(xué)生種下了計(jì)算的種子,就像原始人拿到的第一個(gè)工具一樣,原始人拿到第一個(gè)手動(dòng)工具之后開(kāi)始開(kāi)天辟地,而我們拿到算力以后開(kāi)始改變世界,讓我們的生活變得更加美好。

廖秋承(右三)與隊(duì)友們獲得ASC16超算競(jìng)賽亞軍
廖秋承(右三)與隊(duì)友們獲得ASC16超算競(jìng)賽亞軍

讓學(xué)生發(fā)揮最大創(chuàng)造力

ASC不僅是播撒種子的平臺(tái)還是創(chuàng)新的平臺(tái),上海交通大學(xué)代表隊(duì)在這幾年比賽中干過(guò)瘋狂的事情。2016年為DNN模型創(chuàng)建了18層的令牌環(huán),達(dá)到了決賽中苛刻的精度和速度要求。2017年我們第一次在PCIE SSD上使用了并行文件系統(tǒng)BeeGFS。2018年我們打磨了散熱器,更換了高性能的硅脂,改變服務(wù)器的散熱策略,使得我們?cè)谀喜髮W(xué)酷熱的場(chǎng)地還能保持服務(wù)器的正常運(yùn)行。2019年我們第一次在每一臺(tái)服務(wù)器節(jié)點(diǎn)上用了兩塊Omni-Path 100G的網(wǎng)卡,從而實(shí)現(xiàn)了全場(chǎng)最快的CESM模擬,當(dāng)然因?yàn)橐恍┰蛭覀兊腃ESM并沒(méi)有拿到獎(jiǎng)。

所以大家可以看到,ASC不僅是一個(gè)播撒種子的平臺(tái),還是一個(gè)讓學(xué)生發(fā)揮他們最大創(chuàng)造力的平臺(tái),你有非常多在正式生產(chǎn)集群上無(wú)法用的技能技巧和奇思妙想。雖然在ASC的賽場(chǎng)上,這些技巧并不會(huì)扭轉(zhuǎn)乾坤,甚至根據(jù)我的經(jīng)驗(yàn),它們大部分都失敗了,但是最后這些技巧越來(lái)越成熟后,卻有可能真正用在生產(chǎn)環(huán)境和高校的科研中。2019年π2.0幫助上海交通大學(xué)一位老師進(jìn)行了北冰洋洋面和洋面下的氣候模擬,用的正是CESM的模型,他經(jīng)過(guò)我們的競(jìng)賽隊(duì)員幫助,在π2.0集群上非常高效地完成之前無(wú)法運(yùn)行起來(lái)的模擬。

今年我們第一次以超算工程師和學(xué)科主要科學(xué)家合作的模式,從零開(kāi)始研發(fā)一個(gè)內(nèi)燃機(jī)摩擦學(xué)模擬程序,在研發(fā)成功后,這將是國(guó)際上摩擦學(xué)領(lǐng)域第一個(gè)二維滑動(dòng)平面進(jìn)行多尺度摩擦特性研究的程序。大家可以看到,ASC比賽不僅僅是讓學(xué)生玩得爽的比賽,還讓算力應(yīng)用到日??蒲兄?,讓高校和各領(lǐng)域?qū)W科的科學(xué)家都從中受益。

廖老師(左一)帶領(lǐng)上海交大超算隊(duì)獲得ASC19一等獎(jiǎng)
廖老師(左一)帶領(lǐng)上海交大超算隊(duì)獲得ASC19一等獎(jiǎng)

建立超算交流平臺(tái)

更重要的,ASC為我們建立一個(gè)交流的平臺(tái),我記得去年我去SC,賽事主席Rebecca Hartman-Baker給我們說(shuō)的第一句話是,你們這16個(gè)隊(duì)伍里有15個(gè)隊(duì)伍會(huì)輸。仔細(xì)想想確實(shí)是這樣,只有一個(gè)隊(duì)伍會(huì)贏,我們?yōu)槭裁催€要參加這個(gè)比賽?我說(shuō)一個(gè)真實(shí)的故事,有一個(gè)大學(xué)是ASC的參賽代表隊(duì),埃爾朗根紐倫堡大學(xué),這個(gè)大學(xué)大家可能沒(méi)有聽(tīng)說(shuō)過(guò),但是負(fù)責(zé)這個(gè)大學(xué)代表隊(duì)的實(shí)驗(yàn)室兩位教授Gerhard Wellein和Gerog Hager,是高性能計(jì)算和芯片體系結(jié)構(gòu)性能模型ECM的創(chuàng)始人,也是非常著名的高性能計(jì)算著作《Introduction to High Performance Computing for Scientists and Engineers》的作者,正是通過(guò)這個(gè)比賽,我們和他們有了很多的學(xué)術(shù)交流。

今年我們會(huì)看到ETH,非常著名的老牌大學(xué)來(lái)到中國(guó),HPC領(lǐng)域著名的Torsten Hoefler教授就在他們的團(tuán)隊(duì)里,他在去年SC拿到了戈登貝爾獎(jiǎng),也拿到了Best Paper,如果他們今年能來(lái)到中國(guó),希望我們很多代表隊(duì)有機(jī)會(huì)和這樣一位大師能夠面對(duì)面的交流。

綜合以上,我想說(shuō)ASC不僅僅給我們帶來(lái)無(wú)數(shù)的榮譽(yù),無(wú)數(shù)的歷練,無(wú)數(shù)的精彩,還給我們整個(gè)高性能計(jì)算的生態(tài)圈注入了新鮮的血液。今年的題目里有一個(gè)題“QuEST”,使我想起了13年的同學(xué),他是通過(guò)HPC比賽了解到HPC的相關(guān)知識(shí),目前在從事量子計(jì)算的研究。有無(wú)數(shù)的學(xué)生從ASC里發(fā)現(xiàn)了計(jì)算的潛力,在各個(gè)行業(yè),有的去了金融公司,有的去了互聯(lián)網(wǎng)公司。這是一棵大樹(shù),希望我能和浪潮、亞洲超算協(xié)會(huì)和其他為這項(xiàng)比賽辛勤付出的人一起,把這棵大樹(shù)慢慢培養(yǎng)長(zhǎng)大,最后長(zhǎng)成參天大樹(shù),讓全人類都享受到計(jì)算帶來(lái)的強(qiáng)大力量。

謝謝大家。

消息來(lái)源:ASC亞洲超算協(xié)會(huì)
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection