北京2020年9月7日 /美通社/ -- 自計算機誕生之日起,科學和工程對計算性能的無限追求,一直在不斷沖擊和超越摩爾定律的想象。高性能計算資源特別是其計算能力的大小已經成為衡量高校科學技術研究、產品研發(fā)實力、人才培養(yǎng)水平和持續(xù)創(chuàng)新能力的重要標志。
中南大學是教育部直屬全國重點大學、國家“211工程”首批重點建設高校、國家“985工程”部省重點共建高水平大學和國家“2011計劃”首批牽頭高校,2017年9月入選世界一流大學A類建設高校。
中南大學高性能計算公共服務平臺作為一個硬件先進、功能齊全、資源豐富,面向全校師生提供高性能計算服務的開放性公共服務基礎設施,不僅可以為學校的科學研究和工程計算提供計算力支撐,而且還參與了中國教育科研網格(ChinaGrid)二期的建設并成為其重要節(jié)點。
強強聯(lián)手,打造首個5萬核智算中心平臺
中南大學與浪潮強強聯(lián)手,共同打造國內高校計算能力一流的高性能智算平臺。針對用戶需求和項目特點,采用浪潮高密度AI微模塊數據中心解決方案,運用多項業(yè)內新技術,搭建高度智能化高性能智算平臺。
整個平臺擁有1058個計算節(jié)點,合計50896個計算核心。為滿足多元算力作業(yè)需求,智算中心集群采用CPU、GPU的混合計算環(huán)境,CPU理論計算能力可達4856萬億次,GPU理論計算能力可達788萬億次,整個計算集群聚合計算能力達到五千六百萬億次。
同時采用浪潮AIstation調度平臺對算力進行高效調度,滿足算力資源的細粒度高效共享,整體資源利用效率可提升至80%;在算力聚合層面,配置100Gb高速IB計算網絡對算力集群進行高效聚合,保證應對大規(guī)模作業(yè)任務或AI訓練模型場景的集群內算力的高效聚合。
此外,為確保元數據訪問服務不間斷運行,獨立配置雙熱備高性能I/O服務器節(jié)點,通過成熟的HA軟件配置成高可用模式,任何一臺服務器出現故障(網絡通訊、操作系統(tǒng)、服務器硬件等)都會自動切換到另一臺服務器,確保數據訪問服務不間斷運行。
60KW冷量空調,打破制冷瓶頸
通過對中南大學高性能計算公共服務平臺建設場地進行了詳細的實地勘察,為了最大化提升空間利用率,采用業(yè)內技術領先的60KW高冷量列間空調,相比傳統(tǒng)風冷列間空調節(jié)省了7個標準IT機柜,有效提升了計算節(jié)點機柜的布置空間,計算資源相應地提升約1.2倍。60KW冷量空調優(yōu)勢在于,一是冷量更高,約為傳統(tǒng)列間空調制冷量的1.5倍;二是能耗更低,使智算平臺PUE值整體降低約10%。
定制化布線系統(tǒng),集約高效
中南大學高性能計算公共服務平臺采用了兩套浪潮AI微模塊。由于在進行高性能計算時,存在多個計算節(jié)點同時協(xié)同工作的應用場景,要求兩個微模塊之間實現高速互聯(lián)。傳統(tǒng)的走線方式需要鋪設大量的IB(InfiniBand)線纜,增加了數據傳輸的延時,同時,IB線纜造價昂貴,經費投入巨大。為滿足應用的整體化需求,浪潮在兩個微模塊之間采用定制化過線橋架,優(yōu)化了IT機柜之間的布線。定制化橋架保證了系統(tǒng)整體美觀協(xié)調,相對傳統(tǒng)布線方案減少IB線纜長度約20%,在有效節(jié)約投入的同時,保證了高性能計算對高速計算網絡帶寬的需求。
AI智能監(jiān)控系統(tǒng),智算平臺的晴雨表
中南大學高性能計算公共服務平臺有了可靠的硬件支撐還需要一個“大腦”對其進行監(jiān)控和管理。微模塊監(jiān)控系統(tǒng)采用32寸觸控大屏,可運行3D可視化管理系統(tǒng)。3D可視化系統(tǒng)運用H5技術,具備監(jiān)視面板、溫度云圖、資產查詢、空間查詢、功率查詢、AI智能巡檢等功能,有效降低了運維人員的工作強度。在操作間還部署了機房運維監(jiān)控大屏,通過監(jiān)控大屏和輔助顯示器對主機房和配電間設施的運行狀態(tài)進行實時監(jiān)控和顯示。AI智能監(jiān)控系統(tǒng)就像晴雨表,不僅可以實現數據的監(jiān)控,還可以通過日志數據的統(tǒng)計分析,預測可能發(fā)生的故障,極大地提高了平臺運行的穩(wěn)定性。
系統(tǒng)自動投影,運行狀態(tài)一目了然
作為國內高校計算能力一流的智算平臺,中南大學高性能計算公共服務平臺不僅提供強大的計算力及專業(yè)技術服務,還是對外展示風采的平臺。AI微模塊搭載監(jiān)控系統(tǒng)自動投影技術,在滑動門上通過特殊屏幕呈現出清晰的投影效果,使觀眾仿佛置身于中南大學智算平臺之中,通過屏幕上投射的動態(tài)影像,觀眾可以全方位感受到智算平臺所帶來的強烈震撼,一睹高性能計算公共服務平臺的風采,彰顯中南大學的文化魅力,享受一場視覺盛宴。
中南大學高性能計算公共服務平臺的建設與學?!爸腔壑心稀钡睦砟畈恢\而合。高密度部署、定制化設計以及AI智能監(jiān)控系統(tǒng)三大法寶為平臺的穩(wěn)定、持續(xù)和可靠運行提供了強有力的保障。平臺將于2020年9月底建成并于10月份投入試運行,我們相信,智算平臺的投入使用,必將極大地推動中南大學科學研究的成果產出并進一步促進高水平人才的培養(yǎng)。