omniture

浪潮信息助力中南大學(xué)智算平臺智能化運維

2021-11-17 20:58 5280

北京2021年11月17日 /美通社/ -- 隨著信息技術(shù)的飛速發(fā)展,高性能計算已成為繼理論和實驗之后開展科學(xué)研究的第三大支柱,中國高校信息化進程走過二十余載,從最初的校園信息化建設(shè)到如今的智慧校園,數(shù)字化轉(zhuǎn)型下的高校教學(xué)、科研、管理和服務(wù)對算力的需求也在不斷攀升。

中南大學(xué)是教育部直屬全國重點大學(xué)、國家“211工程”首批重點建設(shè)高校、國家“985工程”部省重點共建高水平大學(xué)和國家“2011計劃”首批牽頭高校,2017年9月入選世界一流大學(xué)A類建設(shè)高校。中南大學(xué)智算平臺作為一個硬件先進、功能齊全、資源豐富,面向全校師生提供高性能計算服務(wù)的開放性公共服務(wù)基礎(chǔ)設(shè)施,一方面為學(xué)校的基礎(chǔ)研究、前沿科學(xué)技術(shù)研究,促進科學(xué)探索和重大發(fā)現(xiàn)提供算力支撐,另一方面為促進學(xué)校的“雙一流”建設(shè)以及學(xué)校改革發(fā)展的“四個轉(zhuǎn)型”夯實基礎(chǔ),以期在基礎(chǔ)研究和科技前沿領(lǐng)域有所突破,從而進一步提升學(xué)校整體科研水平。中南大學(xué)智算平臺目前擁有高達上千臺各種類型的計算服務(wù)器,一方面滿足了科研人員大量的計算資源需求,另一方面大量集中部署的計算服務(wù)器集群對管理和運維人員提出了新的挑戰(zhàn)。

傳統(tǒng)運維盲人摸象,成本高企

中南大學(xué)智算平臺的硬件資源十分豐富,基于傳統(tǒng)運維模式已無法對計算服務(wù)器集群的算力進行管理、調(diào)度和科學(xué)合理分配計算資源,算力應(yīng)用處于黑箱模式,類似于盲人摸象,不清楚、不清晰,無法實現(xiàn)對計算集群快速而精準的有效運維,也造成了運維人力資源的沉重負擔(dān)。隨著高性能計算服務(wù)器集群規(guī)模越來越大,運維人員的工作量與日劇增,大量重復(fù)冗余的枯燥工作難免掛一漏萬。由于運維人員缺乏自動化的運維管理工具,借助經(jīng)驗診斷故障,極易造成故障的漏判、誤判。因此,中南大學(xué)智算平臺迫切需要一個統(tǒng)一集中的自動化智能運維管理平臺,將監(jiān)控與運維進行有效整合,實現(xiàn)平臺的自動化智能管理和運維。

另外,計算服務(wù)器、計算網(wǎng)絡(luò)、存儲系統(tǒng)等設(shè)施在不斷消耗大量電力,UPS、新風(fēng)空調(diào)系統(tǒng)等機房設(shè)施也需要能源開銷,這些都導(dǎo)致智算平臺的運行成本高企,計算服務(wù)器數(shù)量越多,運行維護成本就越高,如何對平臺進行精細化的能耗管理、實時獲取計算服務(wù)器和機房的能耗信息,從而進行計算資源的科學(xué)管理和調(diào)度,也是目前業(yè)界亟待解決的重要問題。

精確納管,運維效率大幅提升

針對傳統(tǒng)人力運維管理面臨的窘境,浪潮信息提出了以ISPIM (Inspur Physical Infrastructure Manager) 浪潮信息物理基礎(chǔ)設(shè)施管理平臺為核心的自動化運維解決方案。ISPIM平臺是浪潮信息根據(jù)市場需求,遵循NFV標準,自主研發(fā)的一款高可用、高性能、高可擴展、高可維護的行業(yè)數(shù)據(jù)中心物理基礎(chǔ)設(shè)施管理平臺。該平臺具備資源管理、故障監(jiān)控、性能監(jiān)控、能耗管理、報表統(tǒng)計、拓撲展示、服務(wù)器故障診斷、自動報修、固件升級/配置、OS部署等功能,可保障數(shù)據(jù)中心安全、可靠、穩(wěn)定的運行。

通過實地考察、調(diào)研并與中南大學(xué)HPC平臺管理和技術(shù)人員進行多次反復(fù)的交流、溝通和分析、研究,浪潮信息研發(fā)工程師最終決定以“1+1+N高可用模式”,在5臺服務(wù)器上部署ISPIM系統(tǒng),主動采集頻率為45min,監(jiān)控指標可達150W+,覆蓋智算平臺內(nèi)的所有設(shè)備。ISPIM系統(tǒng)高可用模式部署的示意圖如下。


通過ISPIM提供標準的北向接口與CE(Cluster Engine)高性能平臺對接,可獲取到集群計算節(jié)點中CPU、GPU、內(nèi)存、網(wǎng)絡(luò)、負載等性能信息及計算節(jié)點狀態(tài),實現(xiàn)算力的統(tǒng)一分配、調(diào)度、管理,配合內(nèi)置的浪潮信息管理驅(qū)動軟件Teye,可實現(xiàn)對設(shè)備帶內(nèi)性能指標的秒級實時采集及歷史信息匯聚。此外,ISPIM平臺還具備全網(wǎng)設(shè)備硬件狀態(tài)監(jiān)控、性能指標實時監(jiān)控的能力,基于浪潮信息故障專家?guī)欤?lián)通浪潮信息360度專家服務(wù),實現(xiàn)了浪潮信息服務(wù)器智能故障診斷、故障根源定位、專家維修建議、設(shè)備自動報修等一系列自動運維功能,幫助運維人員實時掌控設(shè)備狀態(tài),提高運維效率,縮短維修周期,同時極大程度上避免故障誤判,能夠?qū)收线M行及時且有針對性的處理。

自動化智能運維,魅力四射

浪潮信息ISPIM系統(tǒng)基于AI算法,對采集到的所有設(shè)備的能耗、溫度、氣流、CUPS以及機房環(huán)境數(shù)據(jù)進行實時智能分析,推送能耗管理與優(yōu)化建議,通過可視化拓撲呈現(xiàn),3D建模展示數(shù)據(jù)中心內(nèi)機柜位置、位置、功耗、溫度狀態(tài)信息,實現(xiàn)對整個數(shù)據(jù)中心的細粒度管理。

一方面通過部署浪潮信息ISPIM系統(tǒng),中南大學(xué)智算平臺實現(xiàn)了集中自動化管理,大大減輕了運維負擔(dān),通過對算力數(shù)據(jù)的精準獲取、調(diào)度,使得算力的管控集中化、智能化,另一方面通過對平臺的監(jiān)測,實現(xiàn)能耗可查、可管、可控。運維人員通過ISPIM平臺可隨時隨地監(jiān)控整個平臺的運行狀態(tài),故障報警能夠以秒級的速度精準定位,保障中南大學(xué)的智算平臺高效有序運轉(zhuǎn),節(jié)約了人力資源,運維效率大幅提升。

隨著整個社會數(shù)字化轉(zhuǎn)型進程的加快,大型企業(yè)或組織對大規(guī)模計算服務(wù)集群的需求與日俱增,數(shù)據(jù)中心事實上已經(jīng)成為組織的核心生產(chǎn)力和重要資產(chǎn)。浪潮信息ISPIM平臺可同時實現(xiàn)對數(shù)萬臺不同品牌服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等設(shè)施的統(tǒng)一監(jiān)控、運維和告警管理,保障客戶大規(guī)模數(shù)據(jù)中心安全、穩(wěn)定、可靠運行。用戶普遍反饋,浪潮信息ISPIM平臺在推進新基建、領(lǐng)跑數(shù)字化轉(zhuǎn)型方面魅力四射,極具推廣價值。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection