北京2021年1月28日 /美通社/ -- 日前,OCP社區(qū)公布了OpenRMC Design Specification v1.0(開放整機柜管理設計規(guī)范1.0版本),對整機柜的北向管理接口進行了規(guī)定,初步明確了設備管理中信息采集范圍、數(shù)據(jù)呈現(xiàn)方式及采集模塊的硬件部署選項,為智慧時代數(shù)據(jù)中心的自動化運維管理提供參考。
智慧時代數(shù)據(jù)中心運維復雜度提升
隨著智慧時代的來臨,數(shù)據(jù)中心上層應用負載的多元化與復雜化,以及人工智能、容器等新技術(shù)的不斷引入,數(shù)據(jù)中心計算資源變得異構(gòu)和池化,除了傳統(tǒng)的CPU,GPU、FPGA等加速計算單元也在服務器系統(tǒng)中發(fā)揮越來越重要的作用。
異構(gòu)設備給關(guān)鍵業(yè)務和數(shù)據(jù)提供有效支撐,也帶來了下一代數(shù)據(jù)中心運維管理復雜度迅速提升,用戶希望實現(xiàn)自動化部署、自動化巡檢、深度故障診斷以及智能告警,進一步提升數(shù)據(jù)中心的可靠性和可用性,減少軟硬件故障或者系統(tǒng)升級所帶來的業(yè)務中斷。
同時,計算資源的核心部件CPU、GPU處理性能雖然逐漸脫離摩爾定律,但多核心、先進制程工藝的采用,同樣不斷推高處理器和服務器的能耗。相當一部分數(shù)據(jù)中心運營成本耗費在了散熱、供電所帶來的能源損耗上,帶來巨大的成本壓力。
因此,提升數(shù)據(jù)中心能源利用率,推動綠色節(jié)能數(shù)據(jù)中心建設,已經(jīng)成為提升數(shù)據(jù)中心競爭力,實現(xiàn)環(huán)境效益與經(jīng)濟平衡的重要方式。而傳統(tǒng)數(shù)據(jù)中心運維模式難以對服務器的性能、功耗進行實時、細粒度的監(jiān)控和統(tǒng)計,影響了節(jié)能降耗的效果。
OpenRMC提供未來數(shù)據(jù)中心運維參考架構(gòu)
自動化運維是降低數(shù)據(jù)中心能耗,實現(xiàn)數(shù)據(jù)中心內(nèi)部服務器資源配置優(yōu)化的重要途徑。近年來,OCP在這一方面進行了廣泛的實踐,包括如何在單位空間里提供更高的計算密度,如何通過統(tǒng)一的規(guī)范減少單一廠商綁定,如何快速響應突發(fā)應用需求等。要滿足上述需求,彈性、模塊化的數(shù)據(jù)中心整機柜設計和交付至關(guān)重要。
為提升下一代數(shù)據(jù)中心智能化運維能力,浪潮牽頭在OCP社區(qū)成立了OpenRMC項目組,發(fā)布基于OCP標準的整機柜管理架構(gòu)的解決方案,為各類數(shù)據(jù)中心,尤其是大規(guī)模、超大規(guī)模數(shù)據(jù)中心,提供了下一代開放技術(shù)管理方案。
OpenRMC解決的一個重要問題在于提升開放性。在傳統(tǒng)數(shù)據(jù)中心運維過程中,用戶往往會使用BMC 軟件來輔助進行管理控制。但是BMC的產(chǎn)品是商用的,必須由指定的供應商進行維護,不但成本高昂,而且具有非常強的依賴性。要對新設備進行管理,只有等待BMC版本更新才能支持,這顯然無法滿足數(shù)據(jù)中心敏捷業(yè)務的需求。此外,閉源的BMC難以進行靈活修改,自由度較差。OpenBMC針對這些傳統(tǒng)BMC缺點,提供了模塊化軟件架構(gòu)便于新設備資源的增改,并使用C++、Java腳本等高級語言框架解決管理信息可讀性、易訪問的問題。
OpenRMC可以基于OpenBMC管理維護服務器內(nèi)計算資源。除了OpenBMC技術(shù)的采用,整機柜的南向管理可以實現(xiàn)標準化,以統(tǒng)一的規(guī)范收集服務器內(nèi)部的硬盤、電源等信息,機柜的Power shelf、架頂交換機等機柜設備信息;北向管理則通過控制呈現(xiàn)的方式,形成了一個標準化的管理方法,并計劃未來滿足安全、加密、資源池化等新業(yè)務的需求。
OCP中國社區(qū)聯(lián)席主席、浪潮技術(shù)總監(jiān)郭洪昌表示,目前,浪潮已經(jīng)基于OpenRMC開發(fā)了系統(tǒng)級管理套件,實現(xiàn)整機柜高效管理。對服務器、存儲等系統(tǒng)設備,機柜內(nèi)的電源模塊、風扇、網(wǎng)絡交換機等模塊,以及環(huán)境溫度進行一體化統(tǒng)一監(jiān)控,確保整個機柜內(nèi)所有部件和設備的運行情況都能了如指掌,同時通過可視化設備詳盡的展現(xiàn)出來,滿足自動化運維的要求。在此基礎上,浪潮以機柜內(nèi)所有設備為對象,定義了北向管理的接口規(guī)范,并貢獻到OCP組織,在OCP的框架內(nèi)推動北向呈現(xiàn)與南向管理的接口無縫對接和有效通訊。
“我們希望通過 OpenRMC,擴展基于開源技術(shù)的整機柜管理系統(tǒng),不僅幫助大規(guī)模數(shù)據(jù)中心,也幫助中小型數(shù)據(jù)中心整合異構(gòu)設備,并實現(xiàn)自動化、精細化運維,從而降低其IT運維成本,簡化管理方式并提高效率?!彼劦?。
為滿足數(shù)據(jù)中心的整體運維需求,浪潮還構(gòu)建了物理基礎設施管理平臺 ISPIM,提供資產(chǎn)統(tǒng)一管理、設備實時監(jiān)控、告警精準推送、設備自動巡檢、無狀態(tài)固件管理、智能能耗分析等功能,實現(xiàn)數(shù)據(jù)中心內(nèi)部服務器、存儲、網(wǎng)絡設備統(tǒng)一智能監(jiān)控運維。通過融合面向節(jié)點運維的 OpenBMC 技術(shù)、面向整機柜運維管理的 OpenRMC 技術(shù),以及面向數(shù)據(jù)中心整體運維的 ISPIM 解決方案,浪潮能夠幫助用戶降低數(shù)據(jù)中心的運維難度,讓數(shù)據(jù)中心運維更加綠色、智能。
開放計算生態(tài)企業(yè)積極參與OpenRMC
不僅僅浪潮,微軟和Intel兩家數(shù)據(jù)中心技術(shù)領(lǐng)域的領(lǐng)導廠商也在OpenRMC項目上貢獻了大量的參考設計和代碼。Intel公司在2014年,發(fā)布了Intel® RSD(Rack Scale Design)整機柜參考設計,旨在推廣數(shù)據(jù)中心的資源池化及彈性部署的技術(shù),以提高數(shù)據(jù)中心的資源利用率。作為OpenRMC項目的發(fā)起者之一,Intel把RSD機柜管理模塊及管理接口API(RSD RMM REST API)開源貢獻到了OpenRMC項目組,并提供了機箱、電源及散熱等重要功能組件的參數(shù)獲取的參考代碼及獲取方法。
Microsoft智能云Azure是全球最大的公有云平臺之一。身為超大規(guī)模數(shù)據(jù)中心擁有者,以及云服務提供者,Microsoft公司不僅向OCP社區(qū)開源貢獻了OCS和Olympus兩種服務器標準,還把自己針對數(shù)據(jù)中心的管理經(jīng)驗向OCP社區(qū)做了分享,提出了RMC硬件的幾種不同實現(xiàn)方法,并且對OpenRMC固件的軟件模塊化設計提出了自己的建議,并提供了獲取機柜級組件狀態(tài)信息、和管理監(jiān)控的命令實例。
Intel和Microsoft貢獻的代碼和硬件參考設計,極大地豐富了OpenRMC項目的適用場景,并活躍了自動化運維的生態(tài)系統(tǒng),為OpenRMC功能的廣泛采用提供了基礎平臺以及信用保證。