北京2018年1月25日電 /美通社/ -- 浪潮天梭M13服務器是專為超大規(guī)模實時事務處理而設計的大型關鍵計算系統(tǒng),面向總部級別的銀行存儲款、電信行業(yè)計費系統(tǒng)、跨國企業(yè)ERP等關鍵應用場景。M13支持處理器核心數量超過1000個,具有強大的在線事務處理能力,同時采用了復雜的高可用技術系統(tǒng),滿足業(yè)務7*24小時穩(wěn)定運行需求。
天梭M13的內存高可用挑戰(zhàn)
RAS特性(即服務器的可靠性Reliability、可用性Availability以及可服務性Serviceability)對于大型關鍵應用主機來說尤為關鍵,能夠讓主機容忍各類軟硬件故障,可以顯著延長系統(tǒng)平均無故障時間,保證客戶業(yè)務持續(xù)穩(wěn)定運行,是保障系統(tǒng)高可用性的技術基礎。
M13的可用性設計覆蓋了系統(tǒng)的每個部分,極為復雜,本文只介紹一項內存可用性技術 -- IMS內存檢測隔離。
內存錯誤和故障是引發(fā)系統(tǒng)硬件故障的原因之一,一方面,從SDR到DDR,再到目前的DDR3,內存的容量和性能不斷提升,內存顆粒容量的增大、單元密度增加、生產工藝的復雜,客觀上增加了內存缺陷檢查和測試的難度;另一方面,天梭M13較大支持1536個DIMM插槽,內存容量高達48TB,使得內存發(fā)生錯誤和故障的概率顯著增加。
IMS -- Intelligent Memory Surveillance
目前,內存錯誤的診斷和處理技術相對成熟,主要有ECC、chipkill、SDDC等,這些技術能夠檢驗內存錯誤,進行相應處理,但是有一定局限性,例如ECC可以檢驗和糾正一個數據位錯誤,但無法糾正2個錯誤位同時發(fā)生,而且如果ECC錯誤頻繁發(fā)生會導致Multi-bit被標識為不可用,甚至觸發(fā)MRC內存管理機制,將整個Rank/DIMM做disable處理。頻繁的內存錯誤并不表示內存物理失效,也有可能是外部環(huán)境溫度過高、電壓波動等因素導致,這樣的處理會減少內存性能、浪費內存空間,從而降低系統(tǒng)性能。
IMS -- Intelligent Memory Surveillance,是一套完整的內存錯誤和故障校驗、診斷和處理方法,具備內存檢測、失效隔離和預警等完整的內存管理功能,解決了內存故障無法修復導致停機、故障難于定位、個別錯誤導致大規(guī)模內存浪費等內存錯誤和故障處理難題。
IMS系統(tǒng)概述
浪潮天梭M13高端服務器的IMS系統(tǒng)配置了高效的內存診斷工具,用戶可以自行對內存問題進行檢查。M13開機時,在BIOS啟動階段(進入操作系統(tǒng)前),用戶可進入Diagnostic模塊,在3種不同強度的測試模式 -- Quick、Standard和Extensive中進行選擇,對內存進行測試和檢驗。檢測完成后,對于關鍵區(qū)域或大塊面積的不可修復錯誤,IMS會給出警示信息,提示用戶需要更換內存,對于非關鍵區(qū)域、分散性的少量錯誤,IMS會將錯誤地址記錄并對故障單元進行隔離,機器之后的運行時不會再對這些錯誤地址進行訪問。
當系統(tǒng)啟動成功,進入OS后,IMS會實時進行內存的監(jiān)測、保護和處理。首先IMS系統(tǒng)會實時統(tǒng)計內存ECC錯誤信息,并對錯誤地址以IMS自帶的多個測試算法進行強化測試,對錯誤進行有效性確認,同時預測相關可能出錯的地址。最后,IMS系統(tǒng)對確認錯誤或預測產生的不可糾錯的內存,應用 OS的隔離技術,在此部分內存區(qū)域空閑時予以隔離,離開應用內存空間。
IMS -- 內存錯誤減少95%以上
IMS系統(tǒng)能夠在天梭M13服務器運行過程中,有效減少失效內存進入系統(tǒng)的機會。開機前的可選Diagnostic功能類似工廠專用內存測試ATE,但又優(yōu)于ATE,可以讓用戶方便的進行全面內存檢查。隨著服役時間的延長,內存的電氣性能會不斷衰減,從而產生內存失效隱患,Diagnostic功能讓用戶有效避免這一隱患。
在系統(tǒng)運行時,IMS可以將故障內存進行隔離,也很好的防止內存退化帶來的內存錯誤,提高系統(tǒng)可靠性。而且IMS對于內存錯誤的定位和處理更為精細和及時,某些本應作RMA處理的內存,可以在現場進行處理修復,大幅減少內存空間浪費行為。
在使用IMS后,ECC log報錯日志內容隨時間推移成收斂狀態(tài),效果顯著,每小時ECC報錯數從400次逐步減少到不足10次。浪潮統(tǒng)計數據表明,IMS可以有效減少內存錯誤的發(fā)生,提高內存可用性。
從天梭K1到天梭M13,浪潮關鍵應用主機在系統(tǒng)性能、可用性等方面都有了顯著的提高。浪潮在RAS高可用等關鍵核心技術上的持續(xù)突破,有效提升了其關鍵應用主機系統(tǒng)的可靠性及產品品質,為金融、電信等關鍵行業(yè)的核心信息化應用提供了強有力的基礎設施保障。