omniture

浪潮存儲:全閃化成為數(shù)據(jù)中心主流趨勢,企業(yè)如何預(yù)測SSD壽命

你的SSD還能用多久?
2021-11-24 14:57 5781

北京2021年11月24日 /美通社/ -- 十四五規(guī)劃中指出要“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國”。IDC預(yù)測,到2022年,全球65%的GDP將由數(shù)字化推動。近幾年新基建、數(shù)字經(jīng)濟(jì)和平臺經(jīng)濟(jì)發(fā)展迅猛,給數(shù)據(jù)中心提出了新的挑戰(zhàn)。全閃存數(shù)據(jù)中心具有速度快、綠色節(jié)能等優(yōu)勢,將會是未來數(shù)據(jù)中心的發(fā)展趨勢,SSD(固態(tài)硬盤)也將會得到更加廣泛的應(yīng)用。

為什么關(guān)注SSD壽命預(yù)測?

企業(yè)關(guān)注SSD壽命預(yù)測技術(shù),一是因為SSD的應(yīng)用前景非常廣闊,市場上使用率將越來越高。二是SSD損壞導(dǎo)致數(shù)據(jù)丟失帶來的損失是巨大的。三是因為閃存具有擦寫次數(shù)限制的特點

與傳統(tǒng)機(jī)械硬盤相比,SSD的優(yōu)勢非常明顯,如SSD速度更快,數(shù)據(jù)訪問比機(jī)械硬盤快100倍,吞吐量大100倍,單盤IOPS大1000倍以上,并且技術(shù)在快速發(fā)展,如NVMe、 PCIe將進(jìn)一步釋放SSD的性能;在可靠性表現(xiàn)上,SSD因質(zhì)量輕、體積小、防震抗摔性更好,更加可靠。再如SSD更節(jié)能,與機(jī)械硬盤相比,能耗降低70%。今年的政府工作報告中提出要在2030年之前實現(xiàn)“碳達(dá)峰”,在2060年之前實現(xiàn)“碳中和”,使用SSD能夠大幅降低數(shù)據(jù)中心的能耗。過去SSD使用率不高的原因主要是其價格昂貴,現(xiàn)在據(jù)IDC統(tǒng)計:2015年到2020年,SSD平均每年的價格降幅達(dá)到25%,未來5年也將保持這一趨勢;2020年,全球范圍內(nèi)企業(yè)級SSD上的支出已經(jīng)超過傳統(tǒng)硬盤。

全球企業(yè)級機(jī)械硬盤和SSD盤支出對比(單位:百萬美元),2005-2020
全球企業(yè)級機(jī)械硬盤和SSD盤支出對比(單位:百萬美元),2005-2020

正是由于SSD速度快但價格相對較高,SSD通常用來存放元數(shù)據(jù)或核心數(shù)據(jù),這部分?jǐn)?shù)據(jù)丟失將會給用戶帶來的損失更加嚴(yán)重。并且,SSD閃存介質(zhì)具有擦寫次數(shù)限制,因此SSD使用壽命更值得被關(guān)注和重視。

SSD壽命預(yù)測  如何實現(xiàn)

SSD,是由控制芯片和存儲芯片組成的。控制芯片是SSD的大腦,用于調(diào)配數(shù)據(jù)、數(shù)據(jù)中轉(zhuǎn)等,存儲芯片用于存儲數(shù)據(jù)。當(dāng)前主流的存儲芯片為NAND Flash閃存芯片,NAND采用浮柵晶體管存儲數(shù)據(jù),寫入數(shù)據(jù)時需要先擦除再寫入,寫操作本質(zhì)是向浮柵注入電荷,擦除操作是從浮柵挪走電荷,充放電的過程會損耗二氧化硅絕緣層的絕緣能力,最終無法保證浮柵中存有足夠多的電荷。因此NAND的擦寫次數(shù)是有限的,閃存完全擦寫一次叫做1次P/E,閃存的壽命就以P/E作單位,例如常用的MLC-SSD擦寫次數(shù)為10000次。SSD壽命預(yù)測,本質(zhì)上就是預(yù)測NAND芯片P/E次數(shù)還可用多長時間。

SSD結(jié)構(gòu)
SSD結(jié)構(gòu)

硬盤廠商一般都遵循S.M.A.R.T. 標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)保護(hù),S.M.A.R.T. 標(biāo)準(zhǔn)是一種自動的硬盤狀態(tài)檢測與預(yù)警系統(tǒng)和規(guī)范。SSD S.M.A.R.T.中包含了一些與壽命相關(guān)的指標(biāo),不同接口、不同廠商的指標(biāo)略有不同。浪潮自研NVMe SSD遵循NVMe 1.3標(biāo)準(zhǔn),提供標(biāo)準(zhǔn)的S.M.A.R.T.輸出。部分廠商SATA接口和PCIe接口壽命相關(guān)指標(biāo)如下表所示:

硬盤接口

硬盤廠商

指標(biāo)名稱

指標(biāo)含義

SATA

Intel

Smart_233 Media Wearout Indicator

介質(zhì)磨損指示

Micron

Smart_202 Percent lifetime remaining

剩余壽命百分比

Samsung

Smart_177 Wear Leveling Count

擦寫次數(shù)計數(shù)

Seagate

Smart_231 SSD Life Left

SSD剩余壽命

PCIe

Inspur等

percentage_used

已使用百分比

各個廠商通用的指標(biāo)為百分比表示的閃存磨損度,SSD壽命預(yù)測基于閃存磨損度,預(yù)測SSD未來可使用的天數(shù)。同時,該壽命預(yù)測模型能友好的支持浪潮自研PCIe接口SSD。

SSD壽命預(yù)測使用時間序列預(yù)測技術(shù),基于硬盤S.M.A.R.T.標(biāo)準(zhǔn)采集預(yù)測所需的歷史時間序列數(shù)據(jù)集,再使用浪潮自研的AI預(yù)測算法,預(yù)測S.M.A.R.T.指標(biāo)未來變化,得到SSD剩余壽命天數(shù)。

SSD壽命預(yù)測流程
SSD壽命預(yù)測流程

SSD壽命預(yù)測流程如上圖所示。整體的預(yù)測流程分為兩個階段,綠色為離線訓(xùn)練階段,目的是為了確定模型選取規(guī)則;藍(lán)色為在線預(yù)測階段,用于在用戶環(huán)境中預(yù)測SSD壽命。

離線訓(xùn)練階段使用大量的SSD全生命周期的S.M.A.R.T.數(shù)據(jù),人工將磨損度變化曲線形態(tài)標(biāo)記為3類:平穩(wěn)變化、減速變化和加速變化,再對三種類型的SSD數(shù)據(jù)分別進(jìn)行測試。測試過程中實驗了多種數(shù)據(jù)預(yù)處理方式和預(yù)測模型,比如Prophet、 ARIMA、 移動平均法(Moving Average, MA)、指數(shù)平滑法(Exponential Smoothing,ES)、神經(jīng)網(wǎng)絡(luò)等。最終確定模型選取規(guī)則,實現(xiàn)全生命周期預(yù)測準(zhǔn)確率達(dá)到75%的國際領(lǐng)先水平。

模型選取規(guī)則
模型選取規(guī)則

在線預(yù)測階段,定時采集硬盤磨損度指標(biāo),使用提前定義好的模型選取規(guī)則,根據(jù)磨損變化數(shù)據(jù)量的大小和變化趨勢,選擇最合適的時序預(yù)測模型,預(yù)測SSD壽命。

六重保護(hù)業(yè)務(wù)永遠(yuǎn)在線,可靠!

在管理軟件層面上,InView平臺每天定時采集數(shù)據(jù)、預(yù)測,通過浪潮自研SSD產(chǎn)品S.M.A.R.T.功能,可以客觀呈現(xiàn)產(chǎn)品的Percentage used和Available spare信息,并展示所管理的SSD是使用壽命。當(dāng)預(yù)測結(jié)果不足2周時,發(fā)出告警提示用戶,制定備份數(shù)據(jù)和換盤計劃,避免因突發(fā)換盤導(dǎo)致業(yè)務(wù)降級,甚至停機(jī)維護(hù)。

智能管理軟件InView界面中對SSD壽命預(yù)測
智能管理軟件InView界面中對SSD壽命預(yù)測

除了管理軟件,浪潮存儲還通過核心軟件、器件、部件、系統(tǒng)、解決方案層面等,對業(yè)務(wù)進(jìn)行端到端的整合,致力于為客戶提供一體化的方案服務(wù),做到故障早知道、故障無影響、長期無故障。

未來隨著數(shù)字經(jīng)濟(jì)發(fā)展,數(shù)據(jù)要素將在企業(yè)數(shù)字化轉(zhuǎn)型中扮演越來越重要的角色。浪潮存儲將持續(xù)加大企業(yè)級SSD研發(fā)投入,推動集中式全閃、分布式全閃持續(xù)技術(shù)創(chuàng)新,聯(lián)合產(chǎn)學(xué)研用等生態(tài)伙伴,合力提供數(shù)據(jù)生命周期解決方案,助陣企業(yè)提速數(shù)字化轉(zhuǎn)型,釋放數(shù)據(jù)價值。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection