omniture

一文知曉浪潮云海OS在SPEC Cloud測試中的調(diào)優(yōu)實踐

2021-08-12 18:46 7381

北京2021年8月12日 /美通社/ -- 日前,SPEC(Standard Performance Evaluation Corporation,即國際標(biāo)準(zhǔn)性能評測組織)公布了最新 Cloud IaaS 2018 Benchmark 測試成績,在同規(guī)模測試場景下浪潮數(shù)據(jù)核心產(chǎn)品浪潮云海OS再次刷新世界紀(jì)錄,性能得分全球第一,并在應(yīng)用實例復(fù)制數(shù)、可擴(kuò)展性和平均實例配置時間方面表現(xiàn)優(yōu)異,均達(dá)到全球領(lǐng)先水平。


 


SPEC Cloud測試到底是啥?

SPEC CloudIaaS 2018 Benchmark是SPEC開發(fā)的評估基于大數(shù)據(jù)場景下的云基準(zhǔn)標(biāo)準(zhǔn)測試(SPEC Cloud IaaS 2018是SPEC的第二個基準(zhǔn)測試套件來衡量云計算的性能,以原始2016版本為基礎(chǔ),具有各種增強(qiáng)功能和新的主要指標(biāo)),采用Yahoo的YCSB與HiBench的K-Means模擬實際的工作負(fù)載。

Benchmark基準(zhǔn)測試模型
Benchmark基準(zhǔn)測試模型

主要測試的是IaaS云平臺性能,選用兩類最重要的和最具代表性的負(fù)載:云平臺上運(yùn)行IO密集型和計算密集型負(fù)載,通過加壓測試數(shù)據(jù)面性能、可擴(kuò)展性以及控制面性能來得到測試結(jié)果,具體來說:

IO密集型負(fù)載測試:YCSB是Yahoo公司的一個用來對云服務(wù)進(jìn)行基礎(chǔ)測試的工具,SPEC CloudIaaS 2018通過創(chuàng)建NoSQL(Cassandra)實例實現(xiàn)YCSB架構(gòu)。其測試項包括吞吐量、插入響應(yīng)時間、讀取響應(yīng)時間、平均應(yīng)用實例(Application Instance)配置時間。

計算密集型負(fù)載測試:K-Means算法是機(jī)器學(xué)習(xí)中常用的一種聚類算法。SPEC CloudIaaS 2018基準(zhǔn)測試使用HiBench K-Means實現(xiàn)計算密集型測試,其測試項包括完成時間、每個應(yīng)用實例運(yùn)行的Hadoop迭代計數(shù)、平均應(yīng)用實例配置時間。

應(yīng)用實例基準(zhǔn)測試模型
應(yīng)用實例基準(zhǔn)測試模型

此外,SPEC Cloud IaaS 2018具有完善技術(shù)測試框架,是云計算性能測試的基準(zhǔn),作為企業(yè)級客戶云產(chǎn)品選型的重要參考標(biāo)準(zhǔn),測試框架主要指標(biāo)包含如下四個方面

應(yīng)用實例復(fù)制數(shù):復(fù)制的應(yīng)用實例數(shù)表示在測試結(jié)束時已完成至少一個有效應(yīng)用的實例總數(shù)??倧?fù)制數(shù)是K-Means與YCSB的應(yīng)用實例總和,但二者任何一項的有效應(yīng)用實例不能超過總數(shù)的60%。

性能得分:性能得分是所有有效應(yīng)用實例的得分總和,代表了所有應(yīng)用在云環(huán)境的總體表現(xiàn)。它是SPEC CloudIaaS 2018規(guī)范的YCSB和K-Means性能得分的總和,分?jǐn)?shù)越高代表性能越好。

相對可擴(kuò)展性:SPEC Cloud測試執(zhí)行包括兩個階段——baseline基準(zhǔn)數(shù)據(jù)收集和scale-out擴(kuò)展性能數(shù)據(jù)收集。可擴(kuò)展性是scale-out過程中每個應(yīng)用實例能提供與baseline階段的應(yīng)用實例相同性能輸出的百分比,結(jié)果越高代表可擴(kuò)展性越好,當(dāng)百分比大于等于80%,即認(rèn)為是優(yōu)秀。

平均實例配置時間:所有有效應(yīng)用實例的平均配置時間。每個實例的配置時間都是從創(chuàng)建實例請求開始到cbtool驅(qū)動可以SSH到實例的時間間隔。

本次測試的數(shù)據(jù)指標(biāo)有何驚艷之處?

Copy數(shù)”:眾多周知,Copy數(shù)受制于測試時設(shè)計的匯報Copy數(shù)、Copy上限、失敗率、YCSB與KMeans各占比例及服務(wù)器硬件的負(fù)載能力;初次提交時還可能出現(xiàn)受限于當(dāng)時的磁盤性能以及調(diào)度策略的情況;甚至當(dāng)Copy數(shù)增加時,測試時間內(nèi)會出現(xiàn)部分AI無法達(dá)成測試標(biāo)準(zhǔn)進(jìn)而轉(zhuǎn)為失敗。

對此浪潮云海優(yōu)化了調(diào)度策略、虛擬機(jī)創(chuàng)建流程以及測試硬件,降低了失敗率。目前,“39 Copies”的數(shù)據(jù)指標(biāo)雖然已經(jīng)達(dá)到匯報Copy數(shù)的基本要求并作為以下指標(biāo)測試的基本前提來使用,但并不代表當(dāng)前集群所能創(chuàng)建應(yīng)用實例的上限。

性能得分”:性能得分作為SPEC制定的標(biāo)準(zhǔn)分值,其值為基準(zhǔn)測加權(quán)平均后算出的絕對值。我們了解到,虛擬機(jī)后端存儲讀寫能力、內(nèi)存大小、CPU及針對虛擬化的調(diào)優(yōu)動作都會對性能得分產(chǎn)生影響,所以在保障性能衰減速率更低的條件下能夠在服務(wù)器上虛擬更多虛擬機(jī),這是廠商們的普遍目標(biāo)。

對此浪潮云海通過分析業(yè)務(wù)場景,有針對性地對測試環(huán)境進(jìn)行配置優(yōu)化。結(jié)果顯示,本次基準(zhǔn)測試的性能得分比基準(zhǔn)提高了40%,保障了單位密度虛擬機(jī)數(shù)量增加且服務(wù)器配置不變條件下性能的穩(wěn)定性。

性能得分的數(shù)據(jù)對比
性能得分的數(shù)據(jù)對比

與其他廠商相較,浪潮云海OS產(chǎn)品同樣出色。對比當(dāng)前業(yè)界性能得分最佳的廠商,云平臺綜合性能提升35.8%,YCSB性能提高33.9%,KMeans性能提升37.4%。


“平均實例的配置時間”“平均實例配置時間”被定義為所有有效應(yīng)用實例的平均配置時間,是實例部署請求提交到實例啟動并被測試管控節(jié)點(diǎn)接管的時間間隔。浪潮云海最新提交的平均實例配置時間為41s,與某廠商最新測試結(jié)果相對比,在單臺服務(wù)器虛擬機(jī)數(shù)等量的情況下平均實例配置時間提高5s,體現(xiàn)了對集群控制平面的深度優(yōu)化效果,包括對虛擬機(jī)的請求發(fā)放、主機(jī)調(diào)度和啟動時間在內(nèi)的能力提升。

“相對可擴(kuò)展性”通常相對可擴(kuò)展性受限于CPU核心數(shù)、內(nèi)存剩余及磁盤。依據(jù)SPEC官方標(biāo)準(zhǔn),80%以上均為優(yōu)秀;在本次測試中浪潮云海OS產(chǎn)品的可擴(kuò)展性得分為85.1%,達(dá)到優(yōu)秀級別。

解密調(diào)優(yōu)!浪潮云海OS在測試中有哪些升級實踐?

為了達(dá)成性能再升級,提升虛擬機(jī)的創(chuàng)建速度及穩(wěn)定性,浪潮云海選用了鏡像加速的調(diào)優(yōu)手段,即啟動自研智能鏡像緩存淘汰算法,智能管理本地緩存目錄,在有限的本地緩存空間內(nèi)盡可能提高鏡像緩存命中率。

此外還通過支持配置項預(yù)設(shè)鏡像緩存目錄大小、彈性伸縮以及可根據(jù)鏡像的使用頻率自動調(diào)整本地存儲空間等操作,節(jié)約了鏡像下載到本地所消耗的時間,甚至可以達(dá)到80%以上。這波系列操作不但提升了應(yīng)用虛擬機(jī)的創(chuàng)建速度與穩(wěn)定性,還提高了鏡像創(chuàng)建卷的速度,保障了用戶在大規(guī)模業(yè)務(wù)場景下的工作效率。

鏡像緩存算法實現(xiàn)原理
鏡像緩存算法實現(xiàn)原理

“通過針對磁盤IO監(jiān)控,我們發(fā)現(xiàn)在負(fù)載情況下虛擬機(jī)的磁盤IO性能有所降低。根據(jù)多次定位分析,了解虛擬機(jī)后端與宿主機(jī)系統(tǒng)盤處于相同存儲情況下會導(dǎo)致IO性能降低,因此為了保證讀寫不受宿主機(jī)系統(tǒng)盤干擾,選擇將虛擬機(jī)后端與宿主機(jī)系統(tǒng)盤分離部署。”

為了保證應(yīng)用在云環(huán)境的整體表現(xiàn),浪潮云海還對虛擬機(jī)規(guī)格(CPU、內(nèi)存、硬盤)進(jìn)行多次調(diào)整且關(guān)閉了KVM的內(nèi)存共享。有效防止因搶占導(dǎo)致性能降低關(guān)閉了CPU預(yù)留和CPU綁定,進(jìn)一步“預(yù)防”CPU不能被充分利用的情況,最終實現(xiàn)負(fù)載情況下虛擬機(jī)的CPU、內(nèi)存、硬盤都能保持較高的利用率,提升了大規(guī)模場景下虛擬機(jī)性能的穩(wěn)定性以及資源的利用率。

某一節(jié)點(diǎn)內(nèi)存共享關(guān)閉示例
某一節(jié)點(diǎn)內(nèi)存共享關(guān)閉示例

在SPEC測試過程中,浪潮云海選擇通過增大Nova并發(fā)任務(wù)數(shù)上限并實現(xiàn)鏡像緩存機(jī)制,降低了平均實例的配置時間。即增大Nova并發(fā)任務(wù)個數(shù)來減少虛擬機(jī)創(chuàng)建時的排隊時間,憑借鏡像緩存的技術(shù)手段解決同一個鏡像在創(chuàng)建多臺虛擬機(jī)的過程中頻繁下載、刪除、再下載鏡像導(dǎo)致耗時嚴(yán)重的問題。

為了改善并發(fā)場景,還一并優(yōu)化了haproxy線程數(shù),包含優(yōu)化連接池中最大SQL連接數(shù)、最大允許超出的連接數(shù)等關(guān)鍵信息。這在OpenStack云平臺大規(guī)模落地實踐中極具參考價值,能夠有效提高創(chuàng)建虛擬的成功率,同時更好滿足用戶快速、批量創(chuàng)建虛擬機(jī)的迫切需求。

增加Nova-conductor的worker數(shù),提高Nova處理能力示例
增加Nova-conductor的worker數(shù),提高Nova處理能力示例

 

鏡像緩存配置示例
鏡像緩存配置示例

作為全球性能、擴(kuò)展性等綜合技術(shù)水平領(lǐng)先的云平臺軟件,浪潮數(shù)據(jù)為未來智算中心建設(shè)提供了全球領(lǐng)先水平的 “云操作系統(tǒng)”,未來定將圍繞智算操作系統(tǒng)核心引擎的產(chǎn)品定位,持續(xù)打造云海OS硬核技術(shù)實力,推動企業(yè)數(shù)字化、智能化迅速轉(zhuǎn)型。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection