北京2022年1月4日 /美通社/ -- “風扇轉(zhuǎn)速剛過每分鐘2萬轉(zhuǎn),硬盤就掉鏈子,而且多次測試結(jié)果都是這樣。”即使看慣了實驗室里不同工況條件下的大場面,浪潮信息服務(wù)器研發(fā)工程師張海龍對眼前的情況還是有些驚訝,“畢竟各種因素趕到一塊兒的場景太罕見了”。
其實,任何事物在帶來好處的同時,都要付出一定的代價。所謂魚和熊掌兼得,不過是成千上萬次再平衡之后的偶然。
比如:芯片的性能越高,產(chǎn)生的功耗也會隨之增大,提高散熱能力就成為謀求平衡的籌碼;而追求極限散熱,難免對硬盤等部件造成沖擊,兼顧可靠性又變成新一輪平衡游戲的主題。
當然,散熱和可靠性并非零和博弈,只要管控好變量,就有機會走出囚徒困境。
懸在頭上的達摩克利斯劍
在千行百業(yè)數(shù)字化轉(zhuǎn)型的大時代,數(shù)據(jù)中心既是驅(qū)動增長的重要引擎,也是不容忽視的“耗電怪獸”。2020年,我國數(shù)據(jù)中心用電量突破2000億千瓦時,占用電總量比重約2.7%;預(yù)計到2030年,這一數(shù)字將突破4000億千瓦時,占比升至3.7%。
工信部近期印發(fā)《新型數(shù)據(jù)中心發(fā)展三年行動計劃(2021-2023年)》,對PUE(數(shù)據(jù)中心總能耗/IT設(shè)備能耗)明確規(guī)定:到2021年底,新建大型及以上數(shù)據(jù)中心PUE降低到1.35以下,到2023年更要低于1.3。
顯而易見,1.3將成為各地新建數(shù)據(jù)中心的PUE紅線。但目前全國大型數(shù)據(jù)中心平均PUE為1.55,超大型數(shù)據(jù)中心平均PUE也僅為1.46。也就是說,在保有量萬臺服務(wù)器的數(shù)據(jù)中心,每耗費一度電,只有64.5%用于IT領(lǐng)域,其余35.5%則用在空調(diào)等非IT設(shè)備。
數(shù)據(jù)中心為了降低PUE,必須讓能源更多向IT設(shè)備傾斜,這對服務(wù)器的供電和散熱研發(fā)設(shè)計提出了更高要求。供電效率提升可降低CPU等關(guān)鍵部件散熱量,從而減少空調(diào)等設(shè)備的使用。浪潮信息掌握了從12V到48V直流供電技術(shù),48V直流供電預(yù)計可減少30%的能耗。
液冷是散熱技術(shù)的翹楚,可以用液體取代空氣作為冷媒,帶走部件熱量,目前常見的方式有冷板、浸沒、風液混合等,已在云數(shù)據(jù)中心和邊緣數(shù)據(jù)中心規(guī)?;渴?,對降低PUE效果顯著。但液冷技術(shù)對數(shù)據(jù)中心的機房環(huán)境要求苛刻,重新改造的成本也較高,浸沒式液冷的冷卻液價格更是堪比茅臺。
對大多數(shù)數(shù)據(jù)中心來說,風冷才是低成本改善散熱的主流方案,最“簡單粗暴”的做法是提高服務(wù)器風扇轉(zhuǎn)速。風扇高速轉(zhuǎn)動將熱量快速帶出,可避免部件發(fā)熱量過高影響系統(tǒng)穩(wěn)定性。但不斷加碼風扇轉(zhuǎn)速直至滿轉(zhuǎn)時,風扇與硬盤之間會形成大的漩渦,而不規(guī)則的湍流影響非常嚴重 -- 服務(wù)器內(nèi)的硬盤碟片磁道密度低于50nm、Ocylim低于10nm,磁頭輕微振動就會造成讀寫性能大幅下降,甚至導致整個硬盤報廢。
御風而行的“逍遙”苦旅
莊子在《逍遙游》中有言:“夫列子御風而行,泠然善也。旬有五日而后反。彼于致福者,未數(shù)數(shù)然也。”一場不強求結(jié)果的十五天旅行,固然悠游瀟灑,但僅限于個人境界,無關(guān)萬物蒼生。
當張海龍及其背后的研發(fā)團隊遭遇系統(tǒng)風扇與硬盤的激烈博弈,想在散熱和可靠性的夾縫中尋求突破時,他們無法輕松自在,跨度長達一年半的“御風之旅”充滿艱辛。
風冷方案歷經(jīng)40多年的演變,主要通過三條路徑實現(xiàn)散熱優(yōu)化:一是從散熱器入手,比如材料由鋁變成銅、將翅片加大擴展散熱面積、改良熱管排布、利用富余空間補充遠端散熱等;二是提高風扇速度,制約點是機電控制和馬達質(zhì)量,主要交由幾家專業(yè)的風扇廠商負責;三是在發(fā)熱元件附近部署傳感器,類似人體的末梢神經(jīng),一旦感知局部升溫就快速投放冷量,反饋越靈敏,調(diào)控越精準。
對服務(wù)器廠商而言,風扇調(diào)控策略是其擅長的領(lǐng)域,研發(fā)團隊要做的,恰是從系統(tǒng)風扇本體的聲振性能為切入點,解決散熱與可靠性之間的博弈。
從可能的振源到受振敏感元件之間的路徑太多,需要借助對比和定量分析法,對各個因子逐一進行耦合切斷,主板、存儲控制卡、背板連接器等都曾上過“黑名單”。
在經(jīng)歷近半年的排查分析后,一個“突發(fā)奇想”的行動 -- 索性切開機箱,把振動傳遞路徑上的影響因子全部做解耦抽離,迫使真正的“元兇”浮出水面。機箱一切兩段,切斷了機械傳動路徑,中間用紙板把硬盤和風扇隔開,硬盤不再受風的影響,同時對風扇產(chǎn)生的噪聲也有一定遮擋,硬盤讀寫功能逐漸攀高。再換不同轉(zhuǎn)速的風扇及方案組合進行反復驗證,最終工程師找出了“氣動噪聲”這個“深藏不露”的重要影響因子。
在流體力學中,這個影響因子叫做:“湍流”,也就是濟南趵突泉公園康熙題字碑的“激湍”的標準名稱。湍流打到風扇扇葉上,風回來得比較無序,而且有部分聲音從風扇背面?zhèn)鞯角胺?。要把大的空氣漩渦破掉,最理想的方案肯定是將湍流轉(zhuǎn)換成層流,或者在高風壓條件下把大湍流切成小湍流。
PS:H.Tennekes&J.L. Lumley 曾對湍流進行過評論:嘗試解決湍流問題的成功與否,強烈地取決于包括做出關(guān)鍵性假設(shè)的靈感。 湍流需要奔放的發(fā)明者,正如需要專業(yè)分析師那么重要。
傳統(tǒng)服務(wù)器會采用減振墊來減緩振動,這種方法針對機械傳動路徑有效。同時依靠風扇后端的擋風罩切割和控制風向。但當系統(tǒng)風扇轉(zhuǎn)速從每分鐘2萬轉(zhuǎn)提升到3萬轉(zhuǎn),機箱內(nèi)部的湍流問題就愈發(fā)凸顯,亟需新的機械結(jié)構(gòu)在風力源頭擔當重任。
沒有人愿意啃硬骨頭,除非被逼到墻角。從層流到湍流的轉(zhuǎn)體,是業(yè)界公認的難題。北大的數(shù)學大神韋東奕曾從數(shù)學模型的角度求解層流到湍流的變化,獲得百萬獎金。服務(wù)器的研發(fā)工程師則在應(yīng)用維度作出開創(chuàng)性的嘗試:從初期的百葉窗到最后敲定波導網(wǎng),其間歷經(jīng)成百上千次的錘煉。研發(fā)工程師采用不同寬度、孔徑的橫向或縱向波導網(wǎng)進行多次對照試驗,起始階段效果并不理想,沒有滿足高可靠性的要求。但測試證明波導網(wǎng)的確能有效緩解振動,有助于提升通風量并形成穩(wěn)定的平行風流。
一個偶然的機會,研發(fā)人員受到深圳機場航站樓六邊形建筑結(jié)構(gòu)啟發(fā),萌生蜂巢形狀波導網(wǎng)設(shè)計思路。綜合測試后發(fā)現(xiàn),六邊形波導網(wǎng)既節(jié)省材料,通風量也適宜,同時足夠堅固,對風流能有力約束,并減小湍流造成的振動,解決了風扇散熱與可靠性無法兼得的難題。
波導網(wǎng)內(nèi)部為鋁制六邊形蜂巢狀小孔,單邊厚度不足0.2mm,重量僅11克左右,可謂“薄如蟬翼”。為探求不同機型最佳波導網(wǎng)結(jié)構(gòu),研發(fā)工程師還針對蜂巢單元的尺寸和蜂巢板的厚度進行測試,為每一款服務(wù)器找到孔徑、厚度相匹配的波導網(wǎng),并對降噪需求突出的機型填加了吸音海綿。
相關(guān)數(shù)據(jù)顯示,配置波導網(wǎng)的M6服務(wù)器散熱效率大幅提升17%~22%,可讓數(shù)據(jù)中心環(huán)溫提升1.5~2攝氏度,節(jié)約6%~8%的能耗。此外,波導網(wǎng)還能減少氣流對硬盤高頻振動的影響,硬盤IOPS性能提升8%~10%。
“風水大師”背后的故事
波導網(wǎng)的橫空出世,既是極限壓力環(huán)境下的成果,也是浪潮信息特色研發(fā)模式的產(chǎn)物。
主賽道和訓練賽道相結(jié)合,是孕育新技術(shù)、產(chǎn)品和解決方案的溫床。浪潮信息在技術(shù)儲備方面有良好的預(yù)研體系,結(jié)構(gòu)、散熱就是其中的項目。預(yù)研中的技術(shù)通常具有前瞻性,要在訓練賽道上摸爬滾打;而產(chǎn)品研發(fā)更貼近市場需求,預(yù)研中相對成熟的技術(shù),才有機會躋身主賽道。波導網(wǎng)從預(yù)研到成為M6服務(wù)器產(chǎn)品的標配,正是主輔賽道轉(zhuǎn)化機制的受益者。
仿真與測試協(xié)同作戰(zhàn),是研發(fā)進程節(jié)時降本、效率提升的不二法門。從硬盤、背板到風扇前界面空間極小,風道來源異常復雜,風洞、煙霧等實測方式無法實施,針對風流、風壓的流體仿真和基于各種特殊要求的機械可靠性仿真,就顯得尤為重要。波導網(wǎng)率先嘗到了甜頭,為更多新技術(shù)的仿測協(xié)同樹立了標桿。
打破各個資源壁,重新構(gòu)建跨部門合作關(guān)系,是達成最優(yōu)方案的核心路徑。波導網(wǎng)是全新的部件,需要散熱、結(jié)構(gòu)、存儲等不同團隊持續(xù)磨合,在相互妥協(xié)的過程中探尋創(chuàng)新的可能。對單一指標的過分強調(diào),有時會變成研發(fā)中最大的障礙,而每一次基于共同目標的“讓步”,才是通往成功的階梯。
優(yōu)秀的研發(fā)模式是復制更多波導網(wǎng)傳奇的基石 -- 知道風在哪一個方向吹,就不會迷失在亂云飛渡的技術(shù)湍流里。