北京2023年10月25日 /美通社/ -- 人工智能、云計算、大數(shù)據(jù)等各類數(shù)字技術(shù)正在交織構(gòu)建一個全新的虛擬空間,生產(chǎn)、流通、科學(xué)、教育、娛樂、社交等等無不因此而變。在技術(shù)驅(qū)動下,新的數(shù)字文明正勃然而興,突飛猛進(jìn)的算力變革則是這次文明迭代的重要驅(qū)動力之一。自計算機問世以來,在短短的70余年的時間內(nèi),其性能從最初的每秒5000次運算發(fā)展到如今超級計算機的每秒百億億次計算,性能激增數(shù)百萬億倍。即便如此,面對蓬勃興起的生成式人工智能、元宇宙等技術(shù),算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅(qū)動下,通過各種方式尋找算力提升的路徑,無論進(jìn)步大小,自豪感都在驅(qū)使著他們繼續(xù)探索未知,甚至像一個科學(xué)家一樣琢磨各種跨界的技術(shù),并用于解決各類工程難題。他們具有發(fā)散的思維,也有著聚焦的能力,憑借對算力創(chuàng)新的熱情與追求,不斷拓展數(shù)字文明的邊界……。
112Gbps高速互連,服務(wù)器設(shè)計的“藝術(shù)”
Yang Yang,浪潮信息AI服務(wù)器工程師大軍中的一員,他所在的團隊負(fù)責(zé)進(jìn)行AI服務(wù)器系統(tǒng)架構(gòu)的研發(fā)工作,其中的關(guān)鍵是——設(shè)計開發(fā)出一款具備超高速互連性能的開放加速基板。
“以前,我們在強調(diào)怎么樣去提高單顆芯片的算力。但是到了大模型時代,模型訓(xùn)練動輒成千上萬張卡,單張芯片已經(jīng)完全無法承載。在新的AI超級計算機形態(tài)下,什么樣的互連架構(gòu)才能更好的支撐大模型業(yè)務(wù)發(fā)展,是我們重點研究的一個課題?!?/span>Yang Yang認(rèn)為,實現(xiàn)數(shù)千乃至上萬顆芯片互連并讓它們能夠高效協(xié)同工作的前提,是解決單個服務(wù)器內(nèi)部芯片的高速直連,這是一切問題的“原點”。
在他們團隊的努力下,浪潮信息定義了業(yè)界第一個符合OAM(開放加速模塊)規(guī)范的8卡互連AI系統(tǒng),這是一個遵循開放計算標(biāo)準(zhǔn)的互連的基板,首次達(dá)到了業(yè)界最高的單通道速率56Gbps。這個基板的厚度僅為3.26mm,層數(shù)卻高達(dá)22層,包含了近1000個高速互連差分對。
目前,56Gpbs仍然是開放加速規(guī)范下芯片互連的最高速率。Yang Yang表示:“下一步,我們將沖刺112Gbps單通道的高速互連通信,這種級別的速度提升,就相當(dāng)于我們從5G時代跨步進(jìn)入了6G時代?!?/span>
112Gbps 高速互連技術(shù)難點在于,在物理尺寸近乎不變的情況下,要將GPU間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著112Gbps信號對于抖動和噪聲的敏感程度更為強烈,即對于信道的串?dāng)_、SCD(信號在通過該通道時的差分能量變?yōu)楣材D芰康哪B(tài)轉(zhuǎn)化量,越低越好。)、PN Skew(內(nèi)外線路不等長造成的傳輸差異)、ILD(損耗,線損/阻抗的影響程度,即漂移度)等指標(biāo)的要求都更為嚴(yán)苛。
這不僅需要更高端的材料支撐,更考驗設(shè)計的“藝術(shù)”。要知道,3-5mm厚度的基板實際上是采用疊層設(shè)計,往往包含了十幾層甚至幾十層PCB板(印刷電路板),每層厚度僅有100微米左右,與一張A4紙相當(dāng)。而為了保證信號傳輸質(zhì)量,每組線路均需要采用差分對設(shè)計,即采用長度相等、相位相反的互補信號來傳輸同一個信號,以減少噪音和EMI(電磁干擾),這將使得布線量增加一倍,對于本就信號布線密度近乎極限的基板來說,無疑是雪上加霜。并且,差分對走線的寬度和間距必須始終保持一致,當(dāng)在基板上的障礙物,如過孔或較小的器件周圍布線時,對設(shè)計能力的要求更高。
因此,112Gbps高速互連設(shè)計不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時也要確保這些材料在加工之后能夠符合可靠度的規(guī)范,設(shè)計與工藝復(fù)雜度極高。
在Yang Yang看來,112Gpbs高速互連技術(shù)既需要科學(xué)的發(fā)散,也要做到工程的收斂:通過科學(xué)的發(fā)散尋找創(chuàng)新的可能性,通過工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運營等等,而可行性則是尋找“最大化或最小化”,是尋找最優(yōu)解的過程,“就像談到利潤,我們往往都會追求利潤最大化而成本最小化,最大化與最小化在很多時候是統(tǒng)一的,目標(biāo)是一致的。”
Yang Yang團隊所從事的工作能夠惠及數(shù)以百計的芯片創(chuàng)新公司以及更多數(shù)量的用戶:借助標(biāo)準(zhǔn)化的、性能出色的開放加速基板,芯片公司可以快速的實現(xiàn)產(chǎn)品落地并持續(xù)迭代,而用戶則可以使用統(tǒng)一的、開放的基礎(chǔ)架構(gòu),根據(jù)業(yè)務(wù)需要配置不同類型的AI加速芯片,加快創(chuàng)新和創(chuàng)造更好的用戶體驗。
聽音降噪,服務(wù)器優(yōu)化的“浪漫”
一臺服務(wù)器需要整合超過10000個零部件,其中包括50多類專用芯片;同時還涉及30多個技術(shù)方向,例如材料學(xué)、熱力學(xué)、電池技術(shù)、流體力學(xué)、化學(xué)等一系列學(xué)科;此外,一臺服務(wù)器里還會應(yīng)用超過100種傳輸協(xié)議。在制造中,服務(wù)器需要經(jīng)歷30多道流程,使用100多種加工和制造工藝,并對200多個關(guān)鍵過程的控制點進(jìn)行把控。
如何確保整個系統(tǒng)的可靠性,是一項非常精細(xì)且復(fù)雜的工程,每一個細(xì)節(jié)都關(guān)乎整體,甚至連聲音,也會影響到服務(wù)器的可靠性。四五年前,相當(dāng)數(shù)量的數(shù)據(jù)中心用戶幾乎都遇到了同一個問題:風(fēng)扇轉(zhuǎn)速越快,硬盤越有可能出現(xiàn)性能波動,嚴(yán)重時還會直接掉線。
“最開始以為振動是罪魁禍?zhǔn)?,后來才發(fā)現(xiàn)聲音才是始作俑者。”浪潮信息結(jié)構(gòu)工程師Cathy Wang以女性特有的敏銳,創(chuàng)造出一種獨屬于工程師的“浪漫”——聽音降噪。
團隊針對硬盤性能失效問題做了大量的實驗,發(fā)現(xiàn)風(fēng)扇產(chǎn)生的噪音一旦達(dá)到120分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進(jìn)而導(dǎo)致扇區(qū)失效乃至硬盤報廢、服務(wù)器宕機。“在結(jié)構(gòu)的領(lǐng)域來說有一個不可調(diào)和的矛盾,就是風(fēng)扇的轉(zhuǎn)速提高之后,它的噪音會向高頻段以及大聲壓這個方向去發(fā)展,而且它是這個聲音和轉(zhuǎn)速是成5次方的關(guān)系在增長的,所以我們看到一個非常明確且快速的風(fēng)扇的噪音增長的趨勢。這個風(fēng)扇和硬盤之間的沖突的問題,如何站在系統(tǒng)設(shè)計的角度,建立硬盤敏感度模型,成為業(yè)界廠商探討的難點?!?/span>Cathy Wang介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嘗試過正弦波、1/3倍頻程等走不通的路徑后,Cathy Wang所在的團隊才找到了最合適的噪音帶寬,并以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在500Hz~10000Hz噪音刺激下的共振頻率和聲壓閥值。基于大量機理性研究和測試,團隊發(fā)現(xiàn)硬盤性能損失與聲壓強度間的數(shù)學(xué)規(guī)律,構(gòu)建出業(yè)界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現(xiàn)。
“我們希望通過我們的研究工作,讓性能優(yōu)化從經(jīng)驗主導(dǎo)變?yōu)榭茖W(xué)主導(dǎo),借助于不斷完善的基礎(chǔ)理論、工具與方法,針對特定問題形成標(biāo)準(zhǔn)方案并設(shè)計出新的可復(fù)用知識?!?/span>Cathy Wang說道。
服務(wù)器里聲音的“黑盒子”就這樣被打開了。在確定機箱內(nèi)真正影響硬盤工作的噪音頻譜的基礎(chǔ)上,浪潮信息的工程師對服務(wù)器系統(tǒng)展開全方位的優(yōu)化設(shè)計。首先從噪聲振動的源頭入手,通過CFD流體動力學(xué)仿真改進(jìn)風(fēng)扇的葉片形態(tài),抑制扇葉表面因渦流脫落形成的高頻噪音;其次,在機箱內(nèi)通過設(shè)計40多種歌院式的消音結(jié)構(gòu),有效消除特定的高頻噪聲;此外,還對硬盤固件中的伺服控制算法進(jìn)行調(diào)整,讓硬盤磁頭的噪聲共振擺動控制在10納米以內(nèi),在提升讀寫效率、性能翻倍的同時,實現(xiàn)服務(wù)器安全運行。
融合架構(gòu)3.0,服務(wù)器架構(gòu)的“夢想”
大模型時代,當(dāng)在單機上獲得較高算力效率之后,能不能在幾百個節(jié)點、幾千塊卡保持相對線性的性能擴展比,已經(jīng)成為算力集群系統(tǒng)設(shè)計和并行策略設(shè)計時的關(guān)鍵性因素。在傳統(tǒng)計算體系結(jié)構(gòu)中,處理器橫向擴展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體系結(jié)構(gòu)工程師Lorne Ci 認(rèn)為:“傳統(tǒng)服務(wù)器是把所有的IT資源放到一個服務(wù)器里面。如果需要更多算力、更多內(nèi)存、更多IO的話,需要把服務(wù)器去做疊加,像我們通常意義上一個大規(guī)模的數(shù)據(jù)中心可能有十幾萬臺,甚至有幾十萬臺服務(wù)器。但簡單的堆疊只能堆出各種形態(tài)和規(guī)格的服務(wù)器,這對數(shù)據(jù)中心計算能力的提升,并沒有實質(zhì)性的幫助。需要把服務(wù)器IT資源都做成池化的形態(tài),然后通過軟件定義的方式來實現(xiàn)資源的動態(tài)調(diào)配。”
因此,Lorne Ci 團隊研究的方向是,創(chuàng)造一種新的體系架構(gòu),將硬件設(shè)備中的同類資源整合成一個資源池,不同的設(shè)備能夠任意的整合,再通過軟件動態(tài)感知業(yè)務(wù)的資源需求,利用硬件重組的能力來滿足各類應(yīng)用的需要。
浪潮信息將這種新的體系架構(gòu)命名為“融合架構(gòu)”,早在2014年就提出這一技術(shù)理念,核心在于通過硬件解耦實現(xiàn)資源的物理池化和動態(tài)重構(gòu),通過軟件定義實現(xiàn)業(yè)務(wù)感知的按需資源組合與配置,滿足系統(tǒng)的彈性伸縮和超大規(guī)模的持續(xù)擴展,實現(xiàn)軟硬高度協(xié)同發(fā)展。浪潮信息將融合架構(gòu)的發(fā)展劃分為三個階段,分別為“服務(wù)器即計算機(Server as a Computer)” ,“機柜即計算機(Rack as a Computer)”以及最終的“數(shù)據(jù)中心即計算機(Data Center as a Computer)”。
目前融合架構(gòu)3.0原型系統(tǒng)已經(jīng)研制成功,實現(xiàn)了計算資源、存儲資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細(xì)粒度多主機共享高并發(fā)存儲、亞微秒級遠(yuǎn)端內(nèi)存共享訪問等特性,可通過軟件定義實現(xiàn)“一套系統(tǒng),N類應(yīng)用”。
融合架構(gòu)3.0最核心的就是要做到內(nèi)存資源池的池化與算力資源池的池化。而如何實現(xiàn)遠(yuǎn)程內(nèi)存的調(diào)用,實現(xiàn)低延時的快速響應(yīng),如何實現(xiàn)緩存一致性……都是內(nèi)存池化面臨的重大挑戰(zhàn)。Lorne Ci 介紹說,“現(xiàn)在融合架構(gòu)基于許多開放總線技術(shù),包括PCIE、CXL等等,共同構(gòu)建一個大內(nèi)存系統(tǒng),構(gòu)建了一個高速高性能的互聯(lián)網(wǎng)絡(luò),這對于參數(shù)量和數(shù)據(jù)量激增的大模型訓(xùn)練有著巨大價值?!?/span>
伴隨著融合架構(gòu)3.0原型系統(tǒng)的研制成功,浪潮信息在融合架構(gòu)領(lǐng)域完成了重要的突破,實現(xiàn)了整機柜級別的計算、內(nèi)存、存儲與互聯(lián)等各種IT資源的池化。其中,內(nèi)存解耦實現(xiàn)了亞微秒級的遠(yuǎn)端內(nèi)存訪問,并構(gòu)建出了一種邏輯上可遠(yuǎn)端共享的內(nèi)存資源池。這種變化讓多臺主機可以訪問同一個內(nèi)存池,并最終大幅提高了數(shù)據(jù)交換的效率。新的架構(gòu)打破了現(xiàn)有服務(wù)器的邏輯架構(gòu)與應(yīng)用模式。它以系統(tǒng)設(shè)計為中心,可以讓數(shù)據(jù)中心從資源驅(qū)動型向業(yè)務(wù)驅(qū)動型轉(zhuǎn)變。面向云計算和人工智能等不同場景,這種新的架構(gòu)和新的組合方式,讓數(shù)據(jù)中心真正實現(xiàn)了,用一套系統(tǒng)去支撐多類應(yīng)用。
在如今這個逐漸成型的數(shù)字文明時代,計算已經(jīng)滲透到我們生活的方方面面。不論是在家庭中,商業(yè)世界,還是科學(xué)研究領(lǐng)域,計算技術(shù)都無處不在,這已經(jīng)成為了我們?nèi)粘I畹囊徊糠?。然而,我們必須認(rèn)識到,這只是數(shù)字文明的起點,計算的重要性將在未來進(jìn)一步凸顯。算力創(chuàng)新將成為數(shù)字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險前行以開辟新的大陸,今天無數(shù)的"算力拓荒人"將持續(xù)引領(lǐng)我們進(jìn)入數(shù)字時代的新境界。這些先鋒者將科學(xué)與工程融合,將"知"與"行"完美結(jié)合,以探索廣闊而充滿想象的未知之地。
在這條通往數(shù)字文明的開拓之路上,充滿了機遇與挑戰(zhàn),我們需要更多具備跨學(xué)科知識的"知行合一"的研發(fā)人員,科技工作者,去通過一系列前所未有的解決方案,將計算創(chuàng)新推向新的高度,使其持續(xù)閃耀,帶領(lǐng)我們走向數(shù)字文明的下一個巔峰。