北京2023年3月16日 /美通社/ -- 延續(xù)長達半個世紀的"摩爾定律",讓不少人難免產(chǎn)生這樣的錯覺:同樣的成本,總能不斷獲得更強的計算資源。事實上,摩爾定律僅僅來自戈登·摩爾在上世紀60年代得出的經(jīng)驗之談,并非自然定律。隨著企業(yè)數(shù)字化轉型的提速,企業(yè)對算力性能需求的高漲致使芯片制程不斷逼近物理極限,通用型芯片日益高漲的成本讓摩爾定律舉步維艱。
因此,那些提前預見到"后摩爾時代"的企業(yè)紛紛探索可行的技術路線,在確保高質量發(fā)展的前提下,維系能促進數(shù)字化轉型的性能與成本關系。早在十多年前,亞馬遜云科技就開始意識到通用芯片在云基礎設施中的無效性能和能源損耗等問題,并將注意力轉向專為云計算定制的芯片和硬件?;趯υ骗h(huán)境復雜性的深刻理解以及底層技術對上層應用影響的深刻洞見,亞馬遜云科技走上了自研芯片的創(chuàng)"芯"之路。
"足夠好,還遠遠不夠好"
關于開發(fā)云計算自研芯片的意義,亞馬遜云科技首席技術官Werner Vogels在2022 re:Invent全球大會上表示:"足夠好,還遠遠不夠好。"比如,當開發(fā)者使用參數(shù)強大的GPU來執(zhí)行機器學習模型從構建到訓練、推理的全過程時,由于GPU并未進行過針對不同任務的優(yōu)化,因此性能損耗往往超出想象,并且開發(fā)者還要負擔高昂的硬件和能耗成本。
云計算用戶必然不斷追求更強的算力,但沒有用戶愿意看到"量價齊升"。為此,亞馬遜云科技在本世紀初就開始進行云計算定制硬件的開發(fā),并在2006年推出第一個Amazon Elastic Compute Cloud(Amazon EC2)實例。此后,隨著云端業(yè)務多樣性與復雜性加劇,以及用戶對降本增效的需求提升,亞馬遜云科技意識到底層技術的定制化創(chuàng)新必然成為云計算高速發(fā)展不可或缺的一塊拼圖。
2013年,亞馬遜云科技推出云服務器虛擬化引擎Amazon Nitro系統(tǒng),由此開始了在云計算底層技術賽道上領跑行業(yè)的十年。2015年在收購Annapurna Labs之后,亞馬遜云科技自研芯片駛入快車道,到2017年就已開發(fā)了多個自研芯片,包括虛擬化系統(tǒng)、云原生處理器和機器學習訓練及推理芯片。亞馬遜云科技自研芯片助推了Amazon EC2實例數(shù)量的快速增長,現(xiàn)在Amazon EC2實例已多達600余種,幾乎覆蓋了全部操作系統(tǒng)和應用,讓數(shù)百萬客戶都能在亞馬遜云科技上找到最合適的方案,應對極端的業(yè)務需求。
抹平虛擬化的性能損耗
Nitro系列虛擬化定制芯片是亞馬遜云科技自主創(chuàng)"芯"的起點。虛擬化作為云計算的"基石",所占用的計算資源曾一度高達30%,即是說用戶所購買算力中有近三分之一成了"門票"而并未獲得實質性算力回報。
Nitro誕生的重要目標之一,就是從底層技術上解決虛擬化性能損耗難題。通過定制芯片和獨立的模塊化設計,讓Nitro專門承擔云計算系統(tǒng)的所有虛擬化功能,將虛擬化帶來的性能損耗控制在1%以下,幾乎可以忽略不計,讓用戶所購買的實例算力能夠近乎100%地服務于業(yè)務。同時,Nitro的安全芯片為用戶提供了硬件級別的安全機制,不但實現(xiàn)了網(wǎng)絡、存儲隔離的獨立安全通道,還在數(shù)據(jù)傳輸?shù)乃协h(huán)節(jié)都可以實現(xiàn)硬件級別加密,用戶可獲得更強的數(shù)據(jù)安全性。
從2013年到2020年,亞馬遜云科技已陸續(xù)將Nitro更新至第四代,而且Nitro的升級仍在持續(xù)。在去年2022 re:Invent全球大會上,亞馬遜云科技又推出了全新的第五代Nitro,進一步提升了數(shù)據(jù)處理能力并降低延遲。如果將性能上的提升換算成能耗比,第五代 Nitro將每瓦性能提高了40%,從另一個維度給用戶帶去更高的性價比。
相應地,由第五代 Nitro 支持的新實例Amazon EC2 C7gn也一同發(fā)布。在最新一代Nitro的加持下,C7gn與當前一代C6gn相比,具有更強的網(wǎng)絡處理能力,這也讓C7gn成為所有Amazon EC2網(wǎng)絡優(yōu)化型實例中,能提供最高網(wǎng)絡帶寬和數(shù)據(jù)包轉發(fā)性能的實例。C7gn實例還提高了多達25%的計算性能及多達2倍的加密性能,為用戶優(yōu)化在Amazon EC2上要求最嚴苛的網(wǎng)絡密集型工作負載的成本,并提供更強大的擴展性能。
自研芯片持續(xù)升級及規(guī)模化應用為用戶帶來更高性價比
Nitro幫助用戶告別了算力損耗,那么用戶已到手的這部分算力,又該如何跑贏摩爾定律?
亞馬遜云科技首席執(zhí)行官 Adam Selipsky 曾表示:"如果希望針對所有可能的工作負載徹底變革計算的性價比,還需要徹底重新思考實例。為了實現(xiàn)這個目標,我們需要深入底層技術直達芯片。"最終亞馬遜云科技交出的答卷,是基于ARM架構的通用型云原生處理器Graviton。
相比X86架構,Graviton低成本和高核心密度的特性在高計算密度領域更具優(yōu)勢,能耗表現(xiàn)也更佳,但在當時ARM架構并未在基于云計算的企業(yè)級應用領域取得突破。采用ARM架構,意味著亞馬遜云科技要開拓一個幾乎沒有用戶基礎的賽道。
亞馬遜云科技在2018年推出首代Graviton處理器,隨后在2020年推出Graviton 2并實現(xiàn)規(guī)模化應用,開創(chuàng)了ARM處理器企業(yè)級應用的標桿。同時,每一代Graviton都保持著大幅度的性能提升,其中2021年宣布推出的Graviton 3相比上一代單核性能提升25%,浮點性能提升2倍,并且由于采用ARM架構,還實現(xiàn)相比x86實例多達60%的能耗下降。
近年來,隨著人工智能和自動駕駛等新興應用對高性能計算優(yōu)化實例的負載與性價比需求出現(xiàn)倍數(shù)級提升,亞馬遜云科技在2022 re:Invent全球大會上發(fā)布了專門對浮點和向量指令運算進行了優(yōu)化的Graviton 3E,以及由其提供支持的高性能計算優(yōu)化實例Hpc7g。Hpc7g相比當前一代Hpc6a實例性能提升達20%,讓用戶能夠在多達數(shù)萬個內核的高性能計算集群中進行復雜計算,為計算流體動力學、天氣模擬、基因組學和分子動力學等高性能計算工作負載提供超高的性價比,進一步解決難度系數(shù)持續(xù)增加的問題并降低高性能計算工作負載的成本。
為了讓用戶獲得更高性價比,方便用戶采用Graviton實例,亞馬遜云科技已將20多種托管服務運行在Graviton之上,并且這一數(shù)字還在持續(xù)增加。這些服務包括用戶經(jīng)常使用的Amazon Relational Database Service、Amazon Aurora、Amazon ElastiCache、Amazon MemoryDB for Redis、Amazon OpenSearch、Amazon EMR、Amazon Elastic Kubernetes Service和Amazon Lambda等。托管服務大幅降低了客戶將應用遷移到 Graviton的復雜度,時間可以從幾天降低到幾分鐘,而且轉移到Graviton實例上即可實現(xiàn)高達40%的性價比提升。
專"芯"應對機器學習各環(huán)節(jié)
隨著機器學習逐漸步入超大模型時代,十億級參數(shù)模型比比皆是,已然成為壓榨算力的黑洞。其所消耗的算力與成本也讓企業(yè)不堪重負。
雖然被廣泛應用于機器學習的通用芯片差不多每兩年就能實現(xiàn)性能翻倍,但仍然難以跟上訓練模型復雜度的提升速度。亞馬遜云科技認為,未專門針對機器學習優(yōu)化的GPU將難以長期勝任云上機器學習任務,唯一的解決方法是通過分布式多處理器,將一個模型通過網(wǎng)絡協(xié)同計算處理。為此,亞馬遜云科技針對機器學習的兩個環(huán)節(jié),分別推出了用于訓練的Amazon Trainium芯片和用于推理的Amazon Inferentia芯片。
2022年10月,亞馬遜云科技推出基于Trainium的Amazon EC2 Trn1實例,專為云中高性能模型搭建,最多可搭載16顆Trainium芯片,擁有512GB高帶寬內存和800Gbps網(wǎng)絡帶寬。亞馬遜云科技在2022 re:Invent全球大會上,發(fā)布了增強的Trn1n實例,網(wǎng)絡帶寬躍升至1.6Tbps,可將萬余個Trainium芯片構建在一個超大規(guī)模集群上,實現(xiàn)對超大模型進行并行訓練。
亞馬遜云科技針對推理的Inferentia芯片則在2018年發(fā)布,并在次年推出對應的Amazon EC2 Inf1實例,能夠幫助用戶實現(xiàn)低延時低成本的推理。亞馬遜云科技在2022 re:Invent全球大會上,又發(fā)布了新一代推理芯片Inferentia 2及基于此芯片的Amazon EC2 Inf2實例,以應對深度學習模型規(guī)模和復雜度的指數(shù)級增長。Inf2實例是唯一一個專為大型Transformer模型的分布式推理所構建的實例。與Inf1實例相比,Inf2實例吞吐量提升4倍,延時只有1/10,每瓦性能提升45%。Inf2實例可以運行高達1,750億參數(shù)的大模型,足以勝任諸如GPT-3、Mask R-CNN、ViT等超大型復雜模型。
十年領跑,硬件創(chuàng)新進入加速期
美國計算機科學家、圖靈獎獲得者Alan Kay曾經(jīng)說過:"真正認真對待軟件的人應該制造自己的硬件。"亞馬遜云科技十年創(chuàng)"芯"與這一論斷不謀而合,通過長年深耕自研芯片和硬件,在底層技術層面建立起顯著的差異化優(yōu)勢。
近年來,定制硬件創(chuàng)新對于云計算的重要性已得到越來越多企業(yè)的關注和認可。亞馬遜云科技首席技術官Werner Vogels預測"2023年,專用芯片的使用將迅速增加,工作負載利用硬件優(yōu)化帶來最大化性能,同時降低能耗和成本。"這也意味著定制硬件將成為云端算力最可靠的增長引擎之一,幫助用戶以更優(yōu)的成本和性能回報,獲得支持企業(yè)高質量發(fā)展的數(shù)字化能力。