omniture

浪潮云海劉健:"一云多芯+云原生"是算力異構(gòu)最優(yōu)解

2023-08-24 21:56 3450

北京2023年8月24日 /美通社/ -- 浪潮云海秉承開放兼容、分層解耦的技術(shù)理念,面向全行業(yè)用戶提供領(lǐng)先的私有云產(chǎn)品與解決方案,助力企業(yè)構(gòu)建堅實云基座,實現(xiàn)數(shù)字化重構(gòu)與轉(zhuǎn)型。在金融領(lǐng)域的云原生和云計算建設(shè)過程中,浪潮云海積累了豐富的實踐經(jīng)驗,憑借創(chuàng)新務(wù)實的實干理念,以客戶需求為核心的服務(wù)意識,得到了行業(yè)和客戶的廣泛認可。

浪潮數(shù)據(jù)云計算方案總監(jiān)劉健
浪潮數(shù)據(jù)云計算方案總監(jiān)劉健

本文系浪潮數(shù)據(jù)云計算方案總監(jiān)劉健演講實錄,以下內(nèi)容將從云計算的發(fā)展趨勢、金融云的趨勢及挑戰(zhàn)、浪潮云海在云原生基礎(chǔ)設(shè)施建設(shè)過程中的實踐成果三部分進行相關(guān)經(jīng)驗的分享和觀點的探討。

一、云計算發(fā)展趨勢:下一代云數(shù)據(jù)中心

目前,AI、5G、大數(shù)據(jù)這些詞匯已和云計算密不可分,在這樣的環(huán)境下,浪潮云海認為開放硬件、開放軟件以及軟硬件分層解耦已成為數(shù)據(jù)中心發(fā)展的重要趨勢,同時,面對更為多樣的計算場景,云計算體系架構(gòu)的演進、模型即服務(wù)、多元算力的管理能力也成為下一代云數(shù)據(jù)中心的進化方向。

軟硬件同步優(yōu)化

為滿足用戶對產(chǎn)品性能和使用體驗的需求,在倡導(dǎo)軟硬解耦的基礎(chǔ)上,浪潮云海同樣關(guān)注軟硬件的同步優(yōu)化。在云計算領(lǐng)域,通過對硬件的深度優(yōu)化,可大幅提升產(chǎn)品性能,以此解決軟件層容器和虛擬化的損耗問題;通過DPU改變底層的高可用架構(gòu),從而實現(xiàn)虛擬機高可用的邏輯切換。

廣泛的軟硬件協(xié)同

計算系統(tǒng)架構(gòu)的解耦和計算設(shè)備之間的互操作性是未來計算可持續(xù)發(fā)展的關(guān)鍵。在網(wǎng)絡(luò)層面,硬件SDN和網(wǎng)絡(luò)設(shè)備極易綁定,在解耦的階段,通過云上軟SDN和任意廠商網(wǎng)絡(luò)設(shè)備,配合GPU和智能網(wǎng)卡加速,就可以做到解除綁定和性能提升;在存儲系統(tǒng)層面,也可以通過同樣的辦法實現(xiàn)存儲系統(tǒng)的加速;在安全層面,以DPU做加強,可實現(xiàn)計算機系統(tǒng)負荷的卸載。以上都是通過硬件優(yōu)化來實現(xiàn)軟件的性能提速。

模型即基礎(chǔ)設(shè)施

隨著ChatGPT的持續(xù)火熱,模型已經(jīng)和算力、算法一樣,成為了下一代云的基礎(chǔ)設(shè)施標準。但從歸屬劃分上看,公有云上訓(xùn)練得到的模型仍屬于公有云,只有在私有云上基于自己的數(shù)據(jù)進行訓(xùn)練,才能得到專屬的大模型,這也是國內(nèi)大型金融機構(gòu)目前致力發(fā)展的方向。

多元算力

支撐新興業(yè)務(wù)發(fā)展,助力多元算力場景?,F(xiàn)在的數(shù)據(jù)中心從物理資源層上看基礎(chǔ)設(shè)施更加多元,X86和ARM設(shè)備的混部已成為常態(tài);用戶對算力引擎的需求也囊括了虛擬化、裸機、容器,且這一狀態(tài)將長期持續(xù);算力類型上也從單純的CPU向GPU、FPGA擴展。

二、金融云趨勢及挑戰(zhàn)

金融云發(fā)展趨勢

金融云發(fā)展大致可分為三個階段:IOE時代、業(yè)務(wù)云化時代、云原生時代。云原生能力又可概括為以下三點:應(yīng)用的容器化,服務(wù)的Mesh化及Serverless。金融IT本質(zhì)上是為組織和業(yè)務(wù)服務(wù)的,所以上層技術(shù)的變化往往源于組織架構(gòu)的變遷。業(yè)務(wù)架構(gòu)從單體、到服務(wù)化再到微服務(wù)架構(gòu),數(shù)據(jù)架構(gòu)從統(tǒng)計分析到數(shù)據(jù)服務(wù)湖倉一體,技術(shù)架構(gòu)對應(yīng)發(fā)展到服務(wù)網(wǎng)格,最終形成組織架構(gòu)和開發(fā)框架的變革。每個階段組織架構(gòu)和技術(shù)架構(gòu)都需要匹配,這是一個逐步演進的過程。

金融云建設(shè)挑戰(zhàn)

IaaS層的建設(shè)經(jīng)驗較為通用,但是PaaS層的建設(shè)則更加復(fù)雜,對此我們做出以下分析:

  1. IaaS和PaaS都有明顯的行業(yè)屬性,如果一個云廠商賣給所有客戶的PaaS都是一樣的,則它是不具備行業(yè)屬性的。每個行業(yè)的業(yè)務(wù)不同,要求的PaaS指標和組件也不同,標準化產(chǎn)品未必適用。
  2. 容器即服務(wù),很多場景下用戶認為PaaS不好用、不靈活是因為廠商將PaaS的基礎(chǔ)設(shè)施跟PaaS的服務(wù)整合在了一起,極端情況可能是每個產(chǎn)品都附帶了容器平臺。對此,浪潮云海的建設(shè)經(jīng)驗是把PaaS的功能解耦出來,使之成為容器即服務(wù)。
  3. 在業(yè)務(wù)層的搭建過程中,我們建議用戶建設(shè)一個統(tǒng)一的云基礎(chǔ)設(shè)施,并選擇業(yè)務(wù)可解耦的PaaS廠商,將解耦后的能力架設(shè)在統(tǒng)一的容器即服務(wù)平臺上。

微服務(wù)體系的建設(shè)也存在多架構(gòu)并存和逐步演進的過程:在微服務(wù)框架里面,Dubbo和SpringCloud是目前較為流行的應(yīng)用分布式、微服務(wù)開發(fā)框架,在金融行業(yè)應(yīng)用廣泛;而Istio目前的發(fā)展趨勢則是平臺級別的服務(wù)治理框架,可進行無侵入的遺留系統(tǒng)微服務(wù)改造。當然,微服務(wù)架構(gòu)的選擇和平臺規(guī)劃、公司規(guī)劃是密不可分的,同時也需要逐步去演進。

對于微服務(wù)的運維,我們建議將IaaS層和PaaS層打通,形成垂直運維體系。這里面臨如下挑戰(zhàn):PaaS組件版本、開發(fā)框架多,不同的PaaS組件有不同的硬件資源,導(dǎo)致部署效率低;在業(yè)務(wù)數(shù)據(jù)網(wǎng)絡(luò)隔離的情況下,如何解決PaaS的跨域使用。對此我們建議在網(wǎng)絡(luò)分區(qū)的情況下,根據(jù)使用環(huán)境需求按需部署、按需編排,并構(gòu)建統(tǒng)一發(fā)放的網(wǎng)絡(luò),把中間運維側(cè)打通,通過運維網(wǎng)絡(luò)將PaaS發(fā)放到不同的域里面去,通過就近部署、就近訪問,統(tǒng)一運維,實現(xiàn)PaaS層的統(tǒng)一。

三、浪潮云海云原生基礎(chǔ)設(shè)施創(chuàng)新與實踐

目前,浪潮云海主要著力于建設(shè)云原生基礎(chǔ)設(shè)施的底層,參考信通院發(fā)布的《云原生能力成熟度標準》,聚焦兩個方向來開展工作:第一,技術(shù)架構(gòu),主要是資源管理、運維保障、研發(fā)測試等;第二,業(yè)務(wù)應(yīng)用,主要是彈性、高可用、自動化、可觀測等。

"一云多芯+云原生"

在金融云的建設(shè)實踐中,"一云多芯"是金融行業(yè)云的一項重要的基礎(chǔ)指標。一云多芯"可滿足用戶算力多樣化需求,并且可有效規(guī)避算力孤島;是打破小生態(tài)、構(gòu)建大生態(tài)的關(guān)鍵紐帶; 并且可有效降低供應(yīng)鏈風(fēng)險 。無論是從業(yè)務(wù)角度、技術(shù)角度,還是產(chǎn)業(yè)鏈角度,踐行"一云多芯"已經(jīng)成為當下及未來云計算產(chǎn)業(yè)發(fā)展的關(guān)鍵,是產(chǎn)業(yè)鏈相關(guān)廠商的必然選擇,現(xiàn)在,能源、電力行業(yè)也對一云多芯提出了明確的要求。

浪潮云海認為"一云多芯+云原生"是解決算力異構(gòu)的最優(yōu)解,我們根據(jù)無狀態(tài)和有狀態(tài)兩種業(yè)務(wù)形態(tài)總結(jié)出以下實踐經(jīng)驗:

  1. 對于無狀態(tài)應(yīng)用,基本都基于Java開發(fā),編譯過程并不難,重新編譯后的應(yīng)用,都能運行在多芯集群里,對底層CPU或服務(wù)器并無太多限制;
  2. 對于有狀態(tài)的數(shù)據(jù),最重要的是保障數(shù)據(jù)庫數(shù)據(jù)無丟失,不一定要追求一云多芯。但可以進行相關(guān)嘗試,如在一云多芯環(huán)境中部署分布式數(shù)據(jù)庫,可以用X86算力支撐primary集群或?qū)懖僮鳎梅荴86算力承載standby或者讀操作,這是數(shù)據(jù)庫一云多芯的一種實現(xiàn)方式。這種模式也可以應(yīng)用在數(shù)據(jù)庫層面的容災(zāi)建設(shè)中。

除了考慮業(yè)務(wù)形態(tài),我們在實踐過程中還總結(jié)了以下幾個建設(shè)要點:

  1. 集群內(nèi)的算力自動等價調(diào)度:因為不同架構(gòu)服務(wù)器之間有算力的換算問題;對此,我們聯(lián)合信通院及多家廠商,進行過算力自動等價調(diào)度測試;
  2. 流量切換:在實踐中可通過網(wǎng)關(guān)切換來實現(xiàn);
  3. 無感切換:目前我們的產(chǎn)品已經(jīng)具備這種能力,用戶底層基礎(chǔ)設(shè)施的架構(gòu)并不會影響上層業(yè)務(wù)運行,用戶可基于不同架構(gòu)的底層資源進行動態(tài)的調(diào)整和資源的調(diào)用。

微服務(wù)架構(gòu)體系的建設(shè)

對于微服務(wù)架構(gòu)體系的建設(shè),如上提到,首先是開發(fā)框架的并存問題。對此,我們建議通過配置中心將各架構(gòu)統(tǒng)管起來,先把共性的東西抽離出來,再進一步做融合。其次是多數(shù)據(jù)中心的問題,目前用戶普遍都有多套數(shù)據(jù)中心,對此,可以通過級連的方式做管理,用總分總的模式進行管理。

高可用設(shè)計

下一代云的高可用設(shè)計在云原生層面不難實現(xiàn),但并不是所有業(yè)務(wù)都是云原生的,這就使得難以從上層解決高可用的問題。作為基礎(chǔ)設(shè)施廠商,我們提倡通過底層建設(shè),即使不依賴云原生也能實現(xiàn)高可用。所以對于下一代的高可用架構(gòu),我們希望可以在這兩個維度上來回切換,同時也希望能打通裸機和虛擬機的控制平面,實現(xiàn)多引擎間的高可用。這其中還有很多挑戰(zhàn),仍需逐步演進。

目前浪潮云海已經(jīng)服務(wù)了15000多家客戶,在各個行業(yè)全面開花,涵蓋金融、能源、交通、醫(yī)療、企業(yè)、教育等關(guān)鍵領(lǐng)域,是客戶數(shù)字化、智慧化轉(zhuǎn)型的重要云底座。這其中包括國內(nèi)最大規(guī)模的金融生產(chǎn)云,承載客戶的雙11業(yè)務(wù);最大規(guī)模、芯片種類最多的省級政務(wù)云,承載4套公共應(yīng)用服務(wù),104個業(yè)務(wù)系統(tǒng);以及汽車、軌交、科學(xué)計算實驗室等多個千萬級大項目。

消息來源:浪潮云海
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection