omniture

浪潮網(wǎng)絡(luò)助力打造 面向AIGC的"三超"網(wǎng)絡(luò)

2023-08-18 15:42 4196

北京2023年8月18日 /美通社/ -- 從內(nèi)容生成、游戲開(kāi)發(fā)、到自動(dòng)化助手、機(jī)器人控制……AIGC這項(xiàng)"黑科技",正在更多領(lǐng)域發(fā)揮著作用,并逐漸向行業(yè)滲透。例如,在數(shù)字政府場(chǎng)景,通過(guò)融合AIGC和數(shù)字人技術(shù),可以提供個(gè)性化的政務(wù)服務(wù)和咨詢,優(yōu)化政府與公民的互動(dòng)方式,提升政務(wù)服務(wù)的質(zhì)量和效率。目前,AIGC主要聚焦在大模型訓(xùn)練、MaaS模型服務(wù)、AIGC推理三大應(yīng)用場(chǎng)景,其中大模型訓(xùn)練是各新興企業(yè)競(jìng)相爭(zhēng)逐的主要場(chǎng)景。

"沒(méi)有好網(wǎng)絡(luò),別玩大模型。" 要建設(shè)大規(guī)模訓(xùn)練模型集群,除了需要GPU服務(wù)器、網(wǎng)卡等基礎(chǔ)組件,也需要解決網(wǎng)絡(luò)搭建的問(wèn)題。網(wǎng)絡(luò)對(duì)于大模型集群的算力釋放和可靠運(yùn)行至關(guān)重要,如何構(gòu)建符合大模型集群計(jì)算要求的網(wǎng)絡(luò)系統(tǒng),是推進(jìn)AIGC發(fā)展的關(guān)鍵之一。

AIGC大模型訓(xùn)練 對(duì)網(wǎng)絡(luò)系統(tǒng)的"三超"要求

在大模型訓(xùn)練過(guò)程中,有三種流量模型,分別是張量并行、流水線并行、數(shù)據(jù)并行。人們熟知的ChatGPT3,采用128臺(tái)A100服務(wù)器,共計(jì)1024個(gè)A100卡訓(xùn)練,這樣單服務(wù)器節(jié)點(diǎn)需要4個(gè)100G網(wǎng)絡(luò)通道;而ChatGPT4、ChatGPT5等其它大模型,對(duì)于網(wǎng)絡(luò)的需求會(huì)更高。浪潮網(wǎng)絡(luò)認(rèn)為大模型訓(xùn)練對(duì)于網(wǎng)絡(luò)的要求可用"三超"網(wǎng)絡(luò)來(lái)概括,即:超大規(guī)模、超高帶寬、超強(qiáng)可靠,以保障網(wǎng)絡(luò)穩(wěn)定、可靠運(yùn)行,為大模型訓(xùn)練提供強(qiáng)有力的支持。

而要解決"三超"網(wǎng)絡(luò)的挑戰(zhàn),就需要著重思考如何建設(shè)符合大規(guī)模訓(xùn)練的組網(wǎng)方案。從組網(wǎng)架構(gòu)上看,當(dāng)前AIGC組網(wǎng)一般多采用胖樹(shù)架構(gòu),具有高帶寬、低延遲的特性,以及較好的可拓展性。而在組網(wǎng)協(xié)議上,當(dāng)前業(yè)界主流的是基于IB、及RoCE兩種無(wú)損網(wǎng)絡(luò)技術(shù),兩種技術(shù)都可以很好的滿足大規(guī)模訓(xùn)練高帶寬、低延遲的要求。IB的延遲足夠低,而RoCE在開(kāi)放性、性價(jià)比、及易維護(hù)性幾方面更勝一籌。

浪潮網(wǎng)絡(luò)融合趨勢(shì)與驅(qū)動(dòng) 打造基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案

浪潮網(wǎng)絡(luò)作為云邊協(xié)同智慧網(wǎng)絡(luò)引領(lǐng)者,密切關(guān)注市場(chǎng)發(fā)展及變化,推出了基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案,助力AIGC"三超"網(wǎng)絡(luò)的打造,其具備如下優(yōu)勢(shì):

一是多協(xié)議、多場(chǎng)景的融合。在大規(guī)模集群中,往往存在通用計(jì)算集群、AI/HPC集群、存儲(chǔ)等多種場(chǎng)景,傳統(tǒng)方案是部署以太網(wǎng)、IB、FC等多套網(wǎng)絡(luò)及多種協(xié)議,各協(xié)議之間互不兼容,大大增加了管理和維護(hù)的難度。而浪潮網(wǎng)絡(luò)基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案,可以適配通用計(jì)算、AI/HPC、存儲(chǔ)等多種場(chǎng)景,并實(shí)現(xiàn)以太/IB/FC三網(wǎng)融合。這樣從維護(hù)多張網(wǎng)絡(luò)到維護(hù)一張網(wǎng)絡(luò),大大降低了整體建設(shè)和維護(hù)成本。

二是智能彈性、動(dòng)態(tài)調(diào)整。在大規(guī)模集群訓(xùn)練中,要求整個(gè)集群可以快速部署與交付,在節(jié)約訓(xùn)練時(shí)間的同時(shí),盡可能減少宕機(jī)等故障的發(fā)生。在浪潮網(wǎng)絡(luò)基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案中,通過(guò)數(shù)字化網(wǎng)絡(luò)引擎IDE可以實(shí)現(xiàn)集群網(wǎng)絡(luò)的自動(dòng)化部署,加速業(yè)務(wù)上線。并實(shí)時(shí)監(jiān)控設(shè)備與鏈路的負(fù)載和健康狀態(tài),如CRC錯(cuò)包,端口帶寬百分比、隊(duì)列緩存,CNP及Pause反壓幀等,完成故障的快速定位及智能分析,實(shí)現(xiàn)基于業(yè)務(wù)的網(wǎng)絡(luò)跟蹤。此外,還可以提供北向標(biāo)準(zhǔn)API接口,能夠與上層計(jì)算平臺(tái)進(jìn)行對(duì)接,實(shí)現(xiàn)算網(wǎng)聯(lián)動(dòng),更好的釋放集群算力。

此前,浪潮網(wǎng)絡(luò)基于RoCE的智能無(wú)損網(wǎng)絡(luò)解決方案,已在教科研客戶項(xiàng)目中得以應(yīng)用,方案可充分滿足通用計(jì)算集群、GPU加速集群、異構(gòu)計(jì)算集群、分布式存儲(chǔ)集群、全閃存存儲(chǔ)集群等多場(chǎng)景,對(duì)于網(wǎng)絡(luò)的高帶寬、低延遲連接需求,幫助客戶構(gòu)建滿足AIGC發(fā)展的整體網(wǎng)絡(luò)架構(gòu)。

未來(lái),浪潮網(wǎng)絡(luò)將持續(xù)優(yōu)化基于RoCE的智能無(wú)損網(wǎng)絡(luò)產(chǎn)品方案能力,同時(shí)深入研究基于UEC的網(wǎng)絡(luò)并創(chuàng)新引領(lǐng)支持UEC的產(chǎn)品,幫助客戶成功。

消息來(lái)源:浪潮網(wǎng)絡(luò)
China-PRNewsire-300-300.png
全球TMT
微信公眾號(hào)“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營(yíng)動(dòng)態(tài)、財(cái)報(bào)信息、企業(yè)并購(gòu)消息。掃描二維碼,立即訂閱!
collection