浪潮信息超級AI以太網(wǎng)交換機X400 國內(nèi)首款基于NVIDIA Spectrum-X 打造

浪潮信息

2024-04-26 10:38 3891

北京2024年4月26日 /美通社/ -- 近日，在IPF2024上，浪潮信息正式發(fā)布了專門面向生成式AI的超級AI以太網(wǎng)交換機——X400，這是國內(nèi)首款基于NVIDIA Spectrum-X平臺打造的以太網(wǎng)交換機，吞吐量達業(yè)界最高的51.2T，較上一代產(chǎn)品提升了4倍，在4U空間可提供128個400Gb/s 的高速網(wǎng)絡端口，在其高吞吐量、低延遲、高可靠性等優(yōu)勢的加持下，比傳統(tǒng)的RoCE網(wǎng)絡性能提升了1.6倍，為大規(guī)模算力提供領先的AI網(wǎng)絡性能。

超級AI以太網(wǎng)交換機X400是雙方聯(lián)合創(chuàng)新的結晶，專門面向生成式AI打造，X400在標準以太網(wǎng)絡上實現(xiàn)了與專用網(wǎng)絡架構相當?shù)木W(wǎng)絡性能，確?？蛻粢愿硐氲姆绞浇ㄔO網(wǎng)絡基礎設施，這將極大提升AI模型迭代與業(yè)務創(chuàng)新的速度。

目前，我們面臨的用于人工智能基礎模型的計算能力不足、訓練成本高等問題，原因之一就是傳統(tǒng)網(wǎng)絡的效率低下，導致GPU多節(jié)點間通信時的效率偏低。在訓練基礎模型中，網(wǎng)絡通信往往占到20%到40%的時間，在進行梯度和參數(shù)同步時，浪費了寶貴的GPU資源。

面向這種生成式AI場景的網(wǎng)絡互連瓶頸，會上發(fā)布首款專門面向AI的以太網(wǎng)交換機X400，采用了NVIDIA的Spectrum-4 交換芯片，這是NVIDIA的第五代以太網(wǎng)交換芯片，助力X400達到了業(yè)界領先的數(shù)據(jù)包處理速率、全線速性能和超低直通（pass-through）延遲，通過動態(tài)路由（Adaptive Routing）和增強擁塞控制技術，實現(xiàn)了95%以上的以太網(wǎng)網(wǎng)絡利用率，處于業(yè)界領先，依托完全共享的數(shù)據(jù)包緩沖區(qū)架構，動態(tài)地為所有端口提供公平且無瓶頸的數(shù)據(jù)路徑，成為構建面向AI場景的高性能RoCE網(wǎng)絡的理想產(chǎn)品，滿足生成式AI、大型語言模型、推薦系統(tǒng)、視頻分析等帶寬密集型應用的超高網(wǎng)絡性能需求。

超級AI以太網(wǎng)交換機X400是一款采用開放架構設計的高性能AI交換機，實現(xiàn)了軟硬件的分層解耦，基于百度、阿里、騰訊等云計算廠商聯(lián)合制定的S³IP開放標準，支持開源SONiC及第三方網(wǎng)絡OS，實現(xiàn)了業(yè)務應用和網(wǎng)絡協(xié)議的靈活拓展，滿足了不同客戶對交換機的定制化需求。同時，為保證用戶AIGC網(wǎng)絡的穩(wěn)定性，X400搭載了獨創(chuàng)的IGE智能防護引擎，提供關鍵部件偵測、軟件關鍵進程監(jiān)控、內(nèi)存糾錯、雙Flash冗余切換等多種故障預防機制，實現(xiàn)了對設備的全面可靠性保護。此外，X400還搭載集監(jiān)控和配置于一體的O&M智能運維平臺，支持Spectrum-4 的WJH（what just happened）功能，通過底層芯片和軟件工具收集數(shù)據(jù)包粒度的可見性數(shù)據(jù)和事件觸發(fā)信息，實時掌握網(wǎng)絡與設備的健康狀況，結合創(chuàng)新的故障自愈技術，極大地提升了網(wǎng)絡設備的高可用性，助力客戶構建可視、可控、可靠的AI大模型訓練網(wǎng)絡。

方案層面，超級AI以太網(wǎng)交換機 X400基于開源SONiC研發(fā)的UXOS網(wǎng)絡操作系統(tǒng)、NVIDIA BlueField-3 SuperNICs等，為用戶構建面向生成式AI場景的端到端高性能網(wǎng)絡解決方案 AI Fabric，組網(wǎng)規(guī)?？蓮椥詳U展至51.2萬個GPU的超大規(guī)模AI系統(tǒng)，憑借AR動態(tài)路由、端到端擁塞控制、亞毫秒級故障自愈等技術，性能提升至傳統(tǒng)RoCE網(wǎng)絡性能1.6倍，達到以太網(wǎng)RoCE的性能極限，實現(xiàn)了AI網(wǎng)絡的超高吞吐量、高可擴展性和超高可靠性。測試數(shù)據(jù)表明，該方案能顯著提升大模型訓練性能，相比傳統(tǒng)RoCE網(wǎng)絡方案，這種AI網(wǎng)絡的帶寬利用率超過95%，通信時延降低30%，NVIDIA Megatron-LM大模型訓練速度最高可以提升70%，大幅縮短訓練時長并降低訓練成本。

消息來源：浪潮信息