曙光深度學(xué)習(xí)集群方案助力通信行業(yè)AI智能運(yùn)用

中科曙光

2019-07-10 22:19 8059

近日，曙光通過(guò)多年通信行業(yè)的深耕經(jīng)驗(yàn)，以深度學(xué)習(xí)集群方案保障高效計(jì)算，滿足通信行業(yè)智能語(yǔ)音、市場(chǎng)營(yíng)銷、網(wǎng)絡(luò)智能化、客戶服務(wù)智能運(yùn)用等業(yè)務(wù)層需求。

北京2019年7月10日 /美通社/ -- 截至目前，通信行業(yè)都開(kāi)啟了自己的人工智能業(yè)務(wù)，人工智能已經(jīng)成為運(yùn)營(yíng)商發(fā)力數(shù)字化新業(yè)務(wù)的著力點(diǎn)。而在平臺(tái)AI核心能力層，將產(chǎn)生大量語(yǔ)音、圖像、視頻以及其他結(jié)構(gòu)化數(shù)據(jù)，算力的進(jìn)步也為深度學(xué)習(xí)集群方案提供了后盾支持。

為了提高網(wǎng)絡(luò)運(yùn)營(yíng)、服務(wù)和管理等全鏈條的智能化水平、運(yùn)用信息通信技術(shù)更好地支撐和服務(wù)人工智能產(chǎn)業(yè)以及各行業(yè)的智能化轉(zhuǎn)型。近日，曙光通過(guò)多年通信行業(yè)的深耕經(jīng)驗(yàn)，以深度學(xué)習(xí)集群方案保障高效計(jì)算，滿足通信行業(yè)智能語(yǔ)音、市場(chǎng)營(yíng)銷、網(wǎng)絡(luò)智能化、客戶服務(wù)智能運(yùn)用等業(yè)務(wù)層需求。

曙光深度學(xué)習(xí)集群方案是如何支撐起通信行業(yè)AI智能運(yùn)用的呢？

深度學(xué)習(xí)集群方案架構(gòu)

從整體來(lái)看

曙光深度學(xué)習(xí)集群方案從計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、軟件等部分，組成了合理、符合通信行業(yè)用戶應(yīng)用特點(diǎn)、沒(méi)有性能與功能短板的一套集群方案。

從計(jì)算層角度

GPU服務(wù)器為深度學(xué)習(xí)提供強(qiáng)勁的算力支持。GPU的眾核體系結(jié)構(gòu)包含了大量的流處理器，矢量運(yùn)算可以并行進(jìn)行，對(duì)于矩陣運(yùn)算的加速效果非常明顯，而深度網(wǎng)絡(luò)在訓(xùn)練過(guò)程中需要進(jìn)行大量的矩陣運(yùn)算，這無(wú)疑成了深度模型訓(xùn)練方面的首選方案之一，利用GPU訓(xùn)練深度網(wǎng)絡(luò)可以充分的發(fā)揮計(jì)算核心的并行計(jì)算能力，在海量訓(xùn)練數(shù)據(jù)的情況下，耗費(fèi)時(shí)間短，使用服務(wù)器數(shù)量也變得更少。

針對(duì)不同深度學(xué)習(xí)場(chǎng)景，可以搭載多顆GPU的不同類型GPU服務(wù)器，在整個(gè)計(jì)算層中成為了的核心計(jì)算單元。同時(shí)，在計(jì)算層中針對(duì)集群管理和桌面服務(wù)等非核心計(jì)算部分采用通用機(jī)架服務(wù)器支撐。

從網(wǎng)絡(luò)層角度

網(wǎng)絡(luò)層主要包括物理網(wǎng)絡(luò)傳輸、集群管理調(diào)度、人工智能平臺(tái)三個(gè)部分。

網(wǎng)絡(luò)傳輸部分，對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)模型訓(xùn)練，除了提供強(qiáng)大計(jì)算能力還需要保證PCI-E的傳輸帶寬，對(duì)于多機(jī)情況，需要能提供更好網(wǎng)絡(luò)帶寬的網(wǎng)絡(luò)設(shè)備來(lái)保證整個(gè)系統(tǒng)的數(shù)據(jù)傳輸效率，減少網(wǎng)絡(luò)數(shù)據(jù)傳輸帶來(lái)的影響；

集群管理調(diào)度需要對(duì)計(jì)算集群整體狀態(tài)和計(jì)算節(jié)點(diǎn)的實(shí)時(shí)狀態(tài)進(jìn)行監(jiān)控和分析，并形成實(shí)時(shí)的可視化數(shù)據(jù)報(bào)表；

人工智能平臺(tái)需要提供對(duì)深度學(xué)習(xí)開(kāi)發(fā)環(huán)境的快速部署；并要針對(duì)深度學(xué)習(xí)開(kāi)發(fā)，對(duì)運(yùn)算資源按照訓(xùn)練任務(wù)進(jìn)行分割和分發(fā)。

從存儲(chǔ)層角度

存儲(chǔ)層主要用于存放計(jì)算數(shù)據(jù)，在高性能計(jì)算中，數(shù)十個(gè)或者上百個(gè)計(jì)算節(jié)點(diǎn)需要有一個(gè)統(tǒng)一映像的共享存儲(chǔ)，使用并行文件系統(tǒng)把所有的存儲(chǔ)陣列統(tǒng)一為一個(gè)大的存儲(chǔ)，而并行文件系統(tǒng)能夠滿足用戶需求。針對(duì)深度學(xué)習(xí)解決方案，曙光ParaStor系列采用分布式集群架構(gòu)，提供充足的I/O聚合帶寬，存儲(chǔ)系統(tǒng)穩(wěn)定可靠、具有線性擴(kuò)展能力。

曙光ParaStor系列

隨著物聯(lián)網(wǎng)、5G等通信技術(shù)的應(yīng)用，連接規(guī)模必將指數(shù)級(jí)地增長(zhǎng)。當(dāng)這張連接一切的網(wǎng)絡(luò)和被連接的單元都被賦予智能后，智能化的生產(chǎn)和生活將無(wú)處不在，將給全社會(huì)帶來(lái)天翻地覆的變化和全新的體驗(yàn)。

消息來(lái)源：中科曙光