北京2022年3月29日 /美通社/ -- 馬達(dá)智數(shù)與浪潮信息通過(guò)“元腦生態(tài)”合作,幫助中國(guó)信息通信研究院云計(jì)算和大數(shù)據(jù)研究所(以下簡(jiǎn)稱“信通院云大所”)構(gòu)建了AI數(shù)據(jù)集服務(wù)平臺(tái),實(shí)現(xiàn)AI數(shù)據(jù)的全流程管理與維護(hù),可節(jié)省約80%的數(shù)據(jù)流轉(zhuǎn)時(shí)間和60%的資源開銷,使開發(fā)效率提升50%以上,有效降低用戶使用難度,全面服務(wù)AI應(yīng)用創(chuàng)新,助力AI應(yīng)用的產(chǎn)業(yè)化落地。
數(shù)據(jù)之困 AI創(chuàng)新面臨三重難題
信通院云大所希望能夠構(gòu)建一體化AI基礎(chǔ)設(shè)施,解決AI數(shù)據(jù)從收集、整理、存儲(chǔ)歸檔,到調(diào)用的全流程維護(hù)工作。在這一過(guò)程中,遇到了三大問(wèn)題。
首先,要解決數(shù)據(jù)來(lái)源的問(wèn)題。AI模型訓(xùn)練需要海量數(shù)據(jù),以語(yǔ)音識(shí)別模型為例,要訓(xùn)練出能應(yīng)對(duì)各種場(chǎng)景、語(yǔ)速、口音、口語(yǔ)等復(fù)雜情況的高準(zhǔn)確度語(yǔ)音識(shí)別模型,至少需要1000個(gè)小時(shí)以上的訓(xùn)練數(shù)據(jù),按每條數(shù)據(jù)平均4秒時(shí)長(zhǎng)計(jì)算,數(shù)據(jù)量至少在90萬(wàn)條以上。文字識(shí)別OCR算法訓(xùn)練需要的圖片數(shù)量則達(dá)到百萬(wàn)級(jí)別。如果僅從業(yè)務(wù)過(guò)程中獲取數(shù)據(jù),不僅獲取難度很大,而且在數(shù)據(jù)多樣性、數(shù)據(jù)規(guī)模等方面也很難滿足AI訓(xùn)練的基本需求。
其次,如何保證數(shù)據(jù)質(zhì)量。在大多數(shù)AI模型訓(xùn)練任務(wù)中,“垃圾輸入”會(huì)帶來(lái)“垃圾輸出”。包括深度卷積神經(jīng)網(wǎng)絡(luò)在內(nèi)的監(jiān)督學(xué)習(xí)方法依賴的是經(jīng)過(guò)適當(dāng)標(biāo)注的優(yōu)質(zhì)數(shù)據(jù),特別是需要大量專家知識(shí)的專業(yè)領(lǐng)域,更是對(duì)于大規(guī)模標(biāo)記數(shù)據(jù)的可用性有著極高要求。
最后,如何更有效地存儲(chǔ)和更新數(shù)據(jù)。在AI應(yīng)用中,數(shù)據(jù)的增長(zhǎng)是幾何級(jí)數(shù)的。使用傳統(tǒng)的集中式存儲(chǔ)和集中式通信模式,往往無(wú)法通過(guò)一個(gè)巨型單點(diǎn)支撐主流AI模型的體量,存儲(chǔ)和通信能力都是瓶頸,而且效率會(huì)非常低下。
元腦賦智 打通AI數(shù)據(jù)“任督二脈”
馬達(dá)智數(shù)是國(guó)內(nèi)最早、最專業(yè)的AI基礎(chǔ)數(shù)據(jù)服務(wù)器商之一,致力于為AI產(chǎn)業(yè)鏈的相關(guān)客戶提供高質(zhì)量、標(biāo)準(zhǔn)化的定制數(shù)據(jù)集服務(wù),助力AI場(chǎng)景化應(yīng)用快速落地,擁有5000+商業(yè)AI數(shù)據(jù)成功案例。2019年,馬達(dá)智數(shù)與浪潮信息達(dá)成了元腦生態(tài)簽約,共享浪潮信息在AI計(jì)算、資源與算法方面的全棧能力,共同打造領(lǐng)先的AI數(shù)據(jù)服務(wù)和豐富的AI生態(tài)體系,助力AI應(yīng)用的產(chǎn)業(yè)化落地。
馬達(dá)智數(shù)與浪潮信息在元腦生態(tài)的框架下進(jìn)行了緊密合作。雙方聯(lián)合推出了業(yè)內(nèi)領(lǐng)先的AI數(shù)據(jù)一體機(jī),整合了浪潮AI服務(wù)器、浪潮資源平臺(tái)AIStation、馬達(dá)智數(shù)全系列AI數(shù)據(jù)產(chǎn)品與服務(wù),具有高度集成、一鍵部署、配置靈活等特點(diǎn),能夠幫助行業(yè)AI用戶高效地獲取、加工和管理數(shù)據(jù),并開展模型訓(xùn)練,助力用戶快速、低成本地實(shí)現(xiàn)AI技術(shù)導(dǎo)入。
在信通院云大所AI數(shù)據(jù)集服務(wù)平臺(tái)項(xiàng)目中,馬達(dá)智數(shù)攜手浪潮信息提供了基于AI數(shù)據(jù)一體機(jī)的一體化解決方案。方案使用高速IO擴(kuò)展、大容量?jī)?nèi)存的浪潮AI服務(wù)器作為硬件平臺(tái),為數(shù)據(jù)收集、存儲(chǔ)、標(biāo)注和管理提供強(qiáng)大的計(jì)算力支撐。并集成圖片類、文本類、語(yǔ)音類等常用數(shù)據(jù)集,通過(guò)數(shù)據(jù)標(biāo)注平臺(tái)提高數(shù)據(jù)質(zhì)量,滿足信通院云大所基礎(chǔ)測(cè)試、算法開發(fā)等需求。同時(shí)將已有的分散的各項(xiàng)系統(tǒng)數(shù)據(jù)集中于AI數(shù)據(jù)集服務(wù)平臺(tái)進(jìn)行統(tǒng)一管理、協(xié)同處理,構(gòu)建智能開發(fā)一體化環(huán)境。
通過(guò)對(duì)數(shù)據(jù)的統(tǒng)一管理調(diào)度,該方案有效降低了數(shù)據(jù)流轉(zhuǎn)時(shí)間和資源開銷,可節(jié)省約80%的數(shù)據(jù)流轉(zhuǎn)時(shí)間和60%的網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)資源開銷。數(shù)據(jù)收集和標(biāo)注平臺(tái)的整合接入,則大大提高了數(shù)據(jù)加工環(huán)節(jié)的效率,用戶可以直接通過(guò)數(shù)據(jù)標(biāo)注平臺(tái)標(biāo)注數(shù)據(jù),并實(shí)時(shí)查看數(shù)據(jù)質(zhì)量。同時(shí),提供穩(wěn)定的人工標(biāo)注服務(wù),可使開發(fā)效率提升50%以上,有力地支持了口罩識(shí)別、語(yǔ)音識(shí)別等AI模型訓(xùn)練與應(yīng)用。
信通院云大所AI數(shù)據(jù)集服務(wù)平臺(tái)是馬達(dá)智數(shù)與浪潮信息在元腦生態(tài)中達(dá)成的重要合作成果。未來(lái),馬達(dá)智數(shù)將繼續(xù)攜手浪潮信息,與更多的元腦生態(tài)合作伙伴一起“走出去”,攜手搭建起直通產(chǎn)業(yè)應(yīng)用場(chǎng)景的“橋梁”,推動(dòng)AI應(yīng)用在更多場(chǎng)景和行業(yè)落地。