CCF信息存儲技術(shù)專委會走進浪潮信息 共話大模型時代的存儲創(chuàng)新之道
北京2024年6月7日 /美通社/ -- 近日,中國計算機學會信息存儲技術(shù)專業(yè)委員會(CCF信息存儲技術(shù)專委會)首場“走進企業(yè)”活動啟動,來自CCF信息存儲技術(shù)專委會、清華大學、北京大學、華中科技大學、華東師范大學、上海交通大學、上海理工大學等單位的十余位存儲領域?qū)<?、學者走進浪潮信息,在“大模型時代數(shù)據(jù)中心存儲技術(shù)創(chuàng)新和應用”的會議主題下,分別就“以數(shù)據(jù)為中心的存儲技術(shù)協(xié)同創(chuàng)新”和“大模型新應用的存儲技術(shù)挑戰(zhàn)與探索”兩個核心議題,共同探討了在存儲架構(gòu)創(chuàng)新、近數(shù)據(jù)計算、多協(xié)議融合互通、GPU直通存儲、故障預測等多個領域的前沿技術(shù)創(chuàng)新和產(chǎn)業(yè)洞察。
“以數(shù)據(jù)為中心”加速到來,存儲架構(gòu)亟待創(chuàng)新
隨著數(shù)字化、智能化的加速發(fā)展,社會產(chǎn)生的數(shù)據(jù)量呈現(xiàn)出爆炸式增長。IDC報告顯示,中國數(shù)據(jù)量規(guī)模將從2022年的23.88ZB增長至2027年的76.6ZB,年均增長速度(CAGR)達到26.3%,為全球第一。同期,全球數(shù)據(jù)量規(guī)模預計增長一倍以上,到2027年將達到284.3ZB,年均增長速度(CAGR)達到22.6%。當數(shù)據(jù)變成重要的生產(chǎn)要素,其價值釋放正加速“以數(shù)據(jù)為中心”的到來,這對存儲架構(gòu)創(chuàng)新提出了新的要求。
浪潮信息存儲產(chǎn)品線首席架構(gòu)師孫斌認為,作為數(shù)據(jù)的主要載體,數(shù)據(jù)中心呈現(xiàn)出大型集約化、邊緣分散化的發(fā)展趨勢,未來數(shù)據(jù)中心將實現(xiàn)“人機物”三元智聯(lián)融合,提供全面服務且資源利用率趨向最優(yōu)。但是,隨著數(shù)據(jù)中心應用多樣化與計算多元化的疊加,亟需一套新型存儲架構(gòu)來實現(xiàn)均衡全能存儲服務,通過融合軟硬件協(xié)同設計,實現(xiàn)介質(zhì)、軟件和數(shù)據(jù)的分離,從而可組合可共享,最終靈活支撐全場景綜合負載。
北京大學助理教授張杰認為,存儲架構(gòu)創(chuàng)新將是一個長期性、持續(xù)性工程,最終是要解決所謂的“存儲墻”問題。以數(shù)據(jù)為中心要求計算圍著數(shù)據(jù)轉(zhuǎn),以減小數(shù)據(jù)搬運帶來的性能瓶頸以及功耗,但馮·諾依曼架構(gòu)是一個以計算為中心的架構(gòu),數(shù)據(jù)搬運已然成為當下大數(shù)據(jù)、大規(guī)模應用所面臨的最大的問題。
華中科技大學的劉海坤教授提出,基于新型高速互連總線CXL實現(xiàn)單機內(nèi)存擴展和分布式內(nèi)存擴展,可以較好地解決大規(guī)模數(shù)據(jù)處理特別是大模型應用面臨的“內(nèi)存墻”問題,可能顛覆未來數(shù)據(jù)中心架構(gòu),推動存算融合向存算分離演進,同時使能以數(shù)據(jù)為中心的CPU、GPU、FPGA間的對等計算。但是,劉海坤也指出,目前CXL總線面臨體系結(jié)構(gòu)、操作系統(tǒng)、編程模型等多方面的挑戰(zhàn),產(chǎn)業(yè)技術(shù)生態(tài)有待進一步完善。
Storage for AI,AI for Storage,推動大模型與存儲的雙向進化
如果說數(shù)據(jù)中心是數(shù)據(jù)的“集散地”,那么大模型就是數(shù)據(jù)的“掘金場”。隨著大語言模型(LLM)以及生成式AI的飛速發(fā)展,數(shù)據(jù)規(guī)模和質(zhì)量對模型精度的價值日趨凸顯,這也推動存儲技術(shù)成為提升人工智能生產(chǎn)力的關(guān)鍵環(huán)節(jié),直接關(guān)乎到人工智能整體落地水平。同時,人工智能技術(shù)的進步,也正向回饋于存儲技術(shù)創(chuàng)新之中,帶動了智能化存儲技術(shù)的發(fā)展。Storage for AI,AI for Storage,大模型與存儲呈現(xiàn)出雙向進化。
大模型開發(fā)通常涵蓋數(shù)據(jù)歸集、數(shù)據(jù)預處理、模型訓練、應用推理幾個流程階段,其中跨設備、跨中心的數(shù)據(jù)準備往往耗時數(shù)周,同時大模型訓練過程中存在海量的小文件讀取,小文件的讀寫性能較差,進一步拉長了訓練周期,對存儲系統(tǒng)的容量、性能、穩(wěn)定性等方面都帶來了巨大挑戰(zhàn)。
清華大學副教授陸游游表示,從大模型訓練過程中反映出的數(shù)據(jù)特征來看,小文件讀取和帶寬的優(yōu)化是非常重要的。同時隨著模型參數(shù)量提升,對內(nèi)存、HBM顯存以及CXL遠端內(nèi)存等多層次內(nèi)存的管理也變得更加重要,需要與計算更好地協(xié)同。此外,向量存儲、參數(shù)存儲等新興的存儲方式也需要予以關(guān)注。
浪潮信息一直深耕面向AIGC場景的新一代存儲平臺。通過全局緩存技術(shù),突破多模態(tài)小文件訓練瓶頸,創(chuàng)新性提出多協(xié)議融合互通技術(shù),實現(xiàn)數(shù)據(jù)免遷移,構(gòu)建全局文件管理平臺,統(tǒng)一多源異構(gòu)存儲,數(shù)據(jù)管理更加便捷,引入GPU直通存儲技術(shù),大大縮短AI訓練I/O路徑,提高大模型訓練效率。此外,浪潮信息也積極地圍繞CXL2.0,QLC,PCIe Gen 5等新型硬件和協(xié)議等進行全面的適配和優(yōu)化,提供更強大的存儲性能,助力大模型系統(tǒng)創(chuàng)新及AI應用落地。
而在AI for Storage領域,人工智能在數(shù)據(jù)恢復、故障預測等場景中也體現(xiàn)出越來越高的技術(shù)價值。上海交通大學教授吳晨濤分享了分布式機器學習高可靠數(shù)據(jù)恢復機制的研究,包括分布式學習過程中硬盤故障恢復加速的研究以及故障和繁忙節(jié)點的混合全局圖恢復方法;華東師范大學教授石亮分享了面向大規(guī)模存儲場景的SSD故障預測及部署優(yōu)化技術(shù)研究,包括差異化的機器學習SSD故障預測研究和基于預測備份的RAID快速恢復技術(shù),主要針對當前大規(guī)模閃存存儲系統(tǒng)故障預測性能不佳、故障恢復機制占用計算資源且速度慢的問題做了優(yōu)化。
浪潮信息作為本次活動的東道主,存儲產(chǎn)品線總經(jīng)理李輝對各位專家的到來表示熱烈歡迎,指出面向數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新與大模型應用的存儲需求,業(yè)界與學界的深度對接和交流將進一步拓展創(chuàng)新的邊界。CCF信息存儲技術(shù)專委會走進浪潮信息活動的成功舉辦,將有助于加快信息存儲領域的學術(shù)創(chuàng)新到產(chǎn)業(yè)落地的轉(zhuǎn)化,推動數(shù)據(jù)成為新質(zhì)生產(chǎn)力的優(yōu)質(zhì)生產(chǎn)要素。