浪潮信息彭震：加速智算系統(tǒng)創(chuàng)新，切實解決大模型算力難題

浪潮信息

2023-11-08 17:38 2749

北京2023年11月8日 /美通社/ -- 2023年，生成式人工智能的爆發(fā)帶來了歷史性產(chǎn)業(yè)機遇，正在逐步改造重塑社會、經(jīng)濟、文化等各個領(lǐng)域。GPT-4、Llama2、文心、源等大模型在寫文章、對話、企劃、繪畫、寫代碼等很多領(lǐng)域已經(jīng)表現(xiàn)出了讓人驚艷的創(chuàng)作能力。未來，AIGC與數(shù)字經(jīng)濟、實體經(jīng)濟的深度融合，還將創(chuàng)造出更多顛覆性的社會價值、經(jīng)濟價值。

生成式AI蓬勃發(fā)展的背后，算力，尤其是AI算力已經(jīng)成為驅(qū)動大模型進(jìn)化的核心引擎。計算力就是生產(chǎn)力，智算力就是創(chuàng)新力，已經(jīng)成為產(chǎn)業(yè)共識。大模型時代的算力供給，與云計算時代的算力供給，存在很大的差異性。大模型訓(xùn)練是以并行計算技術(shù)將多臺服務(wù)器形成一個算力集群，在一個較長的時間，完成單一且海量的計算任務(wù)。這與云計算，把一臺機器拆分成很多容器的需求，存在很大的技術(shù)差異。

目前大模型研發(fā)已經(jīng)進(jìn)入萬卡時代，從事大模型研發(fā)的公司和團隊，普遍面臨“買不起、建不了、算不好”的困局。為解決這一困局，需要以算力基建化改善算力供給，促進(jìn)算力普惠，以算力工程化指導(dǎo)完善算力系統(tǒng)最佳實踐，提升算力效率，以模型訓(xùn)練工具化手段，降低模型訓(xùn)練門檻，推動全棧智算系統(tǒng)創(chuàng)新，通過“三化”融合互補，促進(jìn)產(chǎn)業(yè)鏈條各環(huán)節(jié)協(xié)同配合，加速釋放大模型生產(chǎn)力，打造人工智能產(chǎn)業(yè)良好發(fā)展環(huán)境。

算力供給基建化，緩解“買不起”困境

大模型，特別是千億參數(shù)級別具備涌現(xiàn)能力和泛化能力的大模型是通用人工智能的核心。但大模型對海量算力資源的消耗，急劇抬高了準(zhǔn)入門檻。以ChatGPT的總算力消耗3640PFdays計算，這對于自建、自研大模型，往往需要少則幾億，多則數(shù)十億的IT基礎(chǔ)設(shè)施投資，這就導(dǎo)致大模型不僅是一個技術(shù)密集型產(chǎn)業(yè)，同時也是資金密集型產(chǎn)業(yè)，資本的力量在大模型產(chǎn)業(yè)發(fā)展中扮演越來越重要的角色，高昂的資金門檻使得具備技術(shù)能力的初創(chuàng)公司和團隊面臨“買不起”的難題，難以開展創(chuàng)新。

為解決這一困境，除通過政策引導(dǎo)、政策補貼等方式降低企業(yè)融資成本外，還應(yīng)大力發(fā)展普適普惠的智算中心，通過算力基建化使得智算力成為城市的公共基礎(chǔ)資源，供用戶按需使用，發(fā)揮公共基礎(chǔ)設(shè)施的普惠價值。用戶可以選擇自建算力集群，或者是采用智算中心提供的算力服務(wù)來完成大模型的開發(fā)。

通過大力發(fā)展智算中心新基建，中國和美國大模型產(chǎn)業(yè)的發(fā)展已經(jīng)呈現(xiàn)出完全不同的發(fā)展路徑。在美國，算力的私有化決定了大模型產(chǎn)業(yè)技術(shù)只能掌握在少數(shù)企業(yè)手中，而中國大力推動的算力供給基建化，為大模型創(chuàng)新發(fā)展提供了一片沃土，將使得整個產(chǎn)業(yè)呈現(xiàn)“百模爭秀”的全新格局。

算力效率工程化，化解大模型算力系統(tǒng)“建不了”難題

即使解決了算力供應(yīng)的問題，通用大模型開發(fā)仍然是一項極其復(fù)雜的系統(tǒng)工程，如同F1賽車的調(diào)校一樣。F1賽車的性能非常高，但如何調(diào)校好這部賽車，讓它在比賽中不僅能跑出最快圈速，而且能確保完賽，對整個車隊的能力要求是非常高的。

大模型訓(xùn)練需要依靠規(guī)模龐大的AI算力系統(tǒng)，在較長時間內(nèi)完成海量的計算任務(wù)，算力效率十分重要。算力效率越高，大模型的訓(xùn)練耗時越少，就能贏得更多時間窗口，也能降低更多成本。目前，大模型的訓(xùn)練集群效率普遍較低，像GPT3的集群訓(xùn)練效率只有23%，相當(dāng)于有超過四分之三的算力資源被浪費了。

大模型不應(yīng)是簡單粗暴的“暴力計算”，算力系統(tǒng)構(gòu)建也不是算力的簡單堆積，而是一項復(fù)雜的系統(tǒng)工程，需要從多個方面進(jìn)行系統(tǒng)化的設(shè)計架構(gòu)。一是要解決如何實現(xiàn)算力的高效率，它涉及到系統(tǒng)的底層驅(qū)動、系統(tǒng)層優(yōu)化，與大模型相適配的優(yōu)化；二是要解決算力系統(tǒng)如何保持線性可擴展，在單機上獲得較高算力效率之后，還需要能讓幾百個服務(wù)器節(jié)點、幾千塊卡的大規(guī)模集群環(huán)境的算力系統(tǒng)運行效率，保持相對線性的性能擴展比，這是在整個算力集群系統(tǒng)設(shè)計和并行策略設(shè)計時，需要考慮的重要因素。三是算力系統(tǒng)長效穩(wěn)定訓(xùn)練問題，大模型的訓(xùn)練周期長達(dá)數(shù)周甚至數(shù)月，普遍存在硬件故障導(dǎo)致訓(xùn)練中斷、梯度爆炸等小規(guī)模訓(xùn)練不會遇到的問題，工程實踐方面的缺乏導(dǎo)致企業(yè)難以在模型質(zhì)量上實現(xiàn)快速提升。

因此，化解大模型“建不了”難題，根源在于提升算力效率。但目前業(yè)界開源項目主要集中在框架、數(shù)據(jù)、神經(jīng)網(wǎng)絡(luò)乃至模型等軟件及算法層面，硬件優(yōu)化的方法由于集群配置的差異，難以復(fù)用而普遍處于封閉狀態(tài)。這就需要具備大模型實踐的公司將集群優(yōu)化經(jīng)驗予以工程化，以硬件開源項目、技術(shù)服務(wù)等多種方式，幫助更多公司解決算力效率低下的難題。

模型訓(xùn)練工具化，解決“算不好”難題

系統(tǒng)建成后，大模型在訓(xùn)練過程中，由于開發(fā)鏈條冗長，還面臨“算不好”的挑戰(zhàn)。從PB級數(shù)據(jù)的爬取、清洗、過濾，到大規(guī)模預(yù)訓(xùn)練的算法設(shè)計、性能優(yōu)化和失效管理；從指令微調(diào)數(shù)據(jù)集的設(shè)計到人類反饋強化學(xué)習(xí)訓(xùn)練的優(yōu)化……大模型訓(xùn)練不僅依賴高質(zhì)量數(shù)據(jù)，同時也要解決算法收斂、斷點續(xù)訓(xùn)、參數(shù)優(yōu)化、模型微調(diào)等問題，數(shù)據(jù)質(zhì)量、代碼調(diào)優(yōu)、執(zhí)行效率等關(guān)乎訓(xùn)練質(zhì)量的因素至關(guān)重要。這些問題解決不好，很難產(chǎn)生一個可商用的、高質(zhì)量的大模型產(chǎn)品。

解決“算不好”難題，根本上要保障大模型訓(xùn)練的長時、高效、穩(wěn)定訓(xùn)練的問題。例如大模型訓(xùn)練過程的失效故障，大模型訓(xùn)練會因此中斷，不得不從最新的檢查點重新載入以繼續(xù)訓(xùn)練，這個問題在當(dāng)前是不可避免的。提高算力系統(tǒng)的可持續(xù)性，不僅需要更多機制上的設(shè)計，更依賴于大量自動化、智能化的模型工具支撐。模型訓(xùn)練工具化保障手段，能夠有效降低斷點續(xù)訓(xùn)過程中所耗費的資源，這意味著大大降低訓(xùn)練成本并提升訓(xùn)練任務(wù)的成功率，會讓更多公司和團隊參與到大模型創(chuàng)新之中。

早在大模型熱潮到來之前，浪潮信息在2021年已經(jīng)開始研發(fā)參數(shù)量達(dá)到2457億的源1.0，通過親身實踐洞察大模型發(fā)展和演進(jìn)的需求和技術(shù)挑戰(zhàn)。目前，浪潮信息已經(jīng)建立了面向大模型應(yīng)用場景的整體解決方案，尤其是從當(dāng)前大模型算力建設(shè)、模型開發(fā)和應(yīng)用落地的實際需求出發(fā)，開發(fā)出全棧全流程的智算軟件棧OGAI，提供完善的工程化、自動化工具軟件堆棧，幫助更多企業(yè)順利跨越大模型研發(fā)應(yīng)用門檻，充分釋放大模型創(chuàng)新生產(chǎn)力。

快速進(jìn)化的人工智能正在呈現(xiàn)越來越強的泛化能力，但技術(shù)進(jìn)步的不可預(yù)測性也在隨之增強。為此，我們能夠依賴的只有不斷的創(chuàng)新，通過政策驅(qū)動、應(yīng)用導(dǎo)向、產(chǎn)業(yè)構(gòu)建等多重手段相結(jié)合，不斷夯實大模型基礎(chǔ)能力和原始創(chuàng)新能力，積極適應(yīng)人工智能的快速迭代與產(chǎn)業(yè)變革，切實有效的解決好大模型算力“買不起、建不了、算不好”的難題。

消息來源：浪潮信息