NEWS專欄 | 未來3年，智能算力將順著這條路徑發(fā)展

2023-11-06 15:26

NEWS專欄引讀：
生成式AI將為全世界新創(chuàng)造“一個英國的GDP”，而國內大語言模型爭先恐后地推出，也說明中國將在這場生成式AI變革中占據(jù)自己應有的位置。因此，推動生成式AI發(fā)展的算力基礎設施，也就必須保持在高水平之上。而建設生成式AI算力支撐的難點，在于要在許多基本技術原理被重新改寫的情況下提前進行，在這方面，作為生成式AI應用的先行者，北美數(shù)據(jù)中心市場已經出現(xiàn)了數(shù)據(jù)中心容量供需失衡的情況。
《算力基礎設施高質量發(fā)展行動計劃》為智能算力未來3年的發(fā)展確定了綱要，但如何確定生成式AI算力支撐的提前量，還需要各位CIO根據(jù)自己企業(yè)與行業(yè)的發(fā)展現(xiàn)狀，做出精準的判斷。從北美市場的情況來看，人工智能將進一步加速數(shù)據(jù)中心的需求，所以針對這個問題的解決措施，需要從現(xiàn)在開始立即推出。
工業(yè)和信息化部、中央網(wǎng)信辦、教育部、國家衛(wèi)生健康委、中國人民銀行、國務院國資委等六部門近日聯(lián)合印發(fā)了《算力基礎設施高質量發(fā)展行動計劃》（下稱：行動計劃），業(yè)界認為這份行動度劃指明了未來3年算力基礎設施的發(fā)展方向。雖然行動計劃面向智能計算、邊緣計算、超級計算等多種算力需求，但其中特別提到2025年智能算力占比要達到35%。針對當前智能算力支撐所面臨的問題，行動計劃可謂是提前給出了應對之策。

生成式AI的潛力

ChatGPT問世以來，生成式人工智能的經濟潛力越來越被關注。麥肯錫在《生成式人工智能的經濟潛力：下一波生產力浪潮》報告中指出，如果將分析的63種生成式AI應用于各行各業(yè)，將為全球經濟每年帶來2.6萬億至4.4萬億美元的增長。與英國2021年的GDP總額3.1萬億美元對比，生成式AI可能每年為全球經濟貢獻“一個英國的GDP”，由此可見生成式AI所具備的巨大潛力。
從生成式AI具體應用情況來看，調查顯示，使用生成式AI助手，企業(yè)不僅可以多完成12.2%的任務，還能將速度提升25.1%，同時工作結果的質量也因此而提升40%。再從技術發(fā)展角度來看，下一代大型語言模型將比目前的GPT-4(OpenAI)、Palm 2(Google)、Llama(Meta)和Claude 2(Anthropic)更復雜、更通用。因此，一場圍繞著生態(tài)為核心的大語言模型之間的競爭已經展開。
從生態(tài)的角度來看，決定著生成式AI能否發(fā)揮出巨大潛力的，是生態(tài)的強弱，而決定生態(tài)能否最終勝出的因素是應用。本次行動計劃有四個主要目標，其中之一就是針對這個問題的應用賦能。力圖打造一批算力新業(yè)務、新模式、新業(yè)態(tài)，在工業(yè)、金融等領域算力滲透率顯著提升，醫(yī)療、交通等領域應用實現(xiàn)規(guī)?；瘡椭仆茝V，能源、教育等領域應用范圍進一步擴大。每個重點領域打造30個以上應用標桿。概括起來，就是通過一體化算力服務體系的構建，實現(xiàn)“算力+工業(yè)”、“算力+教育”、“算力+金融”、“算力+交通”、“算力+醫(yī)療”、“算力+能源”的多行業(yè)算力補強。這將對生成式AI在這些行業(yè)的應用起到極大的助力作用。

三個難題的解決之策

當生成式AI在算法層面取得大舉突破之時，生成式AI的研發(fā)和應用卻可能遭遇算力瓶頸。算力是集信息計算力、網(wǎng)絡運載力、數(shù)據(jù)存儲力于一體的新型生產力，生成式AI所需的算力支撐，在計算力、運載力、存儲力都和傳統(tǒng)應用有所不同，因而在這三個層面都面臨著難題。
在計算力層面，傳統(tǒng)應用的算力支撐更多地依靠CPU，而AI所需的智能算力在CPU之外，還需要大量GPU以及如ASICs和FPGAs等專用硬件參與。此外，用于人工智能的機架必須重新設計，以適應額外的重量和熱量。因此，智能計算的數(shù)據(jù)中心建設因此而呈現(xiàn)出高密化趨勢，并需要通過異構計算來突破算力瓶頸。
在網(wǎng)絡層面，大模型AI場景下海量的參數(shù)分布于多個服務器的多個GPU之上，由于需要用到成千上萬個GPU來訓練數(shù)十TB級甚至更大的數(shù)據(jù)集，大量的GPU之間的通信容易出現(xiàn)由于網(wǎng)絡HASH負載分擔不均而導致的網(wǎng)絡吞吐下降，從而引發(fā)AI訓練性能整體下降等問題。
在存儲層面，由于大語言模型的訓練參數(shù)越來越多，因此智能算力可能面臨著幾十T數(shù)據(jù)的存儲和應用，還必須實現(xiàn)高速存儲訪問，以滿足人工智能工作訓練和推理所需。
針對這些問題，行動計劃給出了未來3年算力基礎設施發(fā)展的具體目標。其中，在計算力方面，算力規(guī)模超過300EFLOPS，智能算力占比達到35%。在運載力（網(wǎng)絡）方面，國家樞紐節(jié)點數(shù)據(jù)中心集群間基本實現(xiàn)不高于理論時延1.5倍的直連網(wǎng)絡傳輸，重點應用場所光傳送網(wǎng)（OTN）覆蓋率達到80%，骨干網(wǎng)、城域網(wǎng)全面支持IPv6，SRv6等新技術使用占比達到40%。在存儲力方面，存儲總量超過1800EB，先進存儲容量占比達到30%以上。

更為重要的，行動計劃從全局的高度出發(fā)，對于算力均衡發(fā)展進行了統(tǒng)籌。不僅優(yōu)化算力設施建設布局、推動算力結構多元配置、推動算力標準體系建設，還通過優(yōu)化算力高效運載質量、強化算力接入網(wǎng)絡能力、提升樞紐網(wǎng)絡傳輸效率、探索算力協(xié)同調度機制，提升了算力高效運載能力。這為生成式AI應用的爆發(fā)奠定了基礎。

算力的可持續(xù)之道

數(shù)據(jù)中心在2022年使用的電力已達到200T瓦時，這一電量已經占到全球電力使用量的2%。預計到2030年，全球數(shù)據(jù)中心耗費的電量將占到全球總電量的5%，達到576T瓦時，這個數(shù)字將會超過韓國、加拿大或德國的單個國家用電量。生成式AI的崛起使得能耗問題變得更加嚴峻。
由于AI所需的智能計算需要GPU驅動的機架，與同等CPU容量相比，它會消耗更多電量、散發(fā)更多熱量并占用更多空間。這就意味著人工智能計算能力通常需要更多的電源連接或替代冷卻系統(tǒng)。為此，為了保障智能算力的可持續(xù)發(fā)展，包括高壓直流、預制化、液冷、自然冷卻等新一代綠色技術已經逐漸走向數(shù)據(jù)中心。
行動計劃同樣關注到了這個問題，在基本原則中就強調了綠色低碳，在促進綠色低碳算力發(fā)展方面，通過提升資源利用和算力碳效水平、引導市場應用綠色低碳算力、賦能行業(yè)綠色低碳轉型，力求全面提升算力設施能源利用效率和算力碳效（CEPS）水平。推動了算力在重點行業(yè)發(fā)揮應用賦能作用，促進了企業(yè)經營活動數(shù)智化發(fā)展，通過構建“算力+”綠色低碳生態(tài)體系，助力各行業(yè)綠色低碳發(fā)展，這為智能算力的可持續(xù)發(fā)展提供了必要的保障條件。
未來3年內，通過加強統(tǒng)籌聯(lián)動、加大金融支持、深化交流協(xié)作、強化平臺支撐，《行動計劃》的落地實施最終將為智能算力的發(fā)展提供保障，也將為生成式AI的發(fā)展和應用奠定堅實的基礎。

消息來源：CIO時代網(wǎng)