芯東西9月7日報道,9月6日~7日,2024全球AI芯片峰會(GACS 2024)在北京舉行。本屆峰會以「智算紀(jì)元 共筑芯路」為主題,全面展示AI芯片產(chǎn)業(yè)在算力、網(wǎng)絡(luò)、存儲、軟件、系統(tǒng)及應(yīng)用方面的前沿技術(shù)、最新成果與落地進(jìn)程。
50+位產(chǎn)學(xué)研嘉賓全程密集輸出干貨,本屆峰會有超過1500位觀眾到場參會,線上觀看人次累計超過210萬。
大會由智一科技旗下芯東西聯(lián)合智猩猩發(fā)起主辦,以「智算紀(jì)元 共筑芯路」為主題,邀請50+位嘉賓來自AI芯片、Chiplet、RISC-V、智算集群、AI Infra等領(lǐng)域的嘉賓與會,分享AI產(chǎn)業(yè)最新技術(shù)創(chuàng)新、落地現(xiàn)狀、商業(yè)化挑戰(zhàn)與機(jī)遇。
繼首日開幕式、數(shù)據(jù)中心AI芯片專場、Chiplet技術(shù)論壇火熱開場(直擊國產(chǎn)AI芯片生存現(xiàn)狀:GPU造血,TPU突襲,Chiplet成大勢,網(wǎng)絡(luò)卡脖子)后,峰會第二天演講繼續(xù)輸出密集干貨,并正式公布「2024年度中國智算集群解決方案企業(yè)TOP 20」、「2024年度中國AI芯片新銳企業(yè)TOP 10」AiiP AI生產(chǎn)力創(chuàng)新先鋒企業(yè)榜單。
▲智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國仁正式公布AiiP榜單
一、AI之外,近存計算斗不過存算分離
上午主會場舉行的AI芯片架構(gòu)創(chuàng)新專場期間,北京超弦存儲器研究院首席科學(xué)家戴瑾進(jìn)行了一場信息滿載的存內(nèi)計算主題演講。在回顧芯片級、機(jī)架級存算分離與近存計算的斗爭后,他拋出結(jié)論:AI之外,近存計算斗不過存算分離。
天量的AI模型參數(shù)帶來無盡的帶寬要求,存算分離架構(gòu)的帶寬、功耗、時延會嚴(yán)重制約系統(tǒng)性能,嚴(yán)重降低硬件的費(fèi)效比。涉及HBM、3D封裝等的近存計算,以及存內(nèi)計算,成為必需品。
目前做存內(nèi)計算的路線中,徹底借鑒人類的類腦計算進(jìn)展緩慢,但戴瑾認(rèn)為“笨的AI容易成功”。神經(jīng)網(wǎng)絡(luò)計算中還有數(shù)字引擎和模擬引擎兩種路線。數(shù)字引擎把GPU、NPU或部分與內(nèi)存集成在同一個芯片上,要求存儲介質(zhì)可以和邏輯工藝集成;模擬引擎用存儲單元和存儲陣列做計算,等效內(nèi)存容量擴(kuò)大16倍,但可用算法有限。
存內(nèi)計算按介質(zhì)劃分為SRAM、NOR、DRAM成熟存儲介質(zhì)和MRAM、RRAM、PCRAM、FeRAM等新興存儲介質(zhì)。
戴瑾稱這些存儲介質(zhì)都不理想,各有優(yōu)劣。如SRAM兼容邏輯工藝、速度快,但容量低、容易漏電;NOR Flash工藝成熟、節(jié)能,但無法使用先進(jìn)工藝節(jié)點(diǎn),且受擦寫速度和擦除次數(shù)所限,只能用于推理;DRAM理論上可用于訓(xùn)練和推理,最大困難不在于技術(shù),而在于產(chǎn)業(yè)。
新興存儲介質(zhì)中,F(xiàn)eRAM存儲介質(zhì)是鐵電材料。戴瑾認(rèn)為,這是新興存儲中唯一容量可能超過DRAM且速度、功耗性能相對好的介質(zhì),應(yīng)該可以在存算一體中取代DRAM,作為一種非易失存儲或存內(nèi)計算介質(zhì)都很有吸引力。
比新興存儲更新的是2T0C DRAM。在戴瑾看來,這是看得見的存儲技術(shù)中最理想的存內(nèi)計算介質(zhì)。2T0C DRAM分讀寫兩個MOS,利用讀晶體管的寄生電容做存儲。其最大的好處是做多bit更為簡單、直接,速度不遜于DRAM,能做到無限次擦寫、功耗很低,但唯一的不確定性是IGZO材料在半導(dǎo)體行業(yè)尚未徹底應(yīng)用。
二、突破有效算力天花板,可重構(gòu)、存算一體、類腦智能是未來
隨著AI PC等邊緣端推理需求增長,珠海芯動力創(chuàng)始人兼CEO李原相信,未來可重構(gòu)芯片將成為主流。他認(rèn)為性價比已成為邊緣計算的核心要求,但性能和TOPS并非直接掛鉤,模型在Prefill和Decode階段的計算類型不同,也對性能有不同的要求。針對這一特點(diǎn),珠海芯動力推出了可重構(gòu)并行處理器架構(gòu)(RPP)。
RPP基于數(shù)據(jù)流架構(gòu),兼容CUDA指令集,融合了GPU和NPU的優(yōu)勢。RPP第一代產(chǎn)品算力可達(dá)32TOPS,DRAM帶寬達(dá)59GB/s,具有性能高、面積效率高、功耗低靈活性強(qiáng)的特點(diǎn),F(xiàn)OStrip先進(jìn)封裝工藝將芯片面積和厚度縮小至原來的1/3。測試中,其計算機(jī)視覺和信號處理性能都較同類產(chǎn)品有較大提升,以14nm工藝達(dá)到甚至超越了英偉達(dá)A100芯片的功耗。
億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬認(rèn)為,AI芯片架構(gòu)創(chuàng)新將開啟大算力第二增長曲線。如今摩爾定律面臨挑戰(zhàn),以計算單元為中心的已到達(dá)天花板,將來AI芯片一定是以存儲單元為中心。
要突破有效算力的天花板有兩個路徑:芯片內(nèi),采用存算一體、先進(jìn)封裝技術(shù),減少數(shù)據(jù)搬運(yùn)、傳輸延遲;芯片間,采用高速互連和Chiplet技術(shù)、硅光子技術(shù)以及類似于NVLink及NVSwitch的互連技術(shù),提供高帶寬和低時延。
億鑄科技于2023年首次提出存算一體超異構(gòu)架構(gòu),并致力于通過基于新型存儲介質(zhì),提供高性價比,高能效比的AI大算力芯片。
▲億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬
時識科技創(chuàng)始人兼CEO喬寧談道,類腦智能被認(rèn)為是可以打破硅制程限制、解決算力瓶頸的未來技術(shù)之一。從生物腦獲得啟發(fā)的類腦感知、類腦計算,均比傳統(tǒng)計算方式效能更高。生物系統(tǒng)通過累積性變化檢測并轉(zhuǎn)化為脈沖,以優(yōu)化帶寬使用,動態(tài)相機(jī)也采用類似原理,以低功耗方式捕捉光強(qiáng)變化。類腦計算芯片是基于脈沖做計算的系統(tǒng),脈沖就是數(shù)字傳輸和計算的載體。
時識科技已經(jīng)形成了事件相機(jī)(即類腦傳感器)、類腦處理器、感算一體動態(tài)視覺智能SoC三大產(chǎn)品矩陣。類腦視覺目前最大的關(guān)注點(diǎn)是手機(jī)后攝的高幀率成像應(yīng)用。DVS事件相機(jī)通過模擬人類視網(wǎng)膜,在電路層面做出根本性改變,來突破全局快門對相機(jī)成像的幀率限制。通過對DVS事件相機(jī)數(shù)據(jù)做處理,可以達(dá)到等效高幀成像的效果。另外一個是XR領(lǐng)域眼動追蹤,由于DVS只對光強(qiáng)變化作出反應(yīng),生成稀疏點(diǎn)云數(shù)據(jù),具有超低功耗、高動態(tài)范圍、超低延遲等優(yōu)勢,尤其超低功耗性能在眼動追蹤領(lǐng)域領(lǐng)先。
隨著數(shù)據(jù)量和算力的暴增與算法的提升,計算市場對可定制化、低成本、高安全性和高隱私性的需求日益提升。對此,2023年成立的鋒行致遠(yuǎn)致力于研發(fā)存算一體的邊緣計算模組與解決方案,可實(shí)現(xiàn)大模型算力加速。據(jù)鋒行致遠(yuǎn)創(chuàng)始人兼CEO孫唐分享,該公司已擁有面向PC、工作站、服務(wù)器和分布式集群的各類存算一體產(chǎn)品。
鋒行致遠(yuǎn)的產(chǎn)品整合了存儲控制器與AI推理加速能力。其SSD內(nèi)置算力,降低主機(jī)負(fù)載和整體功耗,也具備高保密性,可運(yùn)用于AI PC加速、大模型推理加速、訓(xùn)推一體加速等場景;GPU直通方案可實(shí)現(xiàn)對數(shù)據(jù)吞吐的加速達(dá)50%-300%,更通過共享內(nèi)存降低能耗。針對AI推理加速,其端到端應(yīng)用平均效率超英偉達(dá)NX平臺2倍,平均功效比存算分離方案提升3.7倍,還兼容多種框架。
在PhySim資深產(chǎn)品工程師黃建偉看來,以先進(jìn)封裝技術(shù)為基礎(chǔ)的3D IC和Chiplet技術(shù),是后摩爾時代的必然選擇。然而,SIP/2.5D/3D等先進(jìn)封裝復(fù)雜的制造工藝和嚴(yán)苛的設(shè)計要求,會導(dǎo)致材料、設(shè)備、涉及開發(fā)的生產(chǎn)成本大幅增加,同時這些先進(jìn)封裝仍面臨散熱、制造工藝、成本上升等挑戰(zhàn),需要專門的仿真工具。
針對多物理場仿真場景,PhySim自研了一體化解決方案,包括熱仿真工具TurboT、信號完整性仿真軟件ACEM、電源完整性仿真軟件Physim-ET等產(chǎn)品,能夠?qū)崿F(xiàn)高性能GPU加速,實(shí)現(xiàn)數(shù)倍甚至數(shù)十倍的效率提升,幫助設(shè)計人員定位溫度熱點(diǎn)優(yōu)化設(shè)計。
AI發(fā)展對芯片良率、延遲、高熱問題提出更高要求,業(yè)界正在探索更有效的芯片互聯(lián)技術(shù),如分離Computing Die和IO Die、降低PCIe等傳統(tǒng)架構(gòu)延遲、推動新標(biāo)準(zhǔn)支持AI應(yīng)用。
UCIe作為推動芯片之間高效通信的新標(biāo)準(zhǔn)應(yīng)運(yùn)而生。UCIe提供了先進(jìn)封裝和標(biāo)準(zhǔn)封裝兩種解決方案,其中先進(jìn)封裝因具有兼容性和增加通道數(shù)有利于高速數(shù)據(jù)傳輸,適用于追求更高帶寬的應(yīng)用,標(biāo)準(zhǔn)封裝密度較低適合產(chǎn)能受限的情況。
乾瞻科技產(chǎn)品高級總監(jiān)曹澤豪透露道,目前他們已經(jīng)在5nm和4nm的技術(shù)節(jié)點(diǎn)上面向大客戶形成量產(chǎn),3nm已經(jīng)回片,同時正在將UCIe 1.1和1.0版本向2.0版本遷移。
三、加速邊緣與端側(cè)大模型落地,AI芯片如何做出極致性價比?
在下午舉行的邊緣/端側(cè)AI芯片專場,后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭分享說,大模型已從“上新品”進(jìn)入“強(qiáng)應(yīng)用”階段,中國的優(yōu)勢在應(yīng)用創(chuàng)新,而應(yīng)用創(chuàng)新的機(jī)會在邊緣側(cè)。目前AI芯片的痛點(diǎn)已經(jīng)轉(zhuǎn)變?yōu)閮?nèi)存訪問效率低,存算一體架構(gòu)憑借低成本、低功耗、低延時的優(yōu)勢,適配了邊端側(cè)AI的需求。
后摩智能一直在探索存算一體技術(shù),過去2年推出并量產(chǎn)了基于首代“天樞”架構(gòu)的H30和M30邊端芯片,即使在落后一代工藝節(jié)點(diǎn)的情況下,能效比仍具有2倍的優(yōu)勢,這是存算一體架構(gòu)帶來的收益。
該公司已提供從芯片到終端的完整解決方案,信曉旭說,后摩新一代芯片將基于“天璇”架構(gòu),計算效率將提升20%,對大語言模型/視覺語言模型、端邊場景進(jìn)行優(yōu)化,更具易用性,明年就將問世。
▲后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭
隨著大模型推動物理世界的智能化演進(jìn),更多的應(yīng)用將在邊緣側(cè)完成。大模型使邊緣AI場景面臨新的算力挑戰(zhàn):算力需求大、帶寬要求高、計算擴(kuò)展性強(qiáng)。云天勵飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛軍談道,國產(chǎn)工藝邊緣AI芯片要應(yīng)對挑戰(zhàn),架構(gòu)創(chuàng)新是關(guān)鍵。
面向新的邊緣AI計算場景,云天勵飛研發(fā)國內(nèi)首顆基于國產(chǎn)工藝Chiplet系列化邊緣AI芯片,采用“算力積木”的理念,設(shè)計了D2D Chiplet/C2C Mesh大模型推理架構(gòu),從芯片設(shè)計、制程工藝、基板選擇到封裝測試均用國產(chǎn)技術(shù),算力覆蓋8TOPS~256TOPS,滿足大模型落地的個性化需求,可應(yīng)用于各類邊緣場景,并且工具鏈與軟件棧統(tǒng)一,算法的部署落地更便捷。
他預(yù)告說,云天勵飛后續(xù)將發(fā)布基于國產(chǎn)工藝的大模型邊緣推理一體機(jī),提供更有性價比的邊緣算力。
▲云天勵飛副總裁、芯片業(yè)務(wù)線總經(jīng)理李愛軍
據(jù)安謀科技產(chǎn)品總監(jiān)楊磊分享,邊緣側(cè)大模型部署的載體包括AI手機(jī)、AI PC、智能汽車、機(jī)器人等,鑒于這些設(shè)備對成本、功耗及散熱的高度敏感性,100億參數(shù)規(guī)模以下的大模型被視為邊緣側(cè)部署的理想選擇。為實(shí)現(xiàn)邊緣側(cè)部署的最高效率,異構(gòu)計算方案脫穎而出,它能夠充分挖掘并利用邊緣側(cè)設(shè)備的計算能力,從而達(dá)到性價比的最優(yōu)化。
為了應(yīng)對大模型在邊緣側(cè)部署的挑戰(zhàn),安謀科技自研新一代“周易”NPU通過創(chuàng)新的計算單元微架構(gòu)設(shè)計,能夠同時支持卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Transformer架構(gòu),在計算架構(gòu)層面有效減輕了帶寬需求,并增強(qiáng)了算力的可擴(kuò)展性。此外,“周易”NPU還能夠通過多核擴(kuò)展,實(shí)現(xiàn)更強(qiáng)大的計算能力,進(jìn)一步提升了邊緣側(cè)大模型部署的靈活性和效能。
智芯科從2019年開始研究基于SRAM的存算一體芯片,已有大量專利積累。智芯科創(chuàng)始人兼CEO顧渝驄認(rèn)為,具身智能是其中最大的落地場景之一,具身智能對低延時、低功耗都有嚴(yán)苛的要求,因此有必要配備高能效的存算一體AI芯片。
存算一體芯片的主流技術(shù)路徑包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有讀寫速度快、能效比高、工藝成熟和可集成性佳的優(yōu)勢,可快速無限次讀寫,很適合Transformer的自注意力機(jī)制。
智芯科基于SRAM的模數(shù)混合存內(nèi)計算芯片,精度高、量產(chǎn)一致性高,并能夠進(jìn)一步降低功耗。硬件之外,智芯科還打造了通用性、易用性較強(qiáng)的軟件生態(tài)。據(jù)顧渝驄透露,未來智芯科將推出面向具身智能感知到大算力邊緣服務(wù)器的眾多產(chǎn)品,覆蓋大模型、機(jī)器人和自動駕駛等場景。
大模型認(rèn)知智能已呈現(xiàn)初步的智能涌現(xiàn),但很多都是單點(diǎn)的能力。聆思科技副總裁徐燕松強(qiáng)調(diào)了系統(tǒng)集成的重要性,對設(shè)備廠商而言,為大而全的AI單點(diǎn)能力找到中間態(tài)是主要命題。算法取決于場景,端側(cè)模型的算法應(yīng)用會重新定義AI芯片需求,因此需要將算法算力一體化。
聆思科技致力于打造智能終端人機(jī)交互入口芯片,進(jìn)行了云-端-芯算法算力一體化布局,提供自主知識產(chǎn)權(quán)AI芯片、高性能IoT芯片,并以模組成本最優(yōu)來設(shè)計芯片,能夠以單芯片滿足客戶在性能、價格兩方面的需求平衡。同時其端側(cè)內(nèi)置超100項行業(yè)頂級AI算法,還能直連AI云平臺,與星火大模型形成聯(lián)動。
近年來,隨著智慧城市的推進(jìn),算法在公安、金融、安防及零售等多個領(lǐng)域的應(yīng)用逐漸增多,基于此,極視角科技打造了算法商城。極視角科技聯(lián)合創(chuàng)始人&高級副總裁劉若水談道,在保證算法質(zhì)量方面,極視角的優(yōu)勢是數(shù)據(jù)來源豐富、內(nèi)部算法團(tuán)隊會提供底層算法能力、40萬開發(fā)者通過PK評測保障算法最優(yōu)。
極視角科技已打造AI極星和AI極光平臺。AI極星平臺有標(biāo)準(zhǔn)的算法部署、硬件配置的功能,支持統(tǒng)一算法接入標(biāo)準(zhǔn),可以納入符合接口規(guī)范的第三方算法,整個系統(tǒng)部署時間在1個小時左右;AI極光則側(cè)重于算法的輕量化部署。
▲極視角科技聯(lián)合創(chuàng)始人&高級副總裁劉若水
視海芯圖創(chuàng)始人兼董事長許達(dá)文分享說,機(jī)器人需要同時運(yùn)行感知、判定、決策和執(zhí)行任務(wù),對算力和能耗要求嚴(yán)苛,視覺語言模型更是帶來了新的挑戰(zhàn)?,F(xiàn)在的機(jī)器人需要一款加速圖像融合處理傳統(tǒng)算法和AI算法的邊緣端芯片。
機(jī)器人感知一方面作為VLM大模型的輸入,另一方面為機(jī)器人SLAM建圖及位姿估計。視海芯圖推出了SH1210視覺芯片,整合了CPU、NPU、ISP、3DCP、特征提取模塊和多傳感融合模塊,讓應(yīng)用和算法能以最大化的利用率映射到硬件。
其圖像融合架構(gòu)實(shí)現(xiàn)了ISP每個處理步驟的可控,還可通過神經(jīng)網(wǎng)絡(luò)處理識別關(guān)鍵目標(biāo)和區(qū)域,進(jìn)行針對性的圖像增強(qiáng),實(shí)現(xiàn)能效提升。采用SH1210的RGB-D相機(jī)能夠高效融合深度空間數(shù)據(jù)和RGB信息,完善機(jī)器人的視覺信息。
▲視海芯圖創(chuàng)始人兼董事長許達(dá)文
富瀚微資深市場總監(jiān)馮曉光對邊緣視頻AI芯片進(jìn)行復(fù)盤與展望。邊緣視頻AI芯片被設(shè)計用于攝像機(jī)、錄像機(jī)等邊緣設(shè)備,進(jìn)行視頻內(nèi)容分析和處理。Transformer將視頻處理帶入2.0時代,也為AI芯片帶來新的架構(gòu)變化。區(qū)別于傳統(tǒng)的CNN網(wǎng)絡(luò),Transformer大模型推理過程中的參數(shù)讀取帶來系統(tǒng)帶寬需求,計算過程中的矩陣相乘則帶來主動加速需求。
馮曉光認(rèn)為,未來端側(cè)AI芯片不會呈某一個架構(gòu)的統(tǒng)一,而會呈金字塔形態(tài)。其中,0.5TOPS以下算力的低端高性價比芯片,將覆蓋80%以上的應(yīng)用;支持輕量化Transformer、AI ISP的中端主流AI芯片主要是NPU,算力1~8TOPS;高端的邊緣AI芯片可能以GPGPU架構(gòu)為主,算力超20TOPS,可運(yùn)行邊緣多模態(tài)大模型。
結(jié)語:AI芯片企業(yè)承壓前行
隨著大模型革命席卷全球,算力需求達(dá)到新高,推動云邊端AI芯片迭代與進(jìn)化。在數(shù)據(jù)爆炸式增長、工藝逼近物理極限、國際形勢復(fù)雜多變?nèi)錇踉葡?,許多AI芯片企業(yè)低調(diào)務(wù)實(shí)地承壓前行,積極備戰(zhàn)生成式AI浪潮帶來的時代機(jī)遇。
從2018年3月舉辦國內(nèi)首場AI芯片產(chǎn)業(yè)峰會至今,七年來,除了2021年受疫情影響外,全球AI芯片峰會基本上保持每年一屆的節(jié)奏,邀請近150位大咖分享前沿進(jìn)展和行業(yè)洞見,成為了解國內(nèi)外AI芯片發(fā)展動態(tài)的重要窗口,也是目前國內(nèi)在AI芯片領(lǐng)域里最具影響力的行業(yè)峰會。
據(jù)智一科技聯(lián)合創(chuàng)始人、CEO龔倫常透露,智一科技旗下硬科技知識分享社區(qū)智猩猩將聯(lián)合智能產(chǎn)業(yè)新媒體智東西、智能汽車產(chǎn)業(yè)新媒體車東西,11月份在上海舉行今年的第二場生成式AI大會,12月份舉辦中國端到端自動駕駛峰會,歡迎參會交流。