生成式AI大會沸騰北京！從Sora到具身智能，25位大佬密集輸干貨

2024-04-23 15:33

智東西（公眾號：zhidxcom）
作者 | 智東西編輯部

今日，在春風(fēng)拂面花千樹的北京，我們?yōu)樯墒紸I舉辦了一場隆重且專業(yè)的春日派對。

智東西4月18日報道，以“重構(gòu)世界奔赴未來”為主題的2024中國生成式AI大會今日正式開幕，今明兩日，有54位產(chǎn)學(xué)研投重量級嘉賓代表將同臺探討生成式AI的發(fā)展現(xiàn)狀與未來趨勢。

大會首日，由歐洲人文和自然科學(xué)院外籍院士、清華大學(xué)人工智能研究院常務(wù)副院長孫茂松領(lǐng)銜，25位嘉賓圍繞大語言模型、視頻生成、具身智能、音樂生成、世界模型、垂類行業(yè)大模型、AI全棧軟件、加速大模型端側(cè)部署等前沿議題，分享最新的研發(fā)與實踐經(jīng)驗。

在1230平方米宴會廳的會場，線下參會觀眾人潮洶涌，開幕式更是全程爆滿，連下午分會場實行收費制的具身智能技術(shù)研討會也是座無虛席。展區(qū)同樣人頭攢動，交流氣氛熱烈濃厚。

值得一提的是，會上，AI+終端創(chuàng)企李未可科技正式發(fā)布為眼鏡等未來終端定向優(yōu)化的自研WAKE-AI多模態(tài)大模型，具備文本生成、語言理解、圖像識別及視頻生成等多模態(tài)交互能力。

作為智一科技傾力打造的產(chǎn)業(yè)峰會IP，2024中國生成式AI大會由智東西和智猩猩聯(lián)合主辦，安排覆蓋生成式AI全產(chǎn)業(yè)鏈的豐富議題，并將于明日上午公布中國生成式AI企業(yè)TOP50。

“過去一年，生成式AI狂飆突進，整個產(chǎn)業(yè)鏈成為全球創(chuàng)新、投資和應(yīng)用最活躍的領(lǐng)域之一。”智一科技聯(lián)合創(chuàng)始人、CEO龔倫常代表主辦方為大會致辭，“我們正站在歷史的轉(zhuǎn)折處，見證和參與由生成式AI引領(lǐng)的新一輪科技變革。”

▲智一科技聯(lián)合創(chuàng)始人、CEO龔倫常

龔倫常還預(yù)告了今年多個重要會議——在上海，2024中國生成式AI大會·上海站將于11月舉行，中國智能汽車算力峰會將于6月舉行；在深圳，第六屆全球AI芯片峰會和第六屆全球自動駕駛峰會分別將于9月和12月舉行。歡迎大家參會。

一、高端對話：洞察中國創(chuàng)新機會，熱聊開源與閉源路徑選擇

高端對話環(huán)節(jié)以“解構(gòu)生成式AI浪潮，洞察中國創(chuàng)新與機會”為主題，由智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國仁主持，啟明創(chuàng)投合伙人周志峰、生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝就生成式AI投資策略、大模型商業(yè)化路徑等話題分享觀點。

張國仁談道，這兩年我們確實發(fā)現(xiàn)生成式AI正從一個科技圈的熱門話題甚至出圈的話題，變得越來越務(wù)實，開始變成實打?qū)嵉男沦|(zhì)生產(chǎn)力，助力產(chǎn)業(yè)創(chuàng)新和各行各業(yè)的發(fā)展。

啟明創(chuàng)投周總談到洞察趨勢的方法，三種假設(shè)給自己判斷的參考都非常有價值；生數(shù)科技作為國內(nèi)前沿大模型技術(shù)和應(yīng)用探索的新銳玩家，對技術(shù)和趨勢的洞察也值得產(chǎn)業(yè)研究。

▲智一科技聯(lián)合創(chuàng)始人、智車芯產(chǎn)媒矩陣總編輯張國仁

“啟明創(chuàng)投是中國投資大模型最多的創(chuàng)業(yè)投資機構(gòu)之一。”啟明創(chuàng)投合伙人周志峰談道，啟明創(chuàng)投在過去2年持續(xù)布局大模型基于三個假設(shè)：第一，生成式AI尚處發(fā)展初期，基礎(chǔ)技術(shù)創(chuàng)新為主流；第二，多數(shù)模型公司最終將演變?yōu)槟Ｐ蛻?yīng)用一體化企業(yè)，對外輸出的是應(yīng)用，他們更容易把握技術(shù)邊界，推動產(chǎn)品創(chuàng)新；第三，本階段絕大部分資金流向大模型公司，提供了更多的迭代機會。

周志峰認為生成式AI應(yīng)用企業(yè)，其0到1階段的成長較其他領(lǐng)域更長，需要同時克服TPF（Technology-Product Fit）和PMF（Product-Market Fit）兩大挑戰(zhàn)，而其他領(lǐng)域通常只需面對PMF一座大山。創(chuàng)業(yè)者和投資人都需要更大的耐心和定力。

▲啟明創(chuàng)投合伙人周志峰

生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝分享說，生數(shù)科技之所以選擇原生多模態(tài)大模型技術(shù)路線，是因為圖像、3D、視頻等同為視覺模態(tài)，在模型訓(xùn)練中是相互促進的關(guān)系。同時在商業(yè)化方面，通用大模型能夠應(yīng)用于更多場景，面對場景需求變化能夠迅速作出反應(yīng)。

談及開源與閉源的路線選擇，他認為各有合適的商業(yè)路徑，開源的最大價值在于生態(tài)建設(shè)，但從模型能力提升來看，閉源還是會走在開源前面。

▲生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝

二、縱覽多模態(tài)生成新范式，從視頻、音樂、人物到具身智能

在今日的大會上，國內(nèi)視頻生成模型先鋒創(chuàng)企愛詩科技分享了積極追趕Sora的務(wù)實思考，具身智能代表玩家銀河通用機器人理性探討當前的局限性與進步方向，剛剛發(fā)布天工3.0大模型的昆侖萬維帶來了對前沿SOTA模型的思辨，阿里通義實驗室對人物視頻生成新范式進行解讀。

愛詩科技創(chuàng)始人兼CEO王長虎在大會開幕式演講中說，Sora是“一場可以推動行業(yè)發(fā)展的賣家秀”，驗證了Diffusion Transformer在視頻生成中的Scaling Law，我們很快將見證視頻創(chuàng)意工作者的工作流、內(nèi)容生產(chǎn)和消費鏈條被徹底改變。

在他看來，追趕Sora的窗口期在一年前，而不是現(xiàn)在。中國在短視頻領(lǐng)域領(lǐng)先全球，同時短視頻也是最貼近用戶的內(nèi)容形態(tài)。過去一年，視頻大模型經(jīng)歷著從量變到質(zhì)變。愛詩科技于今年1月正式推出PixVerse，目前已實現(xiàn)超1000萬次視頻生成，被全球創(chuàng)作者廣泛應(yīng)用于AI內(nèi)容創(chuàng)作中。

▲愛詩科技創(chuàng)始人兼CEO王長虎

成立于2023年5月的銀河通用機器人，是國內(nèi)具身智能代表初創(chuàng)公司之一。北京大學(xué)助理教授、銀河通用機器人創(chuàng)始人&CTO、智源具身智能中心主任王鶴談道，目前面向通用機器人的具身多模態(tài)大模型的局限在于數(shù)據(jù)來源有限、很難高頻輸出動作。他提到應(yīng)對這兩大挑戰(zhàn)的方向，一是通過仿真世界提供訓(xùn)練數(shù)據(jù)，二是采用三維模態(tài)模型提升泛化性和速度。

對此，銀河通用機器人構(gòu)建了三層級大模型系統(tǒng)，包括硬件、仿真合成數(shù)據(jù)訓(xùn)練的泛化技能、大模型等?；谠撓到y(tǒng)，機器人可實現(xiàn)跨場景、跨物體材質(zhì)、跨形態(tài)、跨物體擺放、依據(jù)人類語音指令進行的開放語義泛化抓取，成功率達95%。

▲北京大學(xué)助理教授、銀河通用機器人創(chuàng)始人&CTO、智源具身智能中心主任王鶴

昆侖萬維董事長兼CEO方漢強調(diào)了“技術(shù)領(lǐng)先”在AI領(lǐng)域的重要性，不同于互聯(lián)網(wǎng)時代產(chǎn)品的商業(yè)模式導(dǎo)向，大模型時代應(yīng)該是技術(shù)導(dǎo)向。

方漢談道，OpenAI在AI創(chuàng)企中的地位，本質(zhì)上是其文本大模型的SOTA（當前技術(shù)指標第一）能力帶來的。對于當前的AI創(chuàng)業(yè)者，在圖像、視頻、音樂等任何賽道，只要能取得SOTA，就能通過技術(shù)優(yōu)勢獲得大量用戶，后續(xù)再通過產(chǎn)品創(chuàng)新、商業(yè)模式創(chuàng)新把用戶固化在平臺上，形成自己的護城河。

▲昆侖萬維董事長兼CEO方漢

阿里通義實驗室XR團隊負責(zé)人薄列峰通過4個框架來解讀人物視頻生成新范式。基于這些框架的應(yīng)用，正逐步落地通義千問APP。

人物動作視頻生成框架Animate Anyone可基于單張圖和動作序列，輸出穩(wěn)定、可控的人物動作視頻；人物換裝視頻生成框架Outfit Anyone是基于服飾圖和人物形象；人物視頻角色替換框架Motionshop采用Video2Motion，基于視頻人物動作驅(qū)動3D數(shù)字人；人物唱演視頻生成框架Emote Portrait Alive能夠基于單張圖和音頻，輸出準確、生動的人物唱演視頻。

▲阿里通義實驗室XR團隊負責(zé)人薄列峰

三、大模型進入2.0時代！四趨勢、四要素、落地三階段

開源大模型領(lǐng)導(dǎo)者Meta為何執(zhí)著于世界模型？大模型落地應(yīng)用當務(wù)之急需要解決哪些挑戰(zhàn)？

前Meta?席?程負責(zé)?胡魯輝談道，聚焦多模態(tài)大模型的后GPT-4時代呈現(xiàn)出4大趨勢，一是語言模型到多模態(tài)大模型，二是數(shù)據(jù)集成到向量數(shù)據(jù)庫，三是Agent到大模型操作系統(tǒng)，四是微調(diào)到Plugin（插件）。

他認為大模型是通向AGI最靠譜的方法，并預(yù)測下一個AI 2.0爆發(fā)點及落地大方向?qū)⑹茿I for Robotics。這需要理解物理世界面臨的挑戰(zhàn)，包括數(shù)據(jù)標準化、模型分散且場景復(fù)雜、環(huán)境硬件限制、算力成本貴且訓(xùn)練時間長等方面。

▲前Meta?席?程負責(zé)?胡魯輝

云天勵飛“云天天書”大模型技術(shù)負責(zé)人余曉填將大模型比作人類知識的信息壓縮機，即壓縮海量數(shù)據(jù)，學(xué)習(xí)其中的統(tǒng)計規(guī)律。在大模型四大要素——參數(shù)、算力、數(shù)據(jù)、人才中，他認為人才是最重要的根基，結(jié)合其他要素能實現(xiàn)高效的海量信息壓縮。

余曉填將大模型落地分為三個階段：技術(shù)找場景、場景反哺技術(shù)、場景找技術(shù)。目前處于第二階段，需要在深度場景挖掘更多數(shù)據(jù)，有針對地提升算法能力，找到技術(shù)變現(xiàn)在精度、成本、效率“三角約束”的平衡點。云天勵飛的解決方案就是“算法芯片化”。

▲云天勵飛“云天天書”大模型技術(shù)負責(zé)人余曉填

萬興科技副總裁朱偉談道，當下，大模型正從1.0圖文時代進入以音視頻多媒體為載體的2.0時代。視頻創(chuàng)作需求量巨大，然而長期來視頻相關(guān)模型僅占極少數(shù)，且大模型在音視頻領(lǐng)域的應(yīng)用面臨數(shù)據(jù)集缺失、視頻內(nèi)容結(jié)構(gòu)及層級復(fù)雜、算力成本高等嚴峻挑戰(zhàn)。

進入2024年AI視頻年，萬興科技將在4月28日正式公測旗下萬興“天幕”音視頻多媒體大模型。該模型具有多媒體、垂直解決方案、算力數(shù)據(jù)及應(yīng)用本土化三大特色，將支持60秒視頻一鍵生成，并具備視頻生視頻、文生音樂、文生音效等多項能力。

▲萬興科技副總裁朱偉

四、李未可科技首發(fā)多模態(tài)AI大模型，AI基礎(chǔ)設(shè)施升級助攻提質(zhì)增效

邁入大模型時代，算法、應(yīng)用與AI基礎(chǔ)設(shè)施都在競速快跑。

李未可科技合伙人&AI負責(zé)人古鑒宣布，李未可科技首次發(fā)布針對“AI+終端”定向優(yōu)化研發(fā)的多模態(tài)AI大模型平臺WAKE-AI。他分享說，相比手機、新型硬件，眼鏡能帶來極致的輕薄，更適合室外場景的AI落地。

WAKE-AI使用MoE架構(gòu)，針對眼鏡端用戶的使用方式、場景等進行了優(yōu)化，在語音返回速度上能做到90%，ASR字錯率低于2%，能夠為用戶提供戶外運動、文化旅行、日程管理及實時翻譯等多種多模態(tài)AI服務(wù)。古鑒還透露道，李未可科技即將推出搭載WAKE-AI的終端新品。

▲李未可科技合伙人&AI負責(zé)人古鑒

中科曙光智能計算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東談道，中科曙光通過異構(gòu)平臺與算力網(wǎng)絡(luò)打造了算力基礎(chǔ)及能力，由于大模型閉環(huán)流程的每個環(huán)節(jié)對軟件棧有不同需求，打造AI全棧軟件也至關(guān)重要。

在基礎(chǔ)軟件棧方面，中科曙光推出了DAS AI Software Stack基礎(chǔ)軟件棧，通過多種AI組件、性能組件支持大模型快速遷移和優(yōu)化。除此之外，中科曙光還深度還聚焦AI開發(fā)平臺、內(nèi)容創(chuàng)作平臺、訓(xùn)練推理平臺等多個平臺服務(wù)，并通過創(chuàng)空間WorkSpace將平臺能力進行資源整合與分配，支持AI能力化實踐。

▲中科曙光智能計算產(chǎn)品事業(yè)部副總經(jīng)理胡曉東

陽光保險集團人工智能首席科學(xué)家杜新凱談道，大模型和保險的底層邏輯天然契合，融合“數(shù)字化轉(zhuǎn)型+大模型應(yīng)用”的智能化轉(zhuǎn)型成為當前階段保險業(yè)發(fā)展新質(zhì)生產(chǎn)力最應(yīng)該把握的科技主題。

陽光保險基于陽光正言GPT大模型，正在打造“三個智能化”，即銷售智能化、客服智能化、管理智能化，積極探索通過大模型深度賦能改變傳統(tǒng)的保險業(yè)務(wù)模式。

▲陽光保險集團人工智能首席科學(xué)家杜新凱

安謀科技產(chǎn)品總監(jiān)楊磊指出，生成式AI正逐步成為客戶端設(shè)備上的人機交互界面，而具備100億參數(shù)級別的模型已成為終端設(shè)備的最佳匹配規(guī)格。然而，在終端部署這類大型模型時，仍面臨成本、功耗及軟件生態(tài)等多重挑戰(zhàn)。

在當前大模型發(fā)展的硬件驅(qū)動階段，楊磊談道，異構(gòu)計算是部署端側(cè)大模型的理想選擇，它能最大限度地提升SoC的性能、能效以及面積利用率。NPU作為端側(cè)AI應(yīng)用的關(guān)鍵算力資源，將為大模型的分布式落地演進提供核心動力。安謀科技自研“周易”NPU面向大模型場景做了架構(gòu)、內(nèi)存墻等多方面改進。它采用多核設(shè)計，能夠同時支持卷積神經(jīng)網(wǎng)絡(luò)（CNN）和Transformer架構(gòu)，并已成功適配了國內(nèi)外多個主流大模型。

▲安謀科技產(chǎn)品總監(jiān)楊磊

聯(lián)匯科技CEO兼首席科學(xué)家趙天成談道，中大型企業(yè)普遍存在“知識斷層”問題，大量專業(yè)知識轉(zhuǎn)移、檢索效率低，導(dǎo)致行業(yè)數(shù)字化轉(zhuǎn)型受阻、技術(shù)創(chuàng)新遇到瓶頸，這對多模態(tài)大模型驅(qū)動的知識新引擎提出要求。

聯(lián)匯科技開創(chuàng)了三位一體產(chǎn)品棧“模型+工具+應(yīng)用”，提供To B的全棧式AI2.0解決方案，通過智能體的人機對話、實時數(shù)據(jù)、自動決策能力實現(xiàn)員工提質(zhì)增效。

▲聯(lián)匯科技CEO兼首席科學(xué)家趙天成

五、圓桌對話：通用AGI之路千萬條，開源至關(guān)重要

始智AI wisemodel創(chuàng)始人兼CEO劉道全擔(dān)任下午場圓桌討論的主持人，帶領(lǐng)嘉賓們探討了一系列關(guān)鍵問題，包括：大模型來臨前后的AI開發(fā)有什么區(qū)別？如何看待閉源模型和開源模型路線之爭？以及大家在大模型開發(fā)中有哪些成果和挑戰(zhàn)？

劉道全認為，通用AGI之路千萬條，開源是至關(guān)重要的一條。劉道全及其團隊于去年9月上線了國內(nèi)第一個中立開放的AI開源平臺wisemodel.cn，該平臺已囊括了國內(nèi)主要的大模型公司及科研院所最新發(fā)布的開源模型。

▲始智AI wisemodel創(chuàng)始人兼CEO劉道全

vivo AI解決方案中心總監(jiān)謝偉欽認為，端側(cè)大模型會是未來AGI道路上的一條重要路徑，可在給用戶提供個性化服務(wù)的同時，更好地保護用戶，也能支持在無網(wǎng)和弱網(wǎng)環(huán)境下的大模型應(yīng)用。對于大模型企業(yè)來說也可以節(jié)約大量服務(wù)器成本。vivo自研藍心大模型率先實現(xiàn)端側(cè)化部署。

大模型及AI技術(shù)在很多維度上是對人能力的提升，如多模態(tài)大模型的圖文理解和問答能力可以很好地幫助視障用戶了解周圍的環(huán)境和事物，更好地工作生活。vivo會持續(xù)關(guān)注更多類似的大模型應(yīng)用場景，并將支持更多的模型開源，同時希望借助開源社區(qū)的力量迭代大模型效果和產(chǎn)品體驗。

▲vivo AI解決方案中心總監(jiān)謝偉欽

硅基智能CTO林會杰認為，雖然現(xiàn)在閉源模型暫時領(lǐng)先，但未來開源一定會比閉源更好?；仡櫥ヂ?lián)網(wǎng)時代，頭部搜索引擎公司都是基于開源軟件的力量構(gòu)建產(chǎn)品，對于開發(fā)者來說，開源從體驗、效率到質(zhì)量都更勝一籌，“只有敢開源的公司才能做出好的大模型”。

對于AGI，硅基智能的愿景是在數(shù)字空間里讓代碼感知、理解，像人一樣表達和交互，也就是具身智能。

▲硅基智能CTO林會杰

聯(lián)匯科技CEO兼首席科學(xué)家趙天成認為，在AI技術(shù)早期不確定性時，投入基礎(chǔ)設(shè)施是明智之選。他在2020年歸國創(chuàng)業(yè)時顧慮小模型定制化成本過高，于是轉(zhuǎn)而做工具鏈等基礎(chǔ)設(shè)施，而后逐步確立了預(yù)訓(xùn)練模型及Agent發(fā)展路線。趙天成希望五年后每個企業(yè)都有自己的數(shù)字助手，讓效率提升10倍以上。

▲聯(lián)匯科技CEO兼首席科學(xué)家趙天成