浪潮元宇宙服務器+NVIDIA Omniverse助力構建高逼真交互型數字人

浪潮

2022-08-24 09:00 5753

北京2022年8月24日 /美通社/ -- 近日，在浪潮 & NVIDIA元宇宙算力發(fā)展研討會上，浪潮信息和NVIDIA分享了如何使用浪潮元宇宙服務器MetaEngine與NVIDIA Omniverse快速構建高逼真的交互型數字虛擬人。

數字人生產需要強大的多元算力支撐

虛擬數字人是元宇宙的主要實體，就像是元宇宙世界中的公民，是人類身份在虛擬世界的載體。隨著2021年元宇宙風起，更高擬真、超寫實，具有強交互性的新一代虛擬人開始涌現，且正在被規(guī)?；瘧玫讲煌a業(yè)場景。

數字人生產可以拆分成人物建模、人物驅動、人物渲染和感知交互四個作業(yè)環(huán)節(jié)。AI能夠加速虛擬數字人生產的每個作業(yè)環(huán)節(jié)，可以說AI正在改變數字人的生產范式，將數字人的創(chuàng)作周期大幅縮短，提升生產效率，推動數字人產業(yè)快速發(fā)展。

這樣一種新范式的背后其實是更巨量和多元的算力需求。具體而言，數字人和其他實體的建模需要眾多設計師協同創(chuàng)作完成，這就需要底層平臺具有強大虛擬化和云端協同計算能力；當數字人建模完成之后，數字人自身的運動，數字人和其所處的數字環(huán)境、以及其他實體的相互作用需要大量的結構力學、彈性力學，以及多體動力學等物理仿真算力需求；讓數字人無限接近自然人，需要高逼真、沉浸感的3D渲染，例如阿麗塔高度擬真的視覺特效來源于光線追蹤、光柵化、DLSS等巨量的圖形圖像算力支撐；在智能交互環(huán)節(jié)，由AI驅動的數字人往往需要結合語音識別、NLP、DLRM等AI算法從而實現交互能力，這些模型的背后需要強大的AI算力來支撐其訓練和推理。此外，現實世界和數字世界的交互則需要超低延遲的網絡數據傳輸，來創(chuàng)造更流暢的沉浸式的數字世界體驗。

由此可以看出，元宇宙的構建和運行需要強大的多元算力支撐。這也對算力基礎設施提出了更高的要求，不僅是高性能、低延遲、易擴展的硬件平臺，還需要有端到端、生態(tài)豐富、易用的軟件棧。

浪潮MetaEngine：元宇宙算力平臺

浪潮元宇宙服務器MetaEngine就是要打造支撐元宇宙的軟硬一體化算力基礎設施。為此，浪潮與英偉達聯合打造業(yè)界超強軟硬件生態(tài)，為數字人和數字孿生的構建提供多元算力，以及豐富的技術和工具，為用戶打造高效的元宇宙協同開發(fā)體驗。

在硬件上，MetaEngine采用浪潮領先的異構加速服務器，支持最先進的CPU和GPU，具有強大的RDMA通信和數據存儲能力，可提供強大的渲染和AI計算能力。

在軟件上，MetaEngine可以支持對應每個作業(yè)環(huán)節(jié)的各類專業(yè)軟件工具，用戶可以根據使用習慣靈活選擇。同時系統全面支持NVIDIA Omniverse Enterprise，是經過優(yōu)化的OVX系統，可提供用于構建和部署大規(guī)模數字孿生的相關功能及性能。用戶可以通過Kit功能將不同的SDK進行模塊化的組合，快速完成定制化App或者微服務的開發(fā)。互聯插件CONNECT可以通過通用數據格式USD實現第三方專業(yè)軟件工具無縫連接，目前CONNECT已經提供了20多種Plugins，支持與3DS MAX，UE, MAYA等軟件互聯，解決不同軟件之間難以打通、互操作性弱的痛點難題。

MetaEngine還整合了浪潮"源"大模型和浪潮AIStation智能業(yè)務創(chuàng)新生產平臺的能力。浪潮"源"大模型參數規(guī)模高達2457億，具備知識問答、多輪對話、中英翻譯、寫作古詩等零樣本或小樣本的推理能力，可以讓虛擬人像人類一樣進行自然語言交互。而針對浪潮"源"需要多GPU計算設備協同工作的問題，浪潮AIStation可實現多計算資源的智能調度管理，保證模型服務的高吞吐、低延遲。

浪潮MetaEngine - NVIDIA Omniverse快速構建高逼真交互型數字人

浪潮信息與NVIDIA強強聯手，基于MetaEngine和NVIDIA Omniverse Enterprise推出了具備統一多軟件格式、支持多人協作、支持實時驅動和實時光線追蹤渲染的虛擬人解決方案，強大的算力平臺及豐富的軟件棧讓虛擬人構建由難變易，尤其適合大規(guī)模虛擬人制作場景。

方案集成了創(chuàng)建數字人的流程和技術，可以快速生成毛發(fā)、皮膚、細節(jié)都非常逼真的超寫實數字人，幫助數字人制作用戶更好地創(chuàng)建自己的數字虛擬IP。

使用方案中的NVIDIA Ominiverse audio2face工具，通過很簡短的一段音頻輸入，就可以驅動這段語音對應的表情，大大加速數字人的制作過程。

來源：NVIDIA “使用NVIDIA Omniverse auto2face制作AI驅動的面部動畫”

在動作識別方面，以往采用光學和慣性動作捕捉技術，需要真人演員驅動，并使用大量的攝像頭、傳感器，制作難度大、成本高、周期長。現在，借助浪潮MetaEngine - NVIDIA Ominiverse方案，可以基于人體骨骼點二維運動特征向量進行動作識別，進一步映射到數字人軀體上，快速驅動數字人的表情和動作。

此外，還可以實現數字虛擬人和真實人類的交互。虛擬人可以識別真實人類的動作、肢體語言和反饋，再通過NLP模型、圖形圖像處理軟件，根據機器學習算法決定說什么話，來吸引真實的人類，和人類進行交互。

來源：NVIDIA “與愛因斯坦虛擬人對話”

如何使用浪潮MetaEngine和NVIDIA Ominiverse來構建高逼真的交互型虛擬數字人呢？下面按照人物建模、人物驅動、人物渲染、感知交互的作業(yè)流程來說明。

首先可以使用UE metahuman等軟件配合Omniverse的nucleus/connect進行3D人物形象及人臉建模。

然后通過高精仿真，讓虛擬數字人的動作和行為更加物理準確。

接下來實時渲染環(huán)節(jié)，RTX Renderer可以提供實時渲染能力，讓人物動畫及其場景實時立體地展示在用戶面前，通過屏幕或XR設備進行溝通交流。

最后是智能交互，這部分需要有大量的AI模型提供支撐。用戶首先通過ASR和Vision AI模型進行語音和圖像識別，進一步將識別得到的結果送入全球領先的中文語言模型浪潮"源1.0"大模型來生成應答的語言文本，在這個部分AIStation推理平臺會負責管理源1.0及語音模型，源回答的結果，會經過tts模型轉化為語音，然后送入NVIDIA Omniverse audio2face，通過語音驅動數字人面部產生逼真的表情及面部動作，并通過RTX Renderer實時渲染能力生成動畫視頻作為輸出與用戶交互，讓對話及交互更加自然真實。

消息來源：浪潮