英偉達(dá)：真正做到虛擬和真實(shí)世界交互需5-10年

作者：時(shí)間：2021-08-25 來源：澎湃新聞

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

　　日前，因?yàn)?a class="contentlabel" href="http://www.ex-cimer.com/news/listbylabel/label/英偉達(dá)">英偉達(dá)CEO黃仁勛在一場演講中用了14秒的“數(shù)字人”視頻引發(fā)了廣泛的關(guān)注，從而把“數(shù)字人”乃至“元宇宙”從專業(yè)人士帶入到大眾視野。

本文引用地址：http://www.ex-cimer.com/article/202108/427782.htm

　　澎湃新聞記者日前對話了英偉達(dá)三位技術(shù)專家，英偉達(dá)中國區(qū)高級技術(shù)市場經(jīng)理施澄秋、英偉達(dá)高級解決方案架構(gòu)師宋毅明和英偉達(dá)中國區(qū)傳媒娛樂行業(yè)經(jīng)理何展（文中統(tǒng)一用英偉達(dá)技術(shù)專家來稱呼）來講述什么是數(shù)字人、什么是元宇宙，元宇宙離我們到底有多遠(yuǎn)，元宇宙會帶來那些改變？

　　英偉達(dá)將自己定位為提供基礎(chǔ)底層服務(wù)架構(gòu)的。元宇宙概念平臺Omniverse像是一個(gè)工具箱，也是一個(gè)技術(shù)平臺底座，集合了英偉達(dá)過去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn)。英偉達(dá)希望搭建一個(gè)技術(shù)平臺，服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶。

　　英偉達(dá)技術(shù)專家表示，Omniverse為“數(shù)字人”引入了最接近“人”的表情、語言系統(tǒng)，相比此前繁瑣的技術(shù)環(huán)節(jié)，現(xiàn)在只需要通過基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會話式人工智能系統(tǒng)，把文字變成豐富面部表情，再基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。英偉達(dá)認(rèn)為，當(dāng)可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互，實(shí)現(xiàn)真實(shí)和虛擬世界交互時(shí)，也就完美契合了元宇宙概念，這個(gè)階段要在五到十年后。

　　以下與英偉達(dá)技術(shù)專家對話節(jié)選

　　澎湃新聞：上周SIGGRAPH2021大會上播放了一部關(guān)于GTC Keynote演講的紀(jì)錄片，揭示了數(shù)字生成在臺前幕后的新應(yīng)用，其中有一個(gè)14秒視頻是黃仁勛的“數(shù)字人”虛擬視頻，引發(fā)了廣泛關(guān)注。這里面用到了哪些技術(shù)，請介紹一下數(shù)字人的發(fā)展。

　　英偉達(dá)技術(shù)專家：在演講中黃仁勛有十幾秒的虛擬分身，可以看作一個(gè)數(shù)字人。其實(shí)可以把數(shù)字人概念當(dāng)成卡通人物或虛擬角色，它已經(jīng)存在已久。比如虛擬偶像開演唱會，日本動漫行業(yè)也推出了好幾個(gè)虛擬偶像，形象很豐滿。這些和傳統(tǒng)動畫片人物的最大分別在于，其不僅利用了3D渲染技術(shù)讓它看起來更像一個(gè)人，還利用了全息技術(shù)實(shí)現(xiàn)裸眼3D，讓它栩栩如生地站在舞臺上唱歌，這些都是傳統(tǒng)概念當(dāng)中虛擬人必備的一些元素。

　　但在NVIDIA看來，虛擬人是虛擬出來的，應(yīng)該更接近一個(gè)“人”，即數(shù)字人（Digital Human）。人類和虛擬角色、卡通人物最大的區(qū)別是有感情、能夠體會到喜怒哀樂，且能夠把喜怒哀樂實(shí)時(shí)地通過語言、表情等來體現(xiàn)，這也是虛擬人的精髓。也就是說，虛擬人的外形要栩栩如生，這就要利用英偉達(dá)GPU技術(shù)來渲染，以實(shí)現(xiàn)皮膚、毛發(fā)、衣物、配飾符合自然界物理定律。如果這個(gè)人物在跳舞的時(shí)候項(xiàng)鏈不動、貼在身上，那就不是虛擬人了，而是普通的3D動畫。并且如果十年前推出的虛擬角色和二十年后推出的虛擬角色頭發(fā)都一樣，那也不切實(shí)際，年輕人、中年人、老年人的毛發(fā)系統(tǒng)是不同的，皮膚隨著年齡的增長也是不一樣的。

　　Omniverse（英偉達(dá)推出的以元宇宙概念為基礎(chǔ)虛擬協(xié)作和模擬平臺）中的OmniSurface系統(tǒng)能夠渲染不同的材質(zhì)和表面，針對數(shù)字人也有一系列不同的渲染機(jī)制。利用GPU渲染可以讓數(shù)字人更接近真實(shí)的人類，這是數(shù)字人的第一個(gè)方面。

　　第二個(gè)方面，RTX Render技術(shù)，即實(shí)時(shí)光線追蹤技術(shù)。把數(shù)字人放到虛擬環(huán)境中后，環(huán)境有光照系統(tǒng)，也有傳統(tǒng)的路徑追蹤系統(tǒng)，虛擬人會和周遭環(huán)境進(jìn)行互動，虛擬人和環(huán)境的多次光線迭代也會給整個(gè)環(huán)境全局照明帶來影響，OmniSurface加上RTX Render可以實(shí)現(xiàn)實(shí)時(shí)的數(shù)字人（Digital Human）渲染，以及材料、POV的渲染，從元宇宙概念來看整個(gè)虛擬世界，模擬城市、人員、建筑等一系列復(fù)雜的生態(tài)環(huán)境系統(tǒng)都可以通過Omniverse完成，這是數(shù)字人和環(huán)境的互動。

　　最重要的是，為數(shù)字人引入最接近“人”的喜怒哀樂——表情、語言系統(tǒng)。Audio2Face只需要一段文字，便能夠通過基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會話式人工智能系統(tǒng)，來感知語言下的情緒，把一段文字變成豐富的面部表情，再自動基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。而以前則要進(jìn)行配音、口形適配，并考慮當(dāng)前的語態(tài)、語境，進(jìn)行面部表情分離，重新渲染面部表情，整個(gè)環(huán)節(jié)太繁瑣，時(shí)間、人力、物力成本都過于巨大。

　　現(xiàn)在，結(jié)合Audio2Face、OmniSurface和RTX Render能夠?qū)崟r(shí)地把數(shù)字人做得更逼真更詳實(shí)，不僅是一個(gè)虛擬內(nèi)容，更注重的是用數(shù)字化的形式呈現(xiàn)“人類”。在Omniverse加持之下，能夠滿足過去數(shù)十年我們對虛擬人的設(shè)想，通過當(dāng)前的軟硬件技術(shù)以及網(wǎng)絡(luò)云原生的Omniverse平臺，以一站式解決方案把數(shù)字人包裝得更逼真、更詳實(shí)、更符合自然界的物理定律，無論是人本身的皮膚、毛發(fā)，還是身上的配飾、衣物，甚至與周遭的環(huán)境、光線的互動，都能更好地實(shí)現(xiàn)。

　　隨著每個(gè)數(shù)字人周遭環(huán)境的放大，以及日后GPU算力、Omniverse平臺能力的不斷提升和版本迭代，我們最終能夠?qū)崿F(xiàn)元宇宙的構(gòu)想。

　　澎湃新聞：英偉達(dá)數(shù)字人的路線圖是什么？什么時(shí)候能做到假人和真人之間的交互？

　　英偉達(dá)技術(shù)專家：英偉達(dá)在硅谷有專門的數(shù)字人研究團(tuán)隊(duì)，有非常清晰的路線圖。

　　第一階段，要把它做像了，利用CG（計(jì)算機(jī)動畫）技術(shù)和實(shí)時(shí)光線追蹤渲染技術(shù)把它做像了。比如14秒黃仁勛數(shù)字人分身，這一階段已經(jīng)非常成熟到位了，很多平臺都可以做到，只要有非常懂CG藝術(shù)的專家和設(shè)計(jì)者，將相關(guān)的動物采集數(shù)據(jù)、鏡頭，甚至血液流動算法等堆疊起來即可。

　　第二階段，通過一些要素驅(qū)動數(shù)字虛擬人。現(xiàn)在國際上有比較流行的三個(gè)要素可以驅(qū)動數(shù)字虛擬人：一類是視頻，類似短視頻，做一些視頻人物的動作，通過視頻驅(qū)動第一階段做出來的很像的數(shù)字虛擬人。另一類是“中之人”，這個(gè)概念來自日本，現(xiàn)在最貼切的展示方式就是穿動捕服的演員，就像大片拍攝中通過“中之人”驅(qū)動數(shù)字虛擬人。還有一類就是語音語義，英偉達(dá)數(shù)字人研究院就選定了語音語義這個(gè)要素作為驅(qū)動數(shù)字人的技術(shù)切入點(diǎn)，為什么選它呢？這三類中最容易獲得的就是語音語義，而且很方便，通過一段語音或者一段文字就可以驅(qū)動數(shù)字虛擬人。

　　英偉達(dá)在這里扮演的是什么角色呢？這里介紹剛剛更名的開源平臺——NVIDIA Riva，是通過算法優(yōu)化的平臺，其中有一個(gè)功能模塊叫做Audio2Face，可以通過一段音頻驅(qū)動數(shù)字人面部表情的動捕，就像正常人說話一樣，實(shí)現(xiàn)口音口型和面部表情、細(xì)微動作。所以黃仁勛演講中，別看短短14秒，里面包含了很多技術(shù)，其中就有一段Audio2Face，所有的數(shù)字通過動捕方式采集好之后，模擬口形、動捕演員的驅(qū)動都會涉及到這些要素。

　　第三階段就比較升華，每個(gè)階段都需要兩到三年，我們認(rèn)為第三階段才是數(shù)字虛擬人真正達(dá)到應(yīng)用級別產(chǎn)品化的階段，應(yīng)該是在五到十年后。

　　到了第三階段，我們可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互，也可以實(shí)現(xiàn)數(shù)字人和數(shù)字人之間的溝通交互，這個(gè)也叫做真實(shí)和虛擬世界的交互，其實(shí)也完美地契合了元宇宙的概念。

　　澎湃新聞：真正進(jìn)入虛擬和真人之間的交互的第三階段需要具備哪些條件？

　　英偉達(dá)技術(shù)專家：第一階段其實(shí)已經(jīng)很成熟了，已經(jīng)有很多平臺可以做到。第二階段屬于初期，我們某些客戶合作伙伴都已經(jīng)做到了初級階段，很多算法已經(jīng)交付給了市場。大家可以看到很多語音播報(bào)員背后的邏輯就是第二階段的技術(shù)。我們認(rèn)為這一階段過兩到三年就會進(jìn)入成熟期。

　　再過兩到三年以后就會進(jìn)入第三階段初始的發(fā)展期和萌芽期，五年左右的時(shí)間點(diǎn)是一個(gè)非常重要的時(shí)間點(diǎn)，那個(gè)時(shí)間段英偉達(dá)GPU平臺的算力，包括自己各種算法的迭代，到那個(gè)時(shí)候也會有非常大的改進(jìn)和提高。當(dāng)大家在生態(tài)系統(tǒng)當(dāng)中做數(shù)字虛擬人平臺和創(chuàng)作者時(shí)候，這三五年一定會有非常大的訓(xùn)練集驅(qū)動走到3.0時(shí)代。五年那個(gè)時(shí)間點(diǎn)才是進(jìn)入3.0時(shí)代真正有可能看到，就是真正能夠用的真實(shí)和物理世界交互的數(shù)字人應(yīng)用出現(xiàn)的時(shí)間點(diǎn)。

　　舉個(gè)非常有意思的例子，大家知道現(xiàn)在去銀行的網(wǎng)點(diǎn)，柜臺都超不過五十到一百次，銀行現(xiàn)在正在考慮把所有的網(wǎng)點(diǎn)變成數(shù)字虛擬人，通過AR技術(shù)替換現(xiàn)在人工窗口的營業(yè)員。這些應(yīng)用在各行各業(yè)，所有的企業(yè)都已經(jīng)看到了，這就是我們認(rèn)為數(shù)字虛擬人市場需求這么強(qiáng)勁的原因，也是因?yàn)榭蛻艉褪袌鲵?qū)動我們挑戰(zhàn)新的技術(shù)。

　　澎湃新聞：剛才講到虛擬數(shù)字人的技術(shù)應(yīng)用，比如銀行、政務(wù)和商務(wù)的場合，這里面有那些場景是你們看到可以率先落地的？

　　英偉達(dá)技術(shù)專家：有很多職業(yè)，可以和大家分享一下英偉達(dá)已經(jīng)做過的數(shù)字虛擬人案例。比如數(shù)字主持人，就像《飛向月球》第二季，我們重建了央視某紀(jì)錄片頻道的著名主持人。然后還有數(shù)字導(dǎo)購員、數(shù)字4S店銷售、數(shù)字導(dǎo)游，包括現(xiàn)在數(shù)字的窗口營業(yè)員。還有一類非常有意思，如果大家關(guān)注Instagram這些國外比較流行的社交媒體網(wǎng)上有數(shù)字明星。去年疫情最嚴(yán)重的時(shí)候，日本曾經(jīng)做過一個(gè)調(diào)研，日本市場最受歡迎的一個(gè)明星居然是一個(gè)數(shù)字虛擬人，她在Twitter上的粉絲高達(dá)數(shù)百萬，所以營銷IP的公司相當(dāng)于打造了一個(gè)數(shù)字模擬器。包括大家看到電影《雙子殺手》也是一種數(shù)字人的體驗(yàn)形式，還有國內(nèi)的數(shù)字王國“鄧麗君”“張國榮”的數(shù)字IP應(yīng)用，我們看到了很多很多，就像雨后春筍一般出來。流媒體平臺上面也是越來越多。

　　澎湃新聞：Omniverse是英偉達(dá)推出的全球首個(gè)為元宇宙建立提供基礎(chǔ)的協(xié)作平臺，你們推出Omniverse的初衷和契機(jī)是什么？

　　英偉達(dá)技術(shù)專家：今年并不是Omniverse的元年，英偉達(dá)在2019年就提出了Omniverse，并且已經(jīng)為這個(gè)平臺布局了很久。大家都知道Metaverse即元宇宙的概念，其核心技術(shù)要素包括AI、區(qū)塊鏈、VR/AR/MR等XR技術(shù)、可視化的渲染技術(shù)等。這些方面的技術(shù)在最近幾年處于集中爆發(fā)期，并且現(xiàn)在我們進(jìn)入了5G時(shí)代，這為真實(shí)世界和數(shù)字虛擬世界的交互提供了足夠的帶寬以及交互的技術(shù)基礎(chǔ)。這些因素促進(jìn)1992年提出的元宇宙概念如今成為了一個(gè)火熱的話題。英偉達(dá)對這些技術(shù)都有所涉及，所以在此契機(jī)下提出了英偉達(dá)所理解的元宇宙概念平臺——Omniverse。我個(gè)人認(rèn)為它像是英偉達(dá)為創(chuàng)建元宇宙數(shù)字化虛擬空間的奇點(diǎn)，也可稱之為技術(shù)平臺底座，集合了英偉達(dá)過去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn)，又像是一個(gè)工具箱，大家在創(chuàng)造數(shù)字化虛擬空間時(shí)，需要螺絲就可以在這里拿一個(gè)螺絲，需要一個(gè)剪刀就拿一個(gè)剪刀。英偉達(dá)希望搭建一個(gè)技術(shù)平臺，服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶，以實(shí)現(xiàn)元宇宙。

　　澎湃新聞：Omniverse主要提供哪些產(chǎn)品和服務(wù)？面向的服務(wù)對象和行業(yè)是什么？

　　英偉達(dá)技術(shù)專家：Omniverse中有五大核心部件，包括Nucleus、Connect、Kit、RTX Render、Simulation，這些是我們的技術(shù)底座。Nucleus提供了云原生技術(shù)的底座，RTX Render最多可以在云上調(diào)用48個(gè)GPU來提供同步渲染機(jī)制，這解決了很多行業(yè)的痛點(diǎn)，例如，有很多客戶只能調(diào)用自己工作站中的GPU資源，技術(shù)管理仍然基于第三方的傳統(tǒng)工具，無法跟產(chǎn)品連接起來。Kit組件將英偉達(dá)的圖形計(jì)算和AI技術(shù)暴露給開發(fā)者，開發(fā)者可以利用KIT打造適合自己的工作流程。這些面向開發(fā)能力較強(qiáng)的用戶。針對終端用戶即開發(fā)能力較弱的用戶，英偉達(dá)也打造了一些服務(wù)，比如面向設(shè)計(jì)師的Create部件。還有針對AEC建筑行業(yè)的View、方便機(jī)器人仿真結(jié)構(gòu)學(xué)習(xí)的Issac Sim，可以運(yùn)用渲染效果實(shí)現(xiàn)可視化，以及即將推出的無人駕駛仿真平臺Drive Sim。這些就是Omniverse所提供的產(chǎn)品和服務(wù)，Create、View、Drive Sim、Issac Sim偏向于面向終端用戶的產(chǎn)品，而服務(wù)則包括五大核心中的Nucleus、Kit、RTX Render、Simulation、Connect，其中Connect能夠把第三方DCC（Digital Create Content）工具通過USD方法整合到Omniverse平臺進(jìn)行加速。

　　Omniverse分為to C端及to B端。針對C端消費(fèi)者的Individual版本面向個(gè)人，全部免費(fèi)提供給用戶，在官方網(wǎng)站、微信公眾號等渠道都公開了下載鏈接。To B端是將在今年秋季發(fā)布的Omniverse Enterprise，功能會更加完整、強(qiáng)大，是付費(fèi)版本。

　　澎湃新聞：對于英偉達(dá)而言，未來希望在元宇宙當(dāng)中處于什么位置，或者扮演怎樣的角色？

　　英偉達(dá)技術(shù)專家：英偉達(dá)的位置應(yīng)該是提供基礎(chǔ)底層服務(wù)架構(gòu)的。Omniverse是一個(gè)工具，通過這個(gè)工具讓各種各樣的ISV、開發(fā)者和用戶自己打造自己的內(nèi)容。最近幾年非常流行的一個(gè)詞叫做UGC，User-generated Content，就是用戶產(chǎn)生內(nèi)容。我們給用戶工具以后讓用戶自己根據(jù)各式各樣的創(chuàng)造性思維打造逼真的世界和高度還原的東西，英偉達(dá)就是處在底層提供技術(shù)底座和提供工具方面入手。就像之前的加州淘金熱，我們是提供基礎(chǔ)工具鏟子，當(dāng)然這個(gè)技術(shù)鏟子門檻可能比較高，不像淘金那個(gè)時(shí)候相對來說技術(shù)比較原始，我認(rèn)為是這樣一個(gè)位置。

　　澎湃新聞：現(xiàn)在要解決算力問題的話，全球現(xiàn)在算力可以達(dá)到怎樣的水平？未來實(shí)現(xiàn)元宇宙的算力大概是多大的？中間有多難或者多長的距離需要跨越？

　　英偉達(dá)技術(shù)專家：現(xiàn)在我們從事元宇宙是從一個(gè)小的宇宙，比如模擬一個(gè)屋子再到一個(gè)小的社區(qū)，或者是一個(gè)小的區(qū)域來說，慢慢地把所有人和事物連接進(jìn)來，整體算力應(yīng)該是很大的，第一步就是能夠調(diào)用多種類型的GPU加速這樣一個(gè)過程。我們回到Omniverse本身的架構(gòu)，可以調(diào)用64個(gè)云上GPU同時(shí)渲染一個(gè)場景，但隨著后面技術(shù)的不斷更迭會有更多的GPU，成百上千或者上萬GPU同時(shí)加速一個(gè)元宇宙的場景，現(xiàn)在我們是調(diào)用64個(gè)GPU加速一個(gè)場景這樣一個(gè)階段。

　　澎湃新聞：中國也許多布局元宇宙的公司，你們?nèi)绾慰创钪嬖谥袊袌龅臋C(jī)會？

　　英偉達(dá)技術(shù)專家：實(shí)際上元宇宙不是某一家公司就全都能夠?qū)崿F(xiàn)的，需要一個(gè)整體的、多家的平臺共同努力。這里有很多玩家，國際上就是Facebook、微軟、Roblox、英偉達(dá)，包括國內(nèi)在做的騰訊全周期互聯(lián)網(wǎng)就是一個(gè)對等的平臺，這么多玩家在一起才能實(shí)現(xiàn)，國內(nèi)有很多做數(shù)字孿生的、做數(shù)字資產(chǎn)庫的這些生態(tài)合作伙伴跟我們合作的也比較多，都在貢獻(xiàn)自己的一些力量，他們也期待借著這個(gè)概念平臺的興起會出現(xiàn)新的爆款產(chǎn)品。

　　借此機(jī)會也和大家分享一下某客戶發(fā)布的模擬加州大火燃燒蔓延趨勢，為什么英偉達(dá)理解的元宇宙和Omniverse和僅限于游戲世界的元宇宙不一樣，這里就有圖形學(xué)的概念。這些全是假的，就是模擬火勢燃燒，然后結(jié)合AI技術(shù)，當(dāng)?shù)氐娘L(fēng)向、濕度、樹木的分布圖，火焰真正燃燒起來的蔓延是怎樣的，這些視頻技術(shù)的模擬可以幫助消防管理負(fù)責(zé)人員進(jìn)行快速決策，也是我們真正服務(wù)于現(xiàn)在各種各樣需求的一個(gè)很經(jīng)典的案例。

新聞中心

英偉達(dá)：真正做到虛擬和真實(shí)世界交互需5-10年

評論

相關(guān)推薦

技術(shù)專區(qū)