英偉達(dá):真正做到虛擬和真實(shí)世界交互需5-10年
日前,因?yàn)?a class="contentlabel" href="http://www.ex-cimer.com/news/listbylabel/label/英偉達(dá)">英偉達(dá)CEO黃仁勛在一場演講中用了14秒的“數(shù)字人”視頻引發(fā)了廣泛的關(guān)注,從而把“數(shù)字人”乃至“元宇宙”從專業(yè)人士帶入到大眾視野。
本文引用地址:http://www.ex-cimer.com/article/202108/427782.htm澎湃新聞記者日前對話了英偉達(dá)三位技術(shù)專家,英偉達(dá)中國區(qū)高級技術(shù)市場經(jīng)理施澄秋、英偉達(dá)高級解決方案架構(gòu)師宋毅明和英偉達(dá)中國區(qū)傳媒娛樂行業(yè)經(jīng)理何展(文中統(tǒng)一用英偉達(dá)技術(shù)專家來稱呼)來講述什么是數(shù)字人、什么是元宇宙,元宇宙離我們到底有多遠(yuǎn),元宇宙會帶來那些改變?
英偉達(dá)將自己定位為提供基礎(chǔ)底層服務(wù)架構(gòu)的。元宇宙概念平臺Omniverse像是一個(gè)工具箱,也是一個(gè)技術(shù)平臺底座,集合了英偉達(dá)過去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn)。英偉達(dá)希望搭建一個(gè)技術(shù)平臺,服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶。
英偉達(dá)技術(shù)專家表示,Omniverse為“數(shù)字人”引入了最接近“人”的表情、語言系統(tǒng),相比此前繁瑣的技術(shù)環(huán)節(jié),現(xiàn)在只需要通過基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會話式人工智能系統(tǒng),把文字變成豐富面部表情,再基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。英偉達(dá)認(rèn)為,當(dāng)可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互,實(shí)現(xiàn)真實(shí)和虛擬世界交互時(shí),也就完美契合了元宇宙概念,這個(gè)階段要在五到十年后。
以下與英偉達(dá)技術(shù)專家對話節(jié)選
澎湃新聞:上周SIGGRAPH2021大會上播放了一部關(guān)于GTC Keynote演講的紀(jì)錄片,揭示了數(shù)字生成在臺前幕后的新應(yīng)用,其中有一個(gè)14秒視頻是黃仁勛的“數(shù)字人”虛擬視頻,引發(fā)了廣泛關(guān)注。這里面用到了哪些技術(shù),請介紹一下數(shù)字人的發(fā)展。
英偉達(dá)技術(shù)專家:在演講中黃仁勛有十幾秒的虛擬分身,可以看作一個(gè)數(shù)字人。其實(shí)可以把數(shù)字人概念當(dāng)成卡通人物或虛擬角色,它已經(jīng)存在已久。比如虛擬偶像開演唱會,日本動漫行業(yè)也推出了好幾個(gè)虛擬偶像,形象很豐滿。這些和傳統(tǒng)動畫片人物的最大分別在于,其不僅利用了3D渲染技術(shù)讓它看起來更像一個(gè)人,還利用了全息技術(shù)實(shí)現(xiàn)裸眼3D,讓它栩栩如生地站在舞臺上唱歌,這些都是傳統(tǒng)概念當(dāng)中虛擬人必備的一些元素。
但在NVIDIA看來,虛擬人是虛擬出來的,應(yīng)該更接近一個(gè)“人”,即數(shù)字人(Digital Human)。人類和虛擬角色、卡通人物最大的區(qū)別是有感情、能夠體會到喜怒哀樂,且能夠把喜怒哀樂實(shí)時(shí)地通過語言、表情等來體現(xiàn),這也是虛擬人的精髓。也就是說,虛擬人的外形要栩栩如生,這就要利用英偉達(dá)GPU技術(shù)來渲染,以實(shí)現(xiàn)皮膚、毛發(fā)、衣物、配飾符合自然界物理定律。如果這個(gè)人物在跳舞的時(shí)候項(xiàng)鏈不動、貼在身上,那就不是虛擬人了,而是普通的3D動畫。并且如果十年前推出的虛擬角色和二十年后推出的虛擬角色頭發(fā)都一樣,那也不切實(shí)際,年輕人、中年人、老年人的毛發(fā)系統(tǒng)是不同的,皮膚隨著年齡的增長也是不一樣的。
Omniverse(英偉達(dá)推出的以元宇宙概念為基礎(chǔ)虛擬協(xié)作和模擬平臺)中的OmniSurface系統(tǒng)能夠渲染不同的材質(zhì)和表面,針對數(shù)字人也有一系列不同的渲染機(jī)制。利用GPU渲染可以讓數(shù)字人更接近真實(shí)的人類,這是數(shù)字人的第一個(gè)方面。
第二個(gè)方面,RTX Render技術(shù),即實(shí)時(shí)光線追蹤技術(shù)。把數(shù)字人放到虛擬環(huán)境中后,環(huán)境有光照系統(tǒng),也有傳統(tǒng)的路徑追蹤系統(tǒng),虛擬人會和周遭環(huán)境進(jìn)行互動,虛擬人和環(huán)境的多次光線迭代也會給整個(gè)環(huán)境全局照明帶來影響,OmniSurface加上RTX Render可以實(shí)現(xiàn)實(shí)時(shí)的數(shù)字人(Digital Human)渲染,以及材料、POV的渲染,從元宇宙概念來看整個(gè)虛擬世界,模擬城市、人員、建筑等一系列復(fù)雜的生態(tài)環(huán)境系統(tǒng)都可以通過Omniverse完成,這是數(shù)字人和環(huán)境的互動。
最重要的是,為數(shù)字人引入最接近“人”的喜怒哀樂——表情、語言系統(tǒng)。Audio2Face只需要一段文字,便能夠通過基于AI深度神經(jīng)網(wǎng)絡(luò)感知能力的英偉達(dá)會話式人工智能系統(tǒng),來感知語言下的情緒,把一段文字變成豐富的面部表情,再自動基于AI實(shí)時(shí)渲染系統(tǒng)疊加到虛擬人上。而以前則要進(jìn)行配音、口形適配,并考慮當(dāng)前的語態(tài)、語境,進(jìn)行面部表情分離,重新渲染面部表情,整個(gè)環(huán)節(jié)太繁瑣,時(shí)間、人力、物力成本都過于巨大。
現(xiàn)在,結(jié)合Audio2Face、OmniSurface和RTX Render能夠?qū)崟r(shí)地把數(shù)字人做得更逼真更詳實(shí),不僅是一個(gè)虛擬內(nèi)容,更注重的是用數(shù)字化的形式呈現(xiàn)“人類”。在Omniverse加持之下,能夠滿足過去數(shù)十年我們對虛擬人的設(shè)想,通過當(dāng)前的軟硬件技術(shù)以及網(wǎng)絡(luò)云原生的Omniverse平臺,以一站式解決方案把數(shù)字人包裝得更逼真、更詳實(shí)、更符合自然界的物理定律,無論是人本身的皮膚、毛發(fā),還是身上的配飾、衣物,甚至與周遭的環(huán)境、光線的互動,都能更好地實(shí)現(xiàn)。
隨著每個(gè)數(shù)字人周遭環(huán)境的放大,以及日后GPU算力、Omniverse平臺能力的不斷提升和版本迭代,我們最終能夠?qū)崿F(xiàn)元宇宙的構(gòu)想。
澎湃新聞:英偉達(dá)數(shù)字人的路線圖是什么?什么時(shí)候能做到假人和真人之間的交互?
英偉達(dá)技術(shù)專家:英偉達(dá)在硅谷有專門的數(shù)字人研究團(tuán)隊(duì),有非常清晰的路線圖。
第一階段,要把它做像了,利用CG(計(jì)算機(jī)動畫)技術(shù)和實(shí)時(shí)光線追蹤渲染技術(shù)把它做像了。比如14秒黃仁勛數(shù)字人分身,這一階段已經(jīng)非常成熟到位了,很多平臺都可以做到,只要有非常懂CG藝術(shù)的專家和設(shè)計(jì)者,將相關(guān)的動物采集數(shù)據(jù)、鏡頭,甚至血液流動算法等堆疊起來即可。
第二階段,通過一些要素驅(qū)動數(shù)字虛擬人。現(xiàn)在國際上有比較流行的三個(gè)要素可以驅(qū)動數(shù)字虛擬人:一類是視頻,類似短視頻,做一些視頻人物的動作,通過視頻驅(qū)動第一階段做出來的很像的數(shù)字虛擬人。另一類是“中之人”,這個(gè)概念來自日本,現(xiàn)在最貼切的展示方式就是穿動捕服的演員,就像大片拍攝中通過“中之人”驅(qū)動數(shù)字虛擬人。還有一類就是語音語義,英偉達(dá)數(shù)字人研究院就選定了語音語義這個(gè)要素作為驅(qū)動數(shù)字人的技術(shù)切入點(diǎn),為什么選它呢?這三類中最容易獲得的就是語音語義,而且很方便,通過一段語音或者一段文字就可以驅(qū)動數(shù)字虛擬人。
英偉達(dá)在這里扮演的是什么角色呢?這里介紹剛剛更名的開源平臺——NVIDIA Riva,是通過算法優(yōu)化的平臺,其中有一個(gè)功能模塊叫做Audio2Face,可以通過一段音頻驅(qū)動數(shù)字人面部表情的動捕,就像正常人說話一樣,實(shí)現(xiàn)口音口型和面部表情、細(xì)微動作。所以黃仁勛演講中,別看短短14秒,里面包含了很多技術(shù),其中就有一段Audio2Face,所有的數(shù)字通過動捕方式采集好之后,模擬口形、動捕演員的驅(qū)動都會涉及到這些要素。
第三階段就比較升華,每個(gè)階段都需要兩到三年,我們認(rèn)為第三階段才是數(shù)字虛擬人真正達(dá)到應(yīng)用級別產(chǎn)品化的階段,應(yīng)該是在五到十年后。
到了第三階段,我們可以實(shí)現(xiàn)數(shù)字人和真實(shí)人類之間的溝通交互,也可以實(shí)現(xiàn)數(shù)字人和數(shù)字人之間的溝通交互,這個(gè)也叫做真實(shí)和虛擬世界的交互,其實(shí)也完美地契合了元宇宙的概念。
澎湃新聞:真正進(jìn)入虛擬和真人之間的交互的第三階段需要具備哪些條件?
英偉達(dá)技術(shù)專家:第一階段其實(shí)已經(jīng)很成熟了,已經(jīng)有很多平臺可以做到。第二階段屬于初期,我們某些客戶合作伙伴都已經(jīng)做到了初級階段,很多算法已經(jīng)交付給了市場。大家可以看到很多語音播報(bào)員背后的邏輯就是第二階段的技術(shù)。我們認(rèn)為這一階段過兩到三年就會進(jìn)入成熟期。
再過兩到三年以后就會進(jìn)入第三階段初始的發(fā)展期和萌芽期,五年左右的時(shí)間點(diǎn)是一個(gè)非常重要的時(shí)間點(diǎn),那個(gè)時(shí)間段英偉達(dá)GPU平臺的算力,包括自己各種算法的迭代,到那個(gè)時(shí)候也會有非常大的改進(jìn)和提高。當(dāng)大家在生態(tài)系統(tǒng)當(dāng)中做數(shù)字虛擬人平臺和創(chuàng)作者時(shí)候,這三五年一定會有非常大的訓(xùn)練集驅(qū)動走到3.0時(shí)代。五年那個(gè)時(shí)間點(diǎn)才是進(jìn)入3.0時(shí)代真正有可能看到,就是真正能夠用的真實(shí)和物理世界交互的數(shù)字人應(yīng)用出現(xiàn)的時(shí)間點(diǎn)。
舉個(gè)非常有意思的例子,大家知道現(xiàn)在去銀行的網(wǎng)點(diǎn),柜臺都超不過五十到一百次,銀行現(xiàn)在正在考慮把所有的網(wǎng)點(diǎn)變成數(shù)字虛擬人,通過AR技術(shù)替換現(xiàn)在人工窗口的營業(yè)員。這些應(yīng)用在各行各業(yè),所有的企業(yè)都已經(jīng)看到了,這就是我們認(rèn)為數(shù)字虛擬人市場需求這么強(qiáng)勁的原因,也是因?yàn)榭蛻艉褪袌鲵?qū)動我們挑戰(zhàn)新的技術(shù)。
澎湃新聞:剛才講到虛擬數(shù)字人的技術(shù)應(yīng)用,比如銀行、政務(wù)和商務(wù)的場合,這里面有那些場景是你們看到可以率先落地的?
英偉達(dá)技術(shù)專家:有很多職業(yè),可以和大家分享一下英偉達(dá)已經(jīng)做過的數(shù)字虛擬人案例。比如數(shù)字主持人,就像《飛向月球》第二季,我們重建了央視某紀(jì)錄片頻道的著名主持人。然后還有數(shù)字導(dǎo)購員、數(shù)字4S店銷售、數(shù)字導(dǎo)游,包括現(xiàn)在數(shù)字的窗口營業(yè)員。還有一類非常有意思,如果大家關(guān)注Instagram這些國外比較流行的社交媒體網(wǎng)上有數(shù)字明星。去年疫情最嚴(yán)重的時(shí)候,日本曾經(jīng)做過一個(gè)調(diào)研,日本市場最受歡迎的一個(gè)明星居然是一個(gè)數(shù)字虛擬人,她在Twitter上的粉絲高達(dá)數(shù)百萬,所以營銷IP的公司相當(dāng)于打造了一個(gè)數(shù)字模擬器。包括大家看到電影《雙子殺手》也是一種數(shù)字人的體驗(yàn)形式,還有國內(nèi)的數(shù)字王國“鄧麗君”“張國榮”的數(shù)字IP應(yīng)用,我們看到了很多很多,就像雨后春筍一般出來。流媒體平臺上面也是越來越多。
澎湃新聞:Omniverse是英偉達(dá)推出的全球首個(gè)為元宇宙建立提供基礎(chǔ)的協(xié)作平臺,你們推出Omniverse的初衷和契機(jī)是什么?
英偉達(dá)技術(shù)專家:今年并不是Omniverse的元年,英偉達(dá)在2019年就提出了Omniverse,并且已經(jīng)為這個(gè)平臺布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技術(shù)要素包括AI、區(qū)塊鏈、VR/AR/MR等XR技術(shù)、可視化的渲染技術(shù)等。這些方面的技術(shù)在最近幾年處于集中爆發(fā)期,并且現(xiàn)在我們進(jìn)入了5G時(shí)代,這為真實(shí)世界和數(shù)字虛擬世界的交互提供了足夠的帶寬以及交互的技術(shù)基礎(chǔ)。這些因素促進(jìn)1992年提出的元宇宙概念如今成為了一個(gè)火熱的話題。英偉達(dá)對這些技術(shù)都有所涉及,所以在此契機(jī)下提出了英偉達(dá)所理解的元宇宙概念平臺——Omniverse。我個(gè)人認(rèn)為它像是英偉達(dá)為創(chuàng)建元宇宙數(shù)字化虛擬空間的奇點(diǎn),也可稱之為技術(shù)平臺底座,集合了英偉達(dá)過去二十多年在AI、HPC和圖形各方面的技術(shù)、算法、標(biāo)準(zhǔn),又像是一個(gè)工具箱,大家在創(chuàng)造數(shù)字化虛擬空間時(shí),需要螺絲就可以在這里拿一個(gè)螺絲,需要一個(gè)剪刀就拿一個(gè)剪刀。英偉達(dá)希望搭建一個(gè)技術(shù)平臺,服務(wù)藝術(shù)家、創(chuàng)造者以及一些C端、B端的用戶,以實(shí)現(xiàn)元宇宙。
澎湃新聞:Omniverse主要提供哪些產(chǎn)品和服務(wù)?面向的服務(wù)對象和行業(yè)是什么?
英偉達(dá)技術(shù)專家:Omniverse中有五大核心部件,包括Nucleus、Connect、Kit、RTX Render、Simulation,這些是我們的技術(shù)底座。Nucleus提供了云原生技術(shù)的底座,RTX Render最多可以在云上調(diào)用48個(gè)GPU來提供同步渲染機(jī)制,這解決了很多行業(yè)的痛點(diǎn),例如,有很多客戶只能調(diào)用自己工作站中的GPU資源,技術(shù)管理仍然基于第三方的傳統(tǒng)工具,無法跟產(chǎn)品連接起來。Kit組件將英偉達(dá)的圖形計(jì)算和AI技術(shù)暴露給開發(fā)者,開發(fā)者可以利用KIT打造適合自己的工作流程。這些面向開發(fā)能力較強(qiáng)的用戶。針對終端用戶即開發(fā)能力較弱的用戶,英偉達(dá)也打造了一些服務(wù),比如面向設(shè)計(jì)師的Create部件。還有針對AEC建筑行業(yè)的View、方便機(jī)器人仿真結(jié)構(gòu)學(xué)習(xí)的Issac Sim,可以運(yùn)用渲染效果實(shí)現(xiàn)可視化,以及即將推出的無人駕駛仿真平臺Drive Sim。這些就是Omniverse所提供的產(chǎn)品和服務(wù),Create、View、Drive Sim、Issac Sim偏向于面向終端用戶的產(chǎn)品,而服務(wù)則包括五大核心中的Nucleus、Kit、RTX Render、Simulation、Connect,其中Connect能夠把第三方DCC(Digital Create Content)工具通過USD方法整合到Omniverse平臺進(jìn)行加速。
Omniverse分為to C端及to B端。針對C端消費(fèi)者的Individual版本面向個(gè)人,全部免費(fèi)提供給用戶,在官方網(wǎng)站、微信公眾號等渠道都公開了下載鏈接。To B端是將在今年秋季發(fā)布的Omniverse Enterprise,功能會更加完整、強(qiáng)大,是付費(fèi)版本。
澎湃新聞:對于英偉達(dá)而言,未來希望在元宇宙當(dāng)中處于什么位置,或者扮演怎樣的角色?
英偉達(dá)技術(shù)專家:英偉達(dá)的位置應(yīng)該是提供基礎(chǔ)底層服務(wù)架構(gòu)的。Omniverse是一個(gè)工具,通過這個(gè)工具讓各種各樣的ISV、開發(fā)者和用戶自己打造自己的內(nèi)容。最近幾年非常流行的一個(gè)詞叫做UGC,User-generated Content,就是用戶產(chǎn)生內(nèi)容。我們給用戶工具以后讓用戶自己根據(jù)各式各樣的創(chuàng)造性思維打造逼真的世界和高度還原的東西,英偉達(dá)就是處在底層提供技術(shù)底座和提供工具方面入手。就像之前的加州淘金熱,我們是提供基礎(chǔ)工具鏟子,當(dāng)然這個(gè)技術(shù)鏟子門檻可能比較高,不像淘金那個(gè)時(shí)候相對來說技術(shù)比較原始,我認(rèn)為是這樣一個(gè)位置。
澎湃新聞:現(xiàn)在要解決算力問題的話,全球現(xiàn)在算力可以達(dá)到怎樣的水平?未來實(shí)現(xiàn)元宇宙的算力大概是多大的?中間有多難或者多長的距離需要跨越?
英偉達(dá)技術(shù)專家:現(xiàn)在我們從事元宇宙是從一個(gè)小的宇宙,比如模擬一個(gè)屋子再到一個(gè)小的社區(qū),或者是一個(gè)小的區(qū)域來說,慢慢地把所有人和事物連接進(jìn)來,整體算力應(yīng)該是很大的,第一步就是能夠調(diào)用多種類型的GPU加速這樣一個(gè)過程。我們回到Omniverse本身的架構(gòu),可以調(diào)用64個(gè)云上GPU同時(shí)渲染一個(gè)場景,但隨著后面技術(shù)的不斷更迭會有更多的GPU,成百上千或者上萬GPU同時(shí)加速一個(gè)元宇宙的場景,現(xiàn)在我們是調(diào)用64個(gè)GPU加速一個(gè)場景這樣一個(gè)階段。
澎湃新聞:中國也許多布局元宇宙的公司,你們?nèi)绾慰创钪嬖谥袊袌龅臋C(jī)會?
英偉達(dá)技術(shù)專家:實(shí)際上元宇宙不是某一家公司就全都能夠?qū)崿F(xiàn)的,需要一個(gè)整體的、多家的平臺共同努力。這里有很多玩家,國際上就是Facebook、微軟、Roblox、英偉達(dá),包括國內(nèi)在做的騰訊全周期互聯(lián)網(wǎng)就是一個(gè)對等的平臺,這么多玩家在一起才能實(shí)現(xiàn),國內(nèi)有很多做數(shù)字孿生的、做數(shù)字資產(chǎn)庫的這些生態(tài)合作伙伴跟我們合作的也比較多,都在貢獻(xiàn)自己的一些力量,他們也期待借著這個(gè)概念平臺的興起會出現(xiàn)新的爆款產(chǎn)品。
借此機(jī)會也和大家分享一下某客戶發(fā)布的模擬加州大火燃燒蔓延趨勢,為什么英偉達(dá)理解的元宇宙和Omniverse和僅限于游戲世界的元宇宙不一樣,這里就有圖形學(xué)的概念。這些全是假的,就是模擬火勢燃燒,然后結(jié)合AI技術(shù),當(dāng)?shù)氐娘L(fēng)向、濕度、樹木的分布圖,火焰真正燃燒起來的蔓延是怎樣的,這些視頻技術(shù)的模擬可以幫助消防管理負(fù)責(zé)人員進(jìn)行快速決策,也是我們真正服務(wù)于現(xiàn)在各種各樣需求的一個(gè)很經(jīng)典的案例。
評論