NVIDIA透過人工智能 將2D平面照片轉(zhuǎn)變?yōu)?D立體場景
當(dāng)人們在75年前使用寶麗來 (Polaroid ) 相機拍攝出世界上第一張實時成像照片時,便是一項以逼真 2D 影像迅速捕捉 3D 世界畫面的創(chuàng)舉。時至今日,人工智能 (AI) 研究人員反將此作法倒轉(zhuǎn)過來,亦即在幾秒鐘內(nèi)將一組靜態(tài)影像變成數(shù)字 3D 場景。
NVIDIA Research 透過人工智能,在一瞬間將 2D 平面照片變成 3D 立體場景
這項稱為逆向渲染 (inverse rendering) 的過程,利用 AI 來預(yù)估光線在真實世界中的表現(xiàn),讓研究人員能利用從不同角度拍攝的少量 2D 影像來重建 3D 場景。NVIDIA Research 團隊開發(fā)出一種方法,幾乎能在瞬間內(nèi)完成這項任務(wù),是同類中首批將超高速神經(jīng)網(wǎng)絡(luò)訓(xùn)練與快速渲染相結(jié)合的模型之一。
NVIDIA 將該方法應(yīng)用在一種稱為神經(jīng)輻射場 (Neural Radiance Fields;NeRF) 的熱門新技術(shù)上,創(chuàng)造出 Instant NeRF 這項當(dāng)今渲染速度最快的 NeRF 技術(shù),在某些情況下速度可以提升超過 1,000 倍。用數(shù)十張靜態(tài)照片,便能在幾秒鐘內(nèi)完成訓(xùn)練模型,再加上拍攝角度的數(shù)據(jù),在幾十毫秒內(nèi)即可渲染出生成的 3D 場景。
NVIDIA 繪圖研究部門副總裁 David Luebke 表示:「如果說多邊形網(wǎng)格這樣的傳統(tǒng) 3D 表現(xiàn)方式像是向量圖形,那么 NeRF 就像是位圖,它們會密集捕捉光線從物體或場景中輻射出來的方式。從這個意義上來說,Instant NeRF 對 3D 的重要性,不亞于數(shù)字相機和 JPEG 壓縮技術(shù)對 2D 攝影的重要性,其可大幅提升 3D 捕捉與分享的速度、便利性和范圍?!?br/>在 NVIDIA GTC 大會議程中展示的 Instant NeRF,可用于為虛擬世界建立化身或場景、以 3D 方式拍攝視頻會議的與會者以及所處環(huán)境,或是為 3D 數(shù)字地圖重建場景。
NVIDIA Research 團隊為了向早期的寶麗來照片致敬,重現(xiàn)了安迪.沃荷 (Andy Warhol) 拍攝實時成像照片的經(jīng)典照片,利用 Instant NeRF 將其轉(zhuǎn)變?yōu)?3D 場景。
NeRF是什么?
NeRF 會依照輸入的一組 2D 影像,使用神經(jīng)網(wǎng)絡(luò)來表現(xiàn)及渲染逼真的 3D 場景。
收集資料再投入 NeRF 的做法,有點類似紅毯上的攝影師試著從各個角度拍攝名人身上的華麗服裝,而神經(jīng)網(wǎng)絡(luò)需要有從場景四周多個位置拍攝的數(shù)十張照片,以及每張照片的相機位置等數(shù)據(jù)支持。
場景里的人或物體若移動,拍攝照片的速度則是愈快愈好。要是在拍攝 2D 影像的過程中,人或物體有過多的移動,AI 便會生成模糊的 3D 場景。
基本上,NeRF 在此時會填補空白處,訓(xùn)練一個小型神經(jīng)網(wǎng)絡(luò),預(yù)測從 3D 空間中任何一點朝著任意方向輻射出的光線顏色來重建場景。這項技術(shù)甚至能解決當(dāng)某些照片里的物體被其它照片中的柱子等障礙物遮住時所產(chǎn)生的遮擋問題。
利用 Instant NeRF 將渲染速度提升1,000倍
人類天生就會按照一部分所見畫面來估算物體的深度和外觀,但這對 AI 來說卻是一項高難度的任務(wù)。
根據(jù)畫面的復(fù)雜性和分辨率,以傳統(tǒng)方法建立一個 3D 場景須花費數(shù)小時甚至更長的時間。而利用 AI 則可加快處理速度。早期開發(fā)的 NeRF 模型在幾分鐘內(nèi)便能渲染出無偽影的清晰場景,但仍需數(shù)小時進行訓(xùn)練。
然而,Instant NeRF 卻大幅縮短了渲染時間,其以 NVIDIA 所開發(fā)出的 Multi-resolution Hash Encoding 技術(shù)為基礎(chǔ),而這項經(jīng)過優(yōu)化調(diào)整的技術(shù)可以在 NVIDIA GPU 上高效運行。研究人員透過一種新的輸入編碼法,可以利用一個高速運行的微型神經(jīng)網(wǎng)絡(luò)來創(chuàng)造高質(zhì)量的結(jié)果。
研究人員使用 NVIDIA CUDA 工具套件與 Tiny CUDA 神經(jīng)網(wǎng)絡(luò)函式庫來開發(fā)此模型。這個小巧的神經(jīng)網(wǎng)絡(luò)可以在單一 NVIDIA GPU 上進行訓(xùn)練和運行,并在搭載 NVIDIA Tensor 核心的顯示適配器上有著最高的運行速度。
這項技術(shù)可以用于拍攝實體環(huán)境物體的 2D 照片或影片,以訓(xùn)練機器人和自動駕駛車來了解這些物體的大小及形狀。建筑業(yè)與娛樂產(chǎn)業(yè)也能使用這項技術(shù),快速為實體環(huán)境建立數(shù)字畫面,創(chuàng)作者便能用它來進行修改和構(gòu)建。
除了 NeRF,NVIDIA 的研究人員也在探索如何將這種輸入編碼技術(shù)用于加速處理多項 AI 領(lǐng)域的難題,包括強化學(xué)習(xí)、語言翻譯和通用的深度學(xué)習(xí)算法。
評論