
75年前,寶麗(lì)來(lái)相機拍攝出第一張即時(shí)照片,是人(rén)類第一次以逼真的二維圖像快速捕捉三維世界,具有(yǒu)劃時(shí)代的意義。今天,人(rén)工智能的研究人(rén)員正在進行(xíng)相反的工作(zuò),力求在幾秒(miǎo)鍾的時(shí)間(jiān)內(nèi)将靜止圖像的集合變成數(shù)字3D場(chǎng)景。
事實上(shàng),在2D轉3D的相關領域,Nvidia一直在嘗試技(jì)術(shù)突破,緻力于推出更強大(dà)的工具來(lái)完成這一過程。但(dàn)即使是Nvidia這樣的行(xíng)業領先公司,即時(shí)渲染3D也是一項極為(wèi)艱難的技(jì)術(shù)挑戰。
這更凸顯出InstantNeRF的來(lái)之不易。關于這一成就,谷歌(gē)科學家(jiā)JonBarron在推特上(shàng)表示:18個(gè)月前,訓練NeRF還(hái)需要5小(xiǎo)時(shí);2個(gè)月前,訓練NeRF最快也需要5分鍾;就在近日,基于英偉達的最新技(jì)術(shù),訓練NeRF最快也需要5秒(miǎo)!
01InstantNeRF的技(jì)術(shù)原理(lǐ)
據了解,Nvidia能夠取得(de)這一成績的主要原因是采用了一種被稱作(zuò)多(duō)分辨率哈希編碼(MultiresolutionHashEncoding)的技(jì)術(shù)。在一篇論文《基于多(duō)分辨率哈希編碼的即時(shí)神經圖形基元》中,Nvidia對這一新技(jì)術(shù)做(zuò)了詳細說明(míng)。
Nvidia表示:“計(jì)算(suàn)機圖形基元基本上(shàng)由有(yǒu)關外觀的各項參數(shù)的數(shù)學函數(shù)表示。參數(shù)的數(shù)學計(jì)算(suàn)結果對于視(shì)覺保真度至關重要。”言下之意是,Nvidia希望在保持速度和(hé)數(shù)學函數(shù)緊湊度的同時(shí),還(hái)能捕獲高(gāo)頻、局部的圖形細節。
為(wèi)了達到上(shàng)述要求,Nvidia采用了多(duō)分辨率哈希編碼技(jì)術(shù)。據Nvidia稱,該技(jì)術(shù)有(yǒu)着自适應性和(hé)高(gāo)效性兩大(dà)特性。函數(shù)內(nèi)部隻有(yǒu)兩個(gè)值需要進行(xíng)配置,分别為(wèi)參數(shù)的數(shù)量T和(hé)所需的最佳分辨率Nmax。
幾年來(lái),研究人(rén)員一直在改進這種從2D到3D的技(jì)術(shù),旨在為(wèi)渲染出的成品增加更多(duō)畫(huà)面細節,并提高(gāo)渲染速度。Nvidia表示,新一代InstantNeRF模型是迄今為(wèi)止最快的技(jì)術(shù)之一,将渲染時(shí)間(jiān)從幾分鍾縮短(duǎn)到“幾乎瞬間(jiān)”就能完成。
02NeRF的應用範圍
IshaSalian進一步闡釋說,這種方法可(kě)以應用于廣泛的領域。它可(kě)用于為(wèi)虛拟世界創建頭像或場(chǎng)景,以3D形式捕獲視(shì)頻會(huì)議參與者及其環境,甚至重建3D數(shù)字地圖的場(chǎng)景。
在上(shàng)述領域,使用傳統方法創建3D場(chǎng)景可(kě)能需要數(shù)小(xiǎo)時(shí)或更長時(shí)間(jiān),具體(tǐ)取決于可(kě)視(shì)化的複雜性和(hé)分辨率。而NeRF使用神經網絡系統,效率和(hé)準确度大(dà)幅度提升。
關于這一點,Nvidia圖形研究副總裁DavidLuebke在一份聲明(míng)中點出:“InstantNeRF對3D來(lái)說可(kě)能與數(shù)碼相機對2D一樣重要。因為(wèi)在2D攝影(yǐng)中,JPEG壓縮一直是關鍵的步驟,它大(dà)大(dà)提高(gāo)了3D捕獲和(hé)共享的速度、易用性和(hé)覆蓋範圍。”
“這項技(jì)術(shù)可(kě)用于訓練機器(qì)人(rén)和(hé)自動駕駛汽車(chē),通(tōng)過捕捉現實世界物體(tǐ)的二維圖像或視(shì)頻片段來(lái)了解它們的大(dà)小(xiǎo)和(hé)形狀。它還(hái)可(kě)以用于建築和(hé)娛樂業,通(tōng)過快速生(shēng)成真實環境的數(shù)字函數(shù),創作(zuò)者可(kě)以在此基礎上(shàng)進行(xíng)修改和(hé)構建。”
除了NeRF之外,Nvidia的研究人(rén)員還(hái)在探索如何利用這種輸入編碼技(jì)術(shù)來(lái)加速多(duō)種人(rén)工智能挑戰,包括強化學習、語言翻譯和(hé)通(tōng)用的深度學習算(suàn)法。