DiffusionRenderer 引入了一種神經(jīng)渲染技術(shù),可用于創(chuàng)意領(lǐng)域的內(nèi)容生成和編輯,也可用于智能汽車和機器人開發(fā)的合成數(shù)據(jù)生成。
NVIDIA Research 開發(fā)了一種視頻 AI 光源開關(guān),可將白天場景轉(zhuǎn)為夜景,將陽光明媚的下午轉(zhuǎn)為陰天,并可將刺眼的熒光燈調(diào)低為柔和自然照明。
這項名為 DiffusionRenderer 的技術(shù)是一項新型神經(jīng)渲染技術(shù),利用 AI 模擬現(xiàn)實世界光線變化。DiffusionRenderer 將兩個傳統(tǒng)上截然不同的過程(逆渲染和前向渲染)整合到一個統(tǒng)一的神經(jīng)渲染引擎中,其性能優(yōu)于最先進的方法。
DiffusionRenderer 提供了一個用于視頻光照控制、編輯和合成數(shù)據(jù)增強的框架,成為創(chuàng)意行業(yè)和物理 AI 開發(fā)的強大工具。
廣告、電影和游戲開發(fā)領(lǐng)域的創(chuàng)作者可以使用基于 DiffusionRenderer 的應(yīng)用,在現(xiàn)實世界或 AI 生成的視頻中添加、刪除并編輯光照。物理 AI 開發(fā)者可以利用它在更多樣化的照明條件下增強合成數(shù)據(jù)集,以訓(xùn)練機器人和智能汽車(AV)模型。
DiffusionRenderer 是 NVIDIA 發(fā)表于國際計算機視覺與模式識別會議(CVPR)的 60 多篇論文之一,本屆大會于當?shù)貢r間 6 月 11 日至 15 日在美國田納西州舉行。
打造令人愉悅的 AI
DiffusionRenderer 解決了僅使用 2D 視頻數(shù)據(jù)對場景進行去光照和重新打光的挑戰(zhàn)。
去光照是一個處理圖像并消除其光照效果的過程,從而僅保留底層對象的幾何圖形和材質(zhì)屬性。重新打光則恰恰相反,該過程可以在場景中添加或編輯光線,同時保持物體透明度和鏡面反射(表面反射光線的方式)等復(fù)雜屬性的真實性。
經(jīng)典的、基于物理學(xué)的渲染工作流需要 3D 幾何數(shù)據(jù)來計算場景中的光線,以進行去光照和重新打光。而 DiffusionRenderer 使用 AI 來估算單個 2D 視頻的屬性,包括法線、金屬度和粗糙度。
通過這些計算,DiffusionRenderer 能夠生成新的陰影和反射、更改光源、編輯材質(zhì)并將新對象插入場景,所有這些都能保持逼真的照明條件。
利用由 DiffusionRenderer 驅(qū)動的應(yīng)用,智能汽車開發(fā)者可以獲取大部分是白天駕駛鏡頭的數(shù)據(jù)集,并隨機對每個視頻片段的光照進行調(diào)整,以創(chuàng)建更多具有陰天或雨天、具有刺眼照明和陰影的夜晚以及夜間場景的視頻片段。借助這些增強數(shù)據(jù),開發(fā)者可以優(yōu)化其開發(fā)工作流,對智能汽車模型進行訓(xùn)練、測試和驗證,這些模型更具備應(yīng)對苛刻照明條件的能力。
如果創(chuàng)作者需要捕捉用于數(shù)字角色創(chuàng)作或特效制作的內(nèi)容,可以使用 DiffusionRenderer 增強用于早期構(gòu)思和模型的工具,從而在采用昂貴的專用光照舞臺系統(tǒng)捕捉制作質(zhì)量的素材之前,探索并反復(fù)試驗各種光照選項。
利用 NVIDIA Cosmos
增強 DiffusionRenderer
自完成原始論文以來,DiffusionRenderer 的幕后研究團隊已將他們的方法與 Cosmos Predict-1 進行了集成,后者是一套用于生成逼真、物理感知型未來世界狀態(tài)的世界基礎(chǔ)模型。
這樣一來,研究人員觀察到一種擴展效應(yīng),其中應(yīng)用 Cosmos Predict 更大、更強的視頻擴散模型相應(yīng)提高了 DiffusionRenderer 的去光照和重新打光質(zhì)量,實現(xiàn)了更清晰、更準確和時間上更一致的結(jié)果。
Cosmos Predict 是 NVIDIA Cosmos 的一部分,NVIDIA Cosmos 是一個由世界基礎(chǔ)模型、Tokenizer、護欄和加速數(shù)據(jù)處理和管理工作流組成的平臺,可加速用于物理 AI 開發(fā)的合成數(shù)據(jù)生成。
CVPR 上的 NVIDIA Research
在 CVPR 上,NVIDIA 研究人員展示了數(shù)十篇論文,主題涵蓋汽車、醫(yī)療、機器人等領(lǐng)域。三篇 NVIDIA 論文榮獲今年最佳論文獎提名:
- FoundationStereo:該基礎(chǔ)模型通過匹配立體圖像中的像素,從 2D 圖像中重建 3D 信息。該模型已在超過 100 萬張圖像的數(shù)據(jù)集上進行了訓(xùn)練,可處理現(xiàn)實世界數(shù)據(jù),性能優(yōu)于現(xiàn)有方法,并可跨領(lǐng)域通用。
- Zero-Shot Monocular Scene Flow Estimation in the Wild:本論文是 NVIDIA 和布朗大學(xué)的研究人員通力合作的成果,介紹了一個用于預(yù)測場景流的通用模型,即 3D 環(huán)境中點的運動場。
- Difix3D+:這篇論文由 NVIDIA 空間智能實驗室的研究人員完成,介紹了一種圖像擴散模型,可刪除重建 3D 場景中新視點的偽影,從而提高 3D 呈現(xiàn)的整體質(zhì)量。
NVIDIA 還在 CVPR 上榮獲輔助駕駛國際挑戰(zhàn)賽冠軍,這標志著 NVIDIA 連續(xù)兩年登頂端到端領(lǐng)域排行榜,并且連續(xù)三年在大會上榮獲輔助駕駛國際挑戰(zhàn)獎。
NVIDIA Research 在全球擁有數(shù)百名科學(xué)家和工程師,專注于 AI、計算機圖形學(xué)、計算機視覺、智能汽車和機器人等領(lǐng)域的研究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.