通過一張圖片
就可以輸出對應的AO、法線、粗糙度圖?
這項技術來自于半年前
Adobe發(fā)表的一篇論文,
在今年ACM SIGGRAPH會議上
被重點提及并引起人們關注。
目前模型已開源(見文末)
逼真的正向渲染、逐像素逆向渲染和生成圖像合成這三個領域看起來似乎是圖形和視覺領域中獨立且不相關的子領域。然而,最近的研究表明,基于擴散架構的逐像素固有通道(反照率、粗糙度、金屬度)的估計有所改善;論文中稱之為 RGB→X 問題。該方法進一步表明給定固有通道 X→RGB,合成逼真圖像的逆問題也可以在擴散框架中解決。
研究者們專注于室內場景的圖像域,引入了一種改進的 RGB→X 擴散模型,該模型還可以估算光照,以及第一個能夠從(全部或部分)內在通道合成逼真圖像的擴散 X→RGB 模型。X→RGB 模型探索了傳統(tǒng)渲染和生成模型之間的中間地帶:可以僅指定應遵循的某些外觀屬性,并讓模型自由地幻化其余屬性的可信版本。
這種靈活性使得能夠使用多種異構訓練數(shù)據(jù)集,這些數(shù)據(jù)集在可用通道上有所不同。使用多個現(xiàn)有數(shù)據(jù)集,并用自己的合成數(shù)據(jù)和真實數(shù)據(jù)對其進行擴展,從而生成一個能夠比以前的工作更好地提取場景屬性并生成高度逼真的室內場景圖像的模型。
什么是 RGB?X?
RGB?X 是一個基于擴散的統(tǒng)一框架,可以實現(xiàn)真實的圖像分析(固有通道估計,表示為 RGB→X)和合成(給定固有通道的真實渲染,表示為 X→RGB)。
RGB?X 探索了擴散模型、真實渲染和內在分解之間的聯(lián)系。我們相信它可以為各種下游任務帶來好處,包括材質編輯、重新照明和從簡單/未指定的場景定義進行真實渲染。
它是如何工作的?
RGB?X 由兩個微調擴散模型實現(xiàn):
RGB→X 模型執(zhí)行內在分解:從圖像(RGB)中估計每個像素的內在通道(X)。
將輸入文本提示重新用作“開關”來控制輸出并一次產(chǎn)生單個內在通道。
支持混合使用不同可用通道的異構數(shù)據(jù)集。
例如,僅具有反照率通道的數(shù)據(jù)集仍可用于訓練我們的模型。X→RGB 模型從完整或部分固有通道(X)合成圖像(RGB)。
通道丟失訓練策略:訓練期間隨機刪除條件通道。
再次,支持使用可用通道不同的多種異構數(shù)據(jù)集。
使用任意子集條件實現(xiàn)圖像生成。
效果如何?
RGB?XX→RGB 結果
RGB→X→RGB 結果
其他有趣的結果:名人和地點
論文鏈接:arxiv.org/pdf/2405.00666 代碼鏈接:github.com/zheng95z/rgbx 主頁:heng95z.github.io/publications/rgbx24
-End-
更多免費CG資產(chǎn)
歡迎前往CG模型網(wǎng)下載:
https://www.cgmodel.com/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.