網易首頁 > 網易號 > 正文申請入駐

一鍵開關燈！谷歌用擴散模型，將電影級光影控制玩到極致

2025-05-16 15:37:35　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：劉欣、+0

最近，Google 推出了一個可以精準控制畫面中光影的項目 —— LightLab

它讓用戶能夠從單張圖像實現對光源的細粒度參數化控制，可以改變可見光源的強度和顏色、環境光的強度，并且能夠將虛擬光源插入場景中。

LightLab: Controlling Light Sources in Images with Diffusion Models
論文地址：https://arxiv.org/abs/2505.09608
項目主頁：https://nadmag.github.io/LightLab/
HuggingFace：https://huggingface.co/papers/2505.09608

在圖像或影視創作中，光線是靈魂，它決定了畫面的焦點、景深、色彩乃至情緒。

以電影為例，好的電影中，光線能巧妙地塑造角色情緒、烘托故事氛圍、引導觀眾目光，甚至能揭示人物的內心世界。

然而，無論是傳統的攝影后期處理，還是數字渲染后的調整，精確控制光影方向、顏色和強度，始終是一項耗時耗力、且極依賴經驗的挑戰。

現有的光照編輯技術，要么需要很多照片才能工作（不適用于單張照片），要么雖然能編輯，但你不能精確地告訴它怎么變（比如具體亮多少、變成什么顏色）。

Google 的研究團隊通過在一個特殊構建的數據集上微調（fine-tune）擴散模型，使其學會如何精確地控制圖像中的光照。

為了構建這個用于訓練的數據集，研究團隊結合了兩種來源：一部分是少量真實的、帶有受控光照變化的原始照片對；另一部分是利用物理渲染器生成的大規模合成渲染圖像。

更進一步，研究人員巧妙地利用了「光的線性特性」（linearity of light），從這些圖像數據中分離出目標光源和環境光。基于此，他們能夠合成出大量描繪不同光照強度和顏色變化的圖像對，這些圖像對參數化地表示了受控的光影變化。

擴散模型通過學習這些高質量的成對示例，獲得了強大的「逼真光影先驗能力」（photorealistic prior）。這使得模型能夠在圖像空間中直接、隱式地模擬出復雜的照明效果，比如間接照明、陰影和反射等。

最終，利用這些數據和恰當的微調方案，訓練出的 LightLab 模型能夠實現精確的照明變化控制，并提供對光照強度和色彩等參數的明確控制能力。

LightLab 提供了一套豐富的光照控制功能，這些功能可以依次使用，從而創建復雜的光照效果。你可以通過移動滑塊來調整每個光源的強度和顏色。

方法

研究團隊的方法是使用成對圖像來隱式建模圖像空間中的受控光變化，這些變化用于訓練擴散模型。

后處理流程

對于真實（原始）照片對，研究團隊首先分離出目標光源的變化。對于合成數據，研究團隊分別渲染每個光源組件。這些分離的組件隨后會被縮放并組合，以在線性顏色空間中創建參數化的圖像序列。

研究團隊既采用了一致的序列色調映射策略，也對每個圖像單獨進行色調映射，將其轉換為標準動態范圍（SDR）。

條件信號

研究團隊為局部空間信號和全局控制信號使用了不同的條件方案。空間條件包括輸入圖像、輸入圖像的深度圖，以及兩個空間分割掩碼，分別用于目標光源的強度變化和顏色。

全局控制（環境光強度和色調映射策略）被投影到文本嵌入維度，并通過交叉注意力機制插入。

數據集攝影捕捉

研究團隊使用現成的移動設備、三腳架和觸發設備捕捉了一組 600 對原始照片。每對照片描繪相同的場景，唯一的物理變化是打開一個可見光源。

為了確保捕捉到的圖像曝光良好，研究團隊使用每個設備的默認自動曝光設置，并在后期捕捉時利用原始圖像的元數據進行校準。

該數據集提供了幾何形狀、材料外觀和復雜光現象的詳細信息，這些信息在合成渲染數據中可能無法找到。遵循之前的研究，研究團隊將「off image」視為環境光照，i_ amb: = i_off，并從目標光源中提取光照：i_change = i_on ? i_off。

由于捕獲的噪聲、后期校準過程中的誤差或兩幅圖像之間環境光照條件的細微差異，這個差異可能會有負值。

為了避免因此產生的意外暗淡，研究團隊將差異裁剪為非負值：。

再結合真實數據有助于將預期的照明變化與合成渲染圖像的風格區分開來，這些圖像不包括真實物理相機傳感器引入的視覺偽影，例如鏡頭畸變或色差等等。

在后處理中，將每對真實圖像的數量增加 60 倍，以涵蓋一系列強度和顏色。后處理后，完整的數據集大約包含 36K 張圖像。

實驗

1、實現細節

模型和訓練：研究團隊對一個文本到圖像的潛在擴散模型進行微調，其架構布局和隱藏維度與 Stable Diffusion-XL 相同，研究團隊在 1024 × 1024 分辨率下訓練每個模型 45,000 步，學習率為 10?5，批量大小為 128。訓練大約需要 12 小時，使用 64 個 v4 TPU。在訓練期間，研究團隊有 10% 的時間丟棄深度和顏色條件，以允許無條件推理。

評估數據集：為了進行定量消融和比較，研究團隊描述的程序策劃的成對數據集上評估訓練有素的模型。真實照片數據集包含 200 對不同場景和光源的照片，這些照片在后處理期間被擴展了 60 倍。合成評估數據集包括從兩個保留場景中渲染的圖像，這些場景包含獨特的光源、對象和材質。對于定性評估，不需要真實目標，研究團隊收集了 100 張圖像。對于這些圖像，研究團隊手動注釋了每張圖像中的目標光源，并計算了它們各自的分割掩碼和深度。在整個評估過程中以及生成論文中的所有結果時，色調映射條件被設置為 “一起”，除非另有說明。

評估指標：研究團隊使用兩個常見指標：峰值信噪比（PSNR）和結構相似性指數度量（SSIM）來衡量模型在成對圖像上的性能。此外，研究團隊通過進行用戶研究來驗證這些結果是否與用戶偏好一致，以與其他方法進行比較。

2、不同域的影響

跨域泛化：研究團隊觀察到，僅在合成渲染數據上訓練的模型無法很好地泛化到真實圖像。團隊將這種泛化誤差歸因于風格上的差異，例如缺乏復雜的幾何形狀、紋理和材質的保真度以及在合成數據集中不存在的相機偽影，如眩光。

使用多個域：研究團隊使用相同的程序在三種數據域的混合上訓練三個模型：僅真實捕獲、僅合成渲染以及它們的加權混合。表 1 中的結果表明，使用來自兩個域的數據混合取得了最佳結果。

值得注意的是，研究團隊觀察到混合數據集與僅真實捕獲之間存在很小的定量相對差異，盡管它們的大小差異顯著。例如，添加合成數據僅在平均 PSNR 中帶來了 2.2% 的改進。

這可能是由于圖像范圍內的低頻細節掩蓋了可感知的局部照明變化，例如小實例陰影和鏡面反射。研究團隊通過定性比較來證實這種效果，這些比較表明添加合成數據鼓勵模型產生僅在真實模型中不存在的復雜局部陰影。

3、比較

研究團隊的方法是第一個提供對真實單圖像中光源的細粒度控制的方法。因此，為了進行公平的比較，當與其他工作進行比較時，研究團隊僅在二元任務上進行評估。

作為基線，研究團隊調整了四種基于擴散的編輯方法：OmniGen 、RGB ? X 、ScribbleLight 和 IC-Light 。這些方法使用描述光源位置和輸入圖像中其他場景內在屬性的文本提示。

RGB ? X 模型以輸入圖像的多個預計算法線、反照率、粗糙度和金屬度圖為條件。ScribbleLight 接收反照率和一個指示光源開關位置的掩碼層（與研究團隊方法中的光源掩碼相反）。最后，為了使用 IC-Light 控制光源，研究團隊將整個圖像作為前景輸入，并提供研究團隊的光源分割掩碼作為環境光源條件。

從表 2 可以看出，研究團隊的方法顯著優于先前的方法。值得注意的是，OmniGen 未能打開 / 關閉目標光源，并引入了局部幾何變化。RGB ? X、ScribbleLight 和 IC-Light 可以成功地改變輸入照明條件，但通常會導致額外的不想要的照明變化或顏色失真。與先前的工作相比，研究團隊的方法忠實地控制目標光源，并生成物理上合理的照明。

應用

研究團隊介紹了該方法在各種設置中的幾種可能應用，主要的應用是能夠對照片進行后捕獲的光源控制。

光強度

Lightswitch 提供了對光源強度的參數化控制。請注意，不同強度下的光現象保持一致，從而實現交互式編輯。

顏色控制

研究團隊的方法可以根據用戶輸入創建彩色照明。使用彩色滑塊來調整光源的顏色。

虛擬點光源

通過從合成的 3D 渲染中轉移知識，LightLab 可以將虛擬點光源（沒有幾何形狀）插入到場景中。點擊圓圈來點亮一個點。

Nex 環境光

將目標光源與環境光分離，使得研究團隊能夠控制通過窗戶進入的光線，這種光線在物理上很難被控制。

物理上合理的光照

左側：輸入序列是通過拍攝圍繞多邊形狗旋轉的熄滅的臺燈的照片創建的。中間、右側：研究團隊方法的推斷結果以及對狗的放大圖。請注意，不同面上的自遮擋以及狗的陰影與臺燈的位置和角度相匹配。

視頻鏈接：

https://mp.weixin.qq.com/s/PEOAPvIkWbKnIQti-_Jqow

更多詳細內容請參見原論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.