還在用 Diffusion 解碼出來的圖片做 Rewarding Tuning?要知道,Diffusion 生成的圖像分布與真實圖像分布存在差異,直接使用生成圖像計算 Rewarding Loss 會導致錯誤梯度累積。為此,清華大學智能產業研究院的研究團隊提出基于 Uncertainty 建模的 Rewarding 過程,可以顯著提升圖像生成任務中的可控性以及生成質量!廣泛實驗證明,這是目前可控性最佳的條件生成模型,并且支持 Segmentation、HED、Depth、Lineart 等多種條件擴展。
論文題目: Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling 論文鏈接: https://arxiv.org/abs/2410.11236 代碼鏈接: https://grenoble-zhang.github.io/Ctrl-U-Page
一、簡介
條件圖像生成旨在生成與用戶指令高度匹配的圖像,盡管現有方法已經取得了顯著進展,但在生成圖像的條件一致性和視覺質量上依然存在巨大挑戰。為了解決這個問題,清華大學智能產業研究院的研究團隊提出了基于不確定性引導的可控生成框架——Ctrl-U,顯著提升了模型的可控性和生成質量。
二、研究動機
近年來,隨著大規模圖文數據集的構建,文本生成圖像(文生圖)擴散模型在生成高保真、高分辨率圖像方面取得了顯著進展。然而,由于文本條件在表達細節控制方面的固有局限性,文生圖模型在復雜場景渲染和藝術風格模擬等特定應用場景中,難以實現精細化和高精度的控制。
為了解決上述問題,研究者們提出了多種條件控制方法(如 T2i-Adapter 和 ControlNet),通過引入手繪線稿、深度圖等先驗條件信息,增強了生成模型的精確性。盡管上述方法在擴展文生圖模型的應用范圍方面取得了一定進展,但在生成圖像的質量和條件一致性上,仍面臨顯著挑戰。
為進一步提高生成結果與輸入條件之間的一致性,部分研究(如 ControlNet++)嘗試利用預訓練的獎勵模型,提取生成圖像中的條件特征,并與輸入條件信息進行對齊。然而,研究表明,獎勵模型在處理新生成數據時,往往存在反饋不準確的問題。這種不準確性主要源于以下兩個方面:
擴散過程中的噪聲干擾:擴散模型在訓練過程中對輸入添加不同程度的高斯噪聲,顯著增加了條件特征提取的難度。
未見數據的分布偏差:生成圖像與真實圖像之間存在分布差異。獎勵模型在面對未見分布時,即便生成結果已與條件保持一致,也容易產生錯誤預測。這些不準確的獎勵反饋會造成錯誤梯度累積,從而影響模型的優化。
(a)真實圖像和先驗條件。(b)擴散模型訓練過程中,各時間步 t 下生成圖像的 mIoU 誤差變化曲線。值得注意的是,即使在采樣點 t=0,mIoU ≠ 0,反映了預訓練獎勵模型本身的預測誤差。隨著 t 值遞增,盡管生成圖像的整體布局已與條件信息在空間上保持一致,獎勵模型仍傾向于增大誤差,進而導致錯誤梯度的反向傳播。
三、不確定性引導的可控生成框架
研究團隊通過估計獎勵模型的不確定性,動態調整訓練過程中的損失權重,顯著提高了條件圖像生成的一致性和可靠性。
整體分為兩個階段:
3.1 不確定性估計
以分割掩碼為先驗條件為例,輸入文本、源圖像 和條件控制 ,分別提取特征 、 、 。在訓練過程中,我們分別向特征圖 添加不同時間步 和 的高斯噪聲 作為噪聲潛變量,具體表示為:
隨后,我們將文本條件 和圖像條件 融合,用于預測注入的噪聲。通過去除預測噪聲,得到恢復的潛變量 和 。
利用預訓練解碼器,根據 和 分別重建輸入圖像,得到 和 。為了使生成圖像與輸入條件 保持一致,我們使用預訓練獎勵模型 來量化生成圖像的輸出條件與輸入條件之間的一致性。
為估計獎勵模型預測的不確定性,我們顯式利用兩次擴散前向過程,并比較從生成圖像中提取的 、 之間的獎勵差異,作為當前時間步的不確定性估計。對于分割掩碼,我們利用像素級 KL 散度量化不確定性:
對于其他非概率條件(如線稿和深度),我們采用 距離 估計不確定性。
3.2 自適應獎勵正則化
現有的可控性建模方法(如 ControlNet++)通過輸入條件與提取條件之間的像素級一致性損失進行建模。例如,當輸入條件為分割掩碼時,一致性損失 可定義為像素級交叉熵損失:
其中, 表示輸入條件, 和 分別代表從生成圖像中提取的條件信息。為了自適應地校正不準確的獎勵反饋,我們在一致性損失中引入了估計的不確定性,改進后的損失函數定義為:
其中, 為正則化因子。第一項用于在不確定性較大時降低獎勵反饋權重,減少潛在錯誤反饋的負面影響;而在不確定性較小時賦予更高權重,增強模型對可靠反饋的學習能力。第二項則用于防止模型對所有樣本持續預測高不確定性。當不確定性值保持恒定時,其梯度與原始一致性損失一致。
為了優化生成的魯棒性,我們結合擴散模型損失 和不確定性正則化損失 ,其中 為:
最終的總損失定義為:
其中, 用于平衡擴散模型損失和獎勵反饋的比例。此方法通過引入不確定性估計與自適應獎勵正則化,有效提升了條件圖像生成的魯棒性與精度。
四、實驗結果
作者在多種條件下的可控生成任務上進行了定性和定量評估,以驗證Ctrl-U的效果。
4.1 定性比較
如圖所示,Ctrl-U在視覺效果對比中表現出了優異的條件一致性和生成質量,在各類控制條件下均能生成與輸入條件高度匹配的逼真圖像。這一對比結果充分證明了Ctrl-U在可控圖像生成任務中的優越性能。
4.2 定量比較
研究團隊在ADE20K、COCO-Stuff及MultiGen-20M驗證集上對Ctrl-U與對比方法進行了定量評估。結果表明,Ctrl-U在可控性、視覺質量和文本相似度上均實現了更優的表現,驗證了其在各方面上的有效性。
4.2.1 可控性
4.2.2 視覺質量
4.2.3 文本相似度
五、總結與展望
Ctrl-U 通過引入基于不確定性引導的獎勵建模,顯著提升了生成模型的圖像質量和可控性。具體而言,Ctrl-U 不僅能夠有效捕捉復雜條件約束下的潛在結構信息,還能在生成過程中動態調整獎勵反饋,從而更好地應對多樣化的輸入條件與目標分布。研究團隊通過在多個數據集上的實驗驗證了所提出方法的可行性,并期待相關研究成果能夠為深入研究特定場景下的約束條件,以及開發新型模型架構提供有益參考。
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.