本文第一作者操雨康,南洋理工大學MMLab博士后,研究方向是3D/4D重建與生成,人體動作/視頻生成,以及圖像生成與編輯。
本文共同第一作者司晨陽,南京大學助理教授,研究方向是圖像/視頻生成,以及生成模型的優化和加速。
在圖像處理領域,「圖像 morphing」(圖像變形)是一項常見又充滿創意的任務 —— 它可以讓兩張風格迥異的圖片平滑過渡、自然融合,從而生成令人驚艷的中間圖像。你可能在動畫、電影特效或照片編輯中見過它的身影。
過去,這項技術往往依賴于復雜的圖像對齊算法和顏色插值規則,難以應對復雜紋理和多樣語義的圖像變化。近年來,雖然 GAN、VAE 等深度學習方法取得了顯著進步,但它們仍然面臨訓練成本高、數據依賴強、反演不穩定等問題 —— 尤其在真實世界圖像中表現并不穩定。
為了實現高質量的圖像 morphing,研究者們先后嘗試了從圖像 warping 到顏色插值,從 GAN 到 VAE,甚至使用了 Stable Diffusion 和 CLIP 等大模型。然而,即使在最先進的方案中,訓練成本高、適應性差依舊是難以回避的難題。
那么,是否可能完全拋開訓練?不再依賴預訓練模型或額外標注?只用兩張圖像,就能高效、自然地完成 morphing?為了解決這一挑戰,來自南洋理工大學 S-Lab、南京大學以及香港中文大學的研究團隊提出了一種全新的方法 ——FreeMorph。該方法不僅實現了無需訓練、一步到位的圖像 morphing 效果,還能在擁有不同語義與布局的圖像之間,生成流暢自然的過渡過程,為 training-free 圖像 morphing 打開了全新的可能性。
想深入了解 FreeMorph 的技術細節?我們已經為你準備好了完整的論文、項目主頁和代碼倉庫!
- 論文地址:https://arxiv.org/abs/2507.01953
- 項目地址:https://yukangcao.github.io/FreeMorph/
- GitHub:https://github.com/yukangcao/FreeMorph
引言
近年來,隨著大規模文本 - 圖像數據集的普及,視覺 - 語言模型(如 Chameleon)、擴散模型(如 Stable Diffusion)以及 transformer 架構(如 PixArt-α, FLUX)在從文本提示生成高質量圖像方面展現出了驚人的能力。這些技術進步也為生成式圖像變形(image morphing)方法的革新奠定了基礎。Wang & Golland [1] 利用基于 CLIP 的文本嵌入的局部線性特性,通過潛在圖像特征的插值來實現平滑過渡。在此基礎上,IMPUS [2] 引入了一個多階段訓練框架,包括文本嵌入的優化與 LoRA 模塊的訓練,以更好地捕捉語義。盡管該方法在視覺效果上更為出色,但每個案例需約 30 分鐘的訓練時間。DiffMorpher [3] 則通過插值 latent noise,并引入自適應實例歸一化(AdaIN)以提升性能。然而,這些方法在處理語義多樣、布局復雜的圖像時仍顯力不從心,限制了其實用性。
針對這些問題,我們的目標是實現無需調參和訓練的圖像變形。但是,這一目標也帶來了兩個關鍵挑戰:
1) 圖像變形過程中的特征丟失:通常來講,面對這一問題,大家的第一反應會是把輸入圖像先轉化為預訓練擴散模型的潛在特征,然后再通過球面插值來實現圖像變形。然而,這一方法看似直接,但 diffusion 擴散模型的多步去噪的非線性過程會導致生成的中間變形圖片不連續。同時,diffusion 擴散模型自身的預訓練特征也容易造成身份信息丟失;
2)難以實現連貫過渡:diffusion 擴散模型本身并不具備明確的 “變化趨勢”,這使得實現平滑、連貫的變形序列仍需額外機制支持。
為了解決這兩個問題,FreeMorph 通過改善 diffusion 擴散模型中的注意力 attention 機制,以實現無需訓練的圖像變形方法:
1)引導感知的球面插值:我們首先通過修改預訓練擴散模型的自注意力模塊 self-attention,融入輸入圖像的顯式引導來增強模型。這是通過球面插值實現的,它產生中間特征并用于兩個關鍵方面:首先,我們進行球面特征聚合,以融合自注意力模塊的 Key 和 Value 特征,確保整個生成圖像序列的過渡一致性。其次,為解決身份信息丟失問題,我們引入了先驗引導的自注意力機制,該機制融入輸入圖像的顯式引導,以保留其獨特身份特征。
2)面向步驟的變化趨勢:為實現絲滑的過渡,我們提出了一種新穎的步驟導向的變化趨勢方法。該方法融合了分別源自兩個輸入圖像的兩個自注意力模塊,實現了一種受控且一致的過渡,同時尊重兩個輸入。為進一步提升生成圖像序列的質量,我們設計了一種改進的反向去噪和正向擴散過程,將這些創新組件無縫集成到原始的 DDIM 框架中。
為全面評估 FreeMorph 并與現有方法進行基準測試,我們專門收集了一個新的評估數據集。該數據集包含四組不同類別的圖像對,這些類別根據圖像的語義相似性布局相似性進行劃分。
FreeMorph: 無需訓練的圖像變形框架
給定兩張輸入圖像,我們首先提出兩個模塊:(1)引導感知的球面插值和(2)步驟導向的變化趨勢,以增強定向性(保持身份特征的能力)和一致性(平滑過渡)。此外,我們注意到,在去噪步驟中簡單應用這兩個模塊中的任何一個,效果都不夠理想。因此,我們針對正向擴散和反向去噪過程開發了一種改進的方法,如上述算法所示。
引導感知的球面插值
現有的圖像漸變方法 [25, 47, 49] 通常需要為每張輸入圖像訓練低秩適應(LoRA)模塊,以增強語義理解并實現平滑過渡。然而,這種方法通常效率低下且耗時,并且難以處理語義或布局不同的圖像。
1.多步去噪過程高度非線性,導致生成的圖像序列不連續;
2.缺乏顯式引導來控制去噪過程,使得模型繼承了預訓練擴散模型本身的偏見。
具體操作如下:
在去噪步驟 t 中:
先驗驅動的自注意力機制(Prior-driven Self-attention Mechanism):雖然我們的球面特征融合技術顯著改善了圖像漸變中的身份信息保持度,但我們發現,在前向擴散和反向去噪階段統一使用這種方法,會導致生成的圖像序列變化極小,無法準確代表輸入圖像。這個結果是預料之中的,因為潛在噪聲會對反向去噪過程產生重大影響(如下圖所示)。因此,應用上述公式中描述的特征融合會引入模糊性 —— 來自輸入圖像的一致且強大的約束,使得每個中間潛在噪聲 i 都顯得非常相似,從而限制了過渡的有效性。
為解決這一問題,我們進一步提出了一種先驗驅動的自注意力機制。該機制優先考慮來自球面插值的潛在特征,以確保潛在噪聲空間內的平滑過渡;同時,在后續階段強調輸入圖像以維持身份信息。具體策略為:
- 在反向去噪階段:我們繼續使用公式 5 描述的方法(融合左右圖像特征)。
- 在前向擴散步驟:我們采用一種不同的注意力機制,通過修改自注意力模塊來實現:
整體前向擴散和反向去噪過程:
高頻高斯噪聲注入(High-frequency gaussian noise injection):如前所述,FreeMorph 在前向擴散和反向去噪階段都融合了左右圖像的特征。然而,我們觀察到,這有時會給生成過程施加過于嚴格的約束。為緩解此問題并允許更大的靈活性,我們提出在前向擴散步驟后,向潛在向量 z 的高頻域注入高斯噪聲:
整體流程(Overall process):為提升圖像漸變效果,我們發現在所有去噪步驟中統一應用引導感知球面插值或步驟導向的變化趨勢會導致次優結果。
為此,我們為前向擴散和反向去噪過程開發了一種精細化方案
前向擴散 :
反向去噪 :
實驗
實驗結果:在下圖中,我們展示了 FreeMorph 生成的效果,這些結果充分證明了其生成高質量平滑過渡的能力。FreeMorph 在多樣化場景中表現卓越:既能處理不同語義與布局的圖像,也能駕馭具有相似特征的畫面。同時,該方法還能有效捕捉細微變化 —— 無論是不同顏色的蛋糕,還是人物表情的微妙差異,均能精準呈現。
與其他圖像變形方法的對比:下圖中,我們提供了與現有圖像變形方法的定性對比。有效的圖像變形結果應當呈現從源圖像(左)到目標圖像(右)的漸進式過渡,同時保持原始身份特征?;诖藰藴士傻贸鲆韵掠^察:
1. 處理語義與布局差異較大的圖像時,IMPUS [2] 存在身份特征丟失及過渡不平滑問題。如下圖第二案例所示:(i) 第三張生成圖像偏離原始身份特征;(ii) 第三與第四生成圖像間出現突變;
2. 盡管 Diffmorpher [3] 比 IMPUS 實現了更平滑的過渡,但其結果常存在模糊且整體質量較低(見下圖第一個案例);
3. 基本方法 "Slerp"(僅采用球面插值與 DDIM 過程)存在三大缺陷:(i) 因缺乏顯式引導而難以準確解析輸入圖像,(ii) 圖像質量欠佳,(iii) 過渡突變。相比之下,本方法始終展現優越性能,其平滑過渡特性與高清畫質優勢顯著。
總結
本文提出 FreeMorph,一種無需調參的新型流程,可在 30 秒內為兩張輸入圖像生成高質量平滑過渡。具體而言,本方法創新性地通過修改自注意力模塊引入顯式圖像引導,其核心技術包含兩大創新組件:球面特征聚合機制與先驗驅動自注意力機制。此外,我們提出步驟導向的定向變分趨勢,確保過渡方向與輸入圖像嚴格一致。為將上述模塊融入原始 DDIM 框架,還專門設計了改進型前向擴散與反向去噪流程。大量實驗表明,FreeMorph 在多樣化場景中均能生成高保真結果,以明顯優勢超越現有圖像變形技術。
局限性和失敗案例:盡管我們的方法達到了當前的最先進水平,但仍存在一些局限性。我們在下圖中展示了若干失敗案例,具體包括:
1)當處理語義或布局差異較大的圖像時,雖然模型仍能生成一定程度上合理的結果,但過渡過程可能不夠平滑,存在突變現象;
2)由于我們的方法基于 Stable Diffusion,其固有的偏差也會被繼承,導致在處理涉及人體四肢等結構時,圖像過渡的準確性受到影響。
參考文獻
[1] Interpolating between images with diffusion models. ICML workshop 2023.
[2] IMPUS: Image morphing with perceptually-uniform sampling using diffusion models. ICLR 2023.
[3] Diffmorpher: Unleashing the capability of diffusion models for image morphing. CVPR 2024
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.