隨著生成式AI的發展,文本生成圖像與視頻的擴散模型(Diffusion Models)成為計算機視覺的研究熱點。近年來,Flow Matching以更強的可解釋性和更快的收斂速度,逐漸替代基于SDE的傳統擴散方法,成為主流模型(如
Lumina-Next、Stable Diffusion 3/3.5、Wan2.1)的核心方案。
但在生成過程中,如何更有效地引導模型輸出仍是難點。當前主流的Classifier-Free Guidance(CFG)雖被廣泛使用,但在訓練不足或估計誤差較大時,容易引發偏差、偽影或結構坍塌。
為此,南洋理工大學S-Lab與普渡大學提出CFG-Zero?,從理論上分析了CFG在Flow Matching框架下的結構性誤差,并設計了兩項輕量級改進方案,顯著提升了生成質量、文本對齊性與穩定性。
論文標題: CFG-Zero*: Improved Classifier-Free Guidance for Flow Matching Models 論文鏈接: https://arxiv.org/abs/2503.18886 代碼鏈接: https://github.com/WeichenFan/CFG-Zero-star 項目主頁: https://weichenfan.github.io/webpage-cfg-zero-star/
隨著生成式AI的快速發展,文本生成圖像與視頻的擴散模型(Diffusion Models)已成為計算機視覺領域的研究與應用熱點。近年來,Flow Matching作為一種更具可解釋性、收斂速度更快的生成范式,正在逐步取代傳統的基于隨機微分方程(SDE)的擴散方法,成為主流模型(如Lumina-Next、Stable Diffusion 3/3.5、Wan2.1等)中的核心方案。
然而,在這一技術迭代過程中,一個關鍵問題依然存在:如何在推理階段更好地引導生成過程,使模型輸出更加符合用戶提供的文本描述。Classifier-Free Guidance(CFG)是當前廣泛采用的引導策略,但其引導路徑在模型尚未充分訓練或估計誤差較大時,容易導致樣本偏離真實分布,甚至引入不必要的偽影或結構崩塌。
對此,南洋理工大學S-Lab與普渡大學的研究者聯合提出了創新方法——CFG-Zero?,針對傳統CFG在Flow Matching框架下的結構性誤差進行了理論分析,并設計了兩項輕量級但效果顯著的改進機制,使生成圖像/視頻在細節保真度、文本對齊性與穩定性上全面提升。
一、研究動機:CFG為何失效?
傳統的CFG策略通過對有條件與無條件預測結果進行插值來實現引導。然而在Flow Matching模型中,推理過程是通過解常微分方程(ODE)進行的,其每一步依賴于前一步的速度估計。當模型訓練不足時,初始階段的速度往往較為不準確,而CFG此時的引導反而會將樣本推向錯誤軌跡。研究者在高斯混合分布的可控實驗中發現,CFG在初始步的引導效果甚至不如“靜止不動”,即設速度為0。
二、方法介紹
研究者提出了CFG-Zero?,并引入以下兩項關鍵創新:
優化縮放因子(Optimized Scale):在每個時間步中動態計算有條件速度與無條件速度的內積比值,從而調整CFG中無條件項的強度,避免“過度引導”導致的誤差。
零初始化(Zero-init):將ODE求解器的前K步速度置為零(默認K=1),跳過模型最不可靠的預測階段,有效降低初始誤差傳播。
這兩項策略可無縫集成至現有的CFG推理流程中,幾乎不引入額外計算開銷。下面我們具體介紹該方法的細節:
1. 優化縮放因子:
首先CFG的目標是能夠估計出一個修正的速度,能夠盡可能的接近真實速度:
為了提升引導的精度,研究者引入了一個修正因子s:
基于此可以建立優化的目標:
代入化簡可以得到:
求解最優值為:
因此新的CFG形式為:
2. 零初始化:
研究者在2D多元高斯分布上進行進一步定量分析,可以求解得到擴散過程中每一步的最優速度的closed-form:
基于此他們在訓練了一個模型,并分析訓練不同輪數下模型的誤差,如下圖所示。
研究者發現在訓練早期階段,無分類引導得到的速度誤差較大,甚至不如將速度設置為0:
他們進一步在高緯情況下驗證了這一觀察,如下圖所示。
研究者對比原始CFG,與僅使用零初始化的CFG,發現隨著模型的收斂,零初始化的收益逐漸變小,在160輪訓練后出現拐點,與多元高斯實驗結果吻合。
三、實驗結果
研究者在多個任務與主流模型上驗證了CFG-Zero?的有效性,涵蓋了文本生成圖像(Text-to-Image)與文本生成視頻(Text-to-Video)兩大方向。在圖像生成任務中,研究團隊選用了Lumina-Next、SD3、SD3.5、Flux等當前SOTA模型進行對比實驗,結果顯示CFG-Zero?在Aesthetic Score與CLIP Score兩項核心指標上均優于原始CFG。
例如在Stable Diffusion 3.5上,美學分有明顯提高,不僅圖像美感更強,而且語義一致性更好。在T2I-CompBench評測中,CFG-Zero?在色彩、紋理、形狀等多個維度均取得更優表現,特別適用于需要精準表達復雜語義的生成任務。
在視頻生成任務中,研究者將CFG-Zero?集成到Wan2.1模型中,評估標準采用VBench基準套件。結果表明,改進后的模型在Aesthetic Quality、Imaging Quality、Motion Smoothness等方面均有所提升,呈現出更連貫、結構更穩定的視頻內容。CFG-Zero?有效減少了圖像跳變與不自然的位移問題。
四、實際測試
CFG-Zero?在開源社區中實現了快速落地。目前,該方法已正式集成至ComfyUI與Diffusers官方庫,并被納入視頻生成模型Wan2.1GP的推理流程。借助這些集成,普通開發者與創作者也能輕松體驗該方法帶來的畫質與文本對齊提升。
該方法可以用于圖生視頻,我們使用官方的repo用這張測試圖:
輸入prompt:
得到的視頻如下:(第一個為原始CFG生成的,第二個為CFG-Zero*生成的),效果還是比較明顯,值得嘗試。
該方法對wan2.1 文生視頻同樣適用:(圖1為原始CFG,圖2為CFG-Zero*)
使用的Prompt: " A cat walks on the grass, realistic."
該方法同時兼容LoRA:
使用的LoRA為:
https://civitai.com/models/46080?modelVersionId=1473682
該方法對最強文生圖模型Flux同樣支持:
使用的Prompt:“a tiny astronaut hatching from an egg on the moon.”
該方法實現也比較簡單,作者在附錄中直接附上了代碼,如下圖:
六、總結
該工作在幾乎不引入額外計算量的情況下,提出了一種更好的無分類器引導范式,對所有的流匹配模型都適用,是一種“無痛”漲點方法。從視覺效果來看,優化縮放因子會提升圖片/視頻很多細節,但是不會修正語義信息,零初始化會對整體有比較大的修改,讓圖片更自然,視頻的運動更合理與流暢。但目前該方法只適用于流匹配模型,如何將該方法泛化至其他類型的擴散模型可能是比較有價值的研究方向。
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.