機器之心報道
編輯:陳萍
這段時間,大神何愷明真是接連不斷地發布新研究。
這不,5 月 19 日,他又放出一篇新作!作者團隊來自 CMU 以及 MIT。
- 論文標題:Mean Flows for One-step Generative Modeling
- 論文地址:https://arxiv.org/pdf/2505.13447v1
文章提出了一種名為MeanFlow的單步生成建模框架,通過引入平均速度(average velocity)的概念來改進現有的流匹配方法,并在 ImageNet 256×256 數據集上取得了顯著優于以往單步擴散 / 流模型的結果,FID 分數達到 3.43,且無需預訓練、蒸餾或課程學習。
生成模型旨在將先驗分布轉換為數據分布。流匹配提供了一個直觀且概念簡單的框架,用于構建將一個分布傳輸到另一個分布的流路徑。流匹配與擴散模型密切相關,但關注的是引導模型訓練的速度場。自引入以來,流匹配已在現代生成模型中得到廣泛應用。
本文提出了一種名為 MeanFlow 的理論框架,用于實現單步生成任務。其核心思想是引入一個新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時速度。
文章提出使用平均速度(在時間間隔內的位移與時間的比值)來代替流匹配中通常建模的瞬時速度。然后本文推導出平均速度與瞬時速度之間存在一個內在的關系,從而作為指導網絡訓練的原則性基礎。
基于這一基本概念,本文訓練了一個神經網絡來直接建模平均速度場,并引入損失函數來獎勵網絡滿足平均速度和瞬時速度之間的內在關系。
本文進一步證明,該框架可以自然地整合無分類器引導(CFG),并且在采樣時無需額外成本。
MeanFlow 在單步生成建模中表現出了強大的性能。在 ImageNet 256×256 數據集上,僅使用 1-NFE(Number of Function Evaluations)就達到了 3.43 的 FID 分數。這一結果顯著優于之前同類方法的最佳水平,相對性能提升達到 50% 到 70%(見圖 1)。
此外,MeanFlow 是一個自成一體的生成模型:它完全從頭開始訓練,沒有任何預訓練、知識蒸餾或課程學習。該研究大幅縮小了單步擴散 / 流模型與多步研究之間的差距。
方法介紹
MeanFlow 核心思想是引入一個代表平均速度的新場。
平均速度 u 可表示為:
其中,u 表示平均速度,v 表示瞬時速度。u (z_t,r,t) 是一個同時依賴于 (r, t) 的場。u 的場如圖 3 所示:
平均速度 u 是瞬時速度 v 的函數,即,它是由 v 誘導的場,不依賴于任何神經網絡。
進一步的,為了得到適合訓練的公式,本文將 Eq.(3) 改寫為:
然后兩邊對 t 求導,把 r 看作與 t 無關的變量,得到:
其中左側的運算采用乘積法則,右側的運算采用微積分。重新排列項,得到恒等式:
這個方程稱為 MeanFlow 恒等式,它描述了 v 和 u 之間的關系。
圖 1 給出了最小化損失函數的偽代碼。
單步采樣
實驗效果如何?
實驗是在 256×256 ImageNet 數據集上進行的。
圖 1 中,本文將 MeanFlow 與之前的單步擴散 / 流模型進行了比較,如表 2(左)所示。總體而言,MeanFlow 的表現遠超同類:它實現了 3.43 的 FID,與 IMM 的單步結果 7.77 相比,相對提升了 50% 以上。
如果僅比較 1-NFE(而不僅僅是單步)生成,MeanFlow 與之前的最佳方法(10.60)相比,相對提升了近 70%。不難看出,本文方法在很大程度上縮小了單步和多步擴散 / 流模型之間的差距。
在 2-NFE 生成中,MeanFlow 實現了 2.20 的 FID(表 2 左下)。這一結果與多步擴散 / 流模型的領先基線模型相當,即 DiT (FID 2.27)和 SiT (FID 2.15),兩者的 NFE 均為 250×2(表 2 右)。
這一結果表明,few-step 擴散 / 流模型可以媲美其多步模型。值得注意的是,本文方法是獨立的,完全從頭開始訓練。它無需使用任何預訓練、蒸餾或課程學習,就取得了出色的結果。
表 3 報告了在 CIFAR-10(32×32)上的無條件生成結果,本文方法與先前的方法相比具有競爭力。
表 1 為消融實驗結果:
最后,展示一些 1-NFE 的生成結果。
更多詳情請參閱原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.