大數據文摘出品
2025 年 5 月的一篇論文中,何愷明與 CMU、MIT 聯合團隊提出了一種全新的一步生成框架 MeanFlow。
論文標題是:《Mean Flows for One-step Generative Modeling》。從論文的實驗曲線來看,只跑1 步,圖像質量居然能甩開跑 250 步的老牌擴散模型(2021 年前后的經典擴散模型,如 ADM)。
這篇論文給一度陷入瓶頸的“一步生成”領域重新點燃了希望:作者們將傳統 Flow Matching 中“瞬時速度”視角,替換成“平均速度”視角,一舉把 ImageNet 256×256 的單次前向生成 FID 做到 3.43,較此前最佳 Shortcut-XL 的 10.60 提升近 70%。
忍不住感嘆:從 ResNet 到 Faster R-CNN,再到今天的MeanFlow,何愷明這位「卷王」依舊在用最底層的思路改寫上層玩法。
01 一條隱藏多年的“支流”
2015 年,GAN 讓“自動造圖”第一次進入公眾視野,但訓練不穩定,像一條湍急的河。2020 年 ,DDPM 把隨機噪聲反推回清晰圖像,用上百步“蹚河”,穩,卻慢。2023 年 ,Consistency Model 把河道分成十幾段,研究員們開始想:能不能一步就上岸?
問題卡在“速度場”——以往 Flow Matching 追的是瞬時速度,像每一幀都按下快門;Consistency 強行讓不同時間的輸出對齊,訓練要靠“小步→大步”。
平均流的靈感很樸素:真正決定終點的,是位移而不是瞬時速度。
論文用一道看似中學物理的恒等式把“平均速度—瞬時速度—時間導數”連在一起,給網絡一個可微、閉合的目標。
回到連續動力系統視角,數據分布與先驗噪聲之間存在一條流場 v ( z , t )
(瞬時速度);而從時刻 r 走到 t 的平均速度可寫為:
作者推導出一個MeanFlow 恒等式:
對等式兩邊關于 t 求導,并將 r 視為與 t 無關的量,從而得到:
其中,左邊的運算使用了乘積法則,而右邊則運用了微積分基本定理。整理各項后,我們得到以下恒等式:
這條恒等式把可積分但難顯式計算的平均速度,轉換成了“瞬時速度 + 一階導數”這樣的可監督目標,從而擺脫了課程學習和蒸餾。于是,MeanFlow 在 ImageNet 256 × 256 上用 1-NFE 拿到 3.43 FID,直接把最佳記錄砍掉近七成。
圖注:MeanFlow:訓練流程
02 為什么只改“一行公式”,就能把整條河道打直?
如果把 DDPM 的 250 步想象成在激流里踩 250 塊石頭,MeanFlow 的做法是:直接把河底拓平,然后告訴你水面在哪——一步就能蹚過去。這聽上去像魔法,可推導其實就三件事:
第一,承認“平均速度”才是終點位移的真正代言人;
第二,用那條中學物理恒等式,把平均速度拆解成“瞬時速度+一階導數”;
第三,把一階導數塞進 Jacobian-vector-product,反向傳播只比普通卷積慢 20%。
訓練端多掏 20% 計算,推斷端卻省下 249 次前向。更妙的是,恒等式天生閉合,不需要 Consistency Model 那種“小步→大步”的課程學習,也省掉了蒸餾的大模型教師。網絡一旦收斂,就等于把整條時間軸折疊進了權重里。
實驗階段,論文作者把 Base、Large、XL 三個尺寸統統跑了一遍:
Base/2 版只用 12 B 參數,1-NFE 就把 FID 打到 5.1,比同級的 Consistency 好一個身位;
換成 XL/2,跑 240 epoch 后,FID 滑到 3.43;
把 NFE 開到 2 并把訓練拉滿 1000 epoch,成績甚至追平了 DiT-XL 在 250-step 時的 2.27。
圖注:MeanFlow模型在ImageNet 256×256數據集上的可擴展性表現。
把文中的公開數據拉出來橫向算一遍,會發現:在1-NFE場景里,把模型從 B/2 升級到 XL/2 往往比把同一尺寸的步數從 1 增加到 2 帶來的收益更大;而長訓版 XL/2+ 的2-NFE FID 2.20已經略低于 DiT-XL 在 250-step 時的 2.27。結論還不算板上釘釘,但至少說明:在端側部署的硬算力預算里,“堆參數”有時比“堆步數”見效更快。
當然,MeanFlow 也沒到“一統江湖”的時刻。最大的問題有三樁:
骨干挑食:論文全程抱著 DiT-style ViT 不放,UNet 在高分辨率下會不會“找不到河道”還沒人驗證;
軌跡彎曲:如果數據流形像阿爾卑斯山脈一樣迂回,一步把山脈攤平成平原也許會扭曲細節,adaptive-NFE 該怎么做還是空白;
VAE 依賴:高分辨率生成目前得先把圖像壓進 latent,再解碼回來,這條“先壓后打”的管道仍舊是瓶頸。
但就像 2015 年沒人敢想 GAN 能畫 4K,2025 年的“一步生成”也剛剛發軔。平均速度這條支流,一旦被捅開,就很難再被堵回去。接下來你大概率會看到兩股風潮:
一是“快速物理”。氣候模擬、湍流預測都在求一條從噪聲到穩態的最短路徑,MeanFlow 的數學骨骼天然契合;
二是“巴掌模型”。有人已經在把平均速度塞進 LoRA、Adapter 里,試圖用十幾個 million 的參數卷出可商用的端側版本。
論文:
https://arxiv.org/abs/2505.13447https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.