網易首頁 > 網易號 > 正文申請入駐

1步碾壓250步！何愷明新作祭出MeanFlow，一行公式讓 FID 狂降近 70%

2025-06-05 12:15:50　來源: 大數據文摘

北京舉報

分享至

大數據文摘出品

2025 年 5 月的一篇論文中，何愷明與 CMU、MIT 聯合團隊提出了一種全新的一步生成框架 MeanFlow。

論文標題是：《Mean Flows for One-step Generative Modeling》。從論文的實驗曲線來看，只跑1 步，圖像質量居然能甩開跑 250 步的老牌擴散模型（2021 年前后的經典擴散模型，如 ADM）。

這篇論文給一度陷入瓶頸的“一步生成”領域重新點燃了希望：作者們將傳統 Flow Matching 中“瞬時速度”視角，替換成“平均速度”視角，一舉把 ImageNet 256×256 的單次前向生成 FID 做到 3.43，較此前最佳 Shortcut-XL 的 10.60 提升近 70%。

忍不住感嘆：從 ResNet 到 Faster R-CNN，再到今天的MeanFlow，何愷明這位「卷王」依舊在用最底層的思路改寫上層玩法。

01 一條隱藏多年的“支流”

2015 年，GAN 讓“自動造圖”第一次進入公眾視野，但訓練不穩定，像一條湍急的河。2020 年，DDPM 把隨機噪聲反推回清晰圖像，用上百步“蹚河”，穩，卻慢。2023 年，Consistency Model 把河道分成十幾段，研究員們開始想：能不能一步就上岸？

問題卡在“速度場”——以往 Flow Matching 追的是瞬時速度，像每一幀都按下快門；Consistency 強行讓不同時間的輸出對齊，訓練要靠“小步→大步”。

平均流的靈感很樸素：真正決定終點的，是位移而不是瞬時速度。

論文用一道看似中學物理的恒等式把“平均速度—瞬時速度—時間導數”連在一起，給網絡一個可微、閉合的目標。

回到連續動力系統視角，數據分布與先驗噪聲之間存在一條流場 v ( z , t )
（瞬時速度）；而從時刻 r 走到 t 的平均速度可寫為：

作者推導出一個MeanFlow 恒等式：

對等式兩邊關于 t 求導，并將 r 視為與 t 無關的量，從而得到：

其中，左邊的運算使用了乘積法則，而右邊則運用了微積分基本定理。整理各項后，我們得到以下恒等式：

這條恒等式把可積分但難顯式計算的平均速度，轉換成了“瞬時速度 + 一階導數”這樣的可監督目標，從而擺脫了課程學習和蒸餾。于是，MeanFlow 在 ImageNet 256 × 256 上用 1-NFE 拿到 3.43 FID，直接把最佳記錄砍掉近七成。

圖注：MeanFlow：訓練流程

02 為什么只改“一行公式”，就能把整條河道打直？

如果把 DDPM 的 250 步想象成在激流里踩 250 塊石頭，MeanFlow 的做法是：直接把河底拓平，然后告訴你水面在哪——一步就能蹚過去。這聽上去像魔法，可推導其實就三件事：

第一，承認“平均速度”才是終點位移的真正代言人；
第二，用那條中學物理恒等式，把平均速度拆解成“瞬時速度＋一階導數”；
第三，把一階導數塞進 Jacobian-vector-product，反向傳播只比普通卷積慢 20%。

訓練端多掏 20% 計算，推斷端卻省下 249 次前向。更妙的是，恒等式天生閉合，不需要 Consistency Model 那種“小步→大步”的課程學習，也省掉了蒸餾的大模型教師。網絡一旦收斂，就等于把整條時間軸折疊進了權重里。

實驗階段，論文作者把 Base、Large、XL 三個尺寸統統跑了一遍：

Base/2 版只用 12 B 參數，1-NFE 就把 FID 打到 5.1，比同級的 Consistency 好一個身位；
換成 XL/2，跑 240 epoch 后，FID 滑到 3.43；
把 NFE 開到 2 并把訓練拉滿 1000 epoch，成績甚至追平了 DiT-XL 在 250-step 時的 2.27。

圖注：MeanFlow模型在ImageNet 256×256數據集上的可擴展性表現。

把文中的公開數據拉出來橫向算一遍，會發現：在1-NFE場景里，把模型從 B/2 升級到 XL/2 往往比把同一尺寸的步數從 1 增加到 2 帶來的收益更大；而長訓版 XL/2+ 的2-NFE FID 2.20已經略低于 DiT-XL 在 250-step 時的 2.27。結論還不算板上釘釘，但至少說明：在端側部署的硬算力預算里，“堆參數”有時比“堆步數”見效更快。

當然，MeanFlow 也沒到“一統江湖”的時刻。最大的問題有三樁：

骨干挑食：論文全程抱著 DiT-style ViT 不放，UNet 在高分辨率下會不會“找不到河道”還沒人驗證；
軌跡彎曲：如果數據流形像阿爾卑斯山脈一樣迂回，一步把山脈攤平成平原也許會扭曲細節，adaptive-NFE 該怎么做還是空白；
VAE 依賴：高分辨率生成目前得先把圖像壓進 latent，再解碼回來，這條“先壓后打”的管道仍舊是瓶頸。

但就像 2015 年沒人敢想 GAN 能畫 4K，2025 年的“一步生成”也剛剛發軔。平均速度這條支流，一旦被捅開，就很難再被堵回去。接下來你大概率會看到兩股風潮：

一是“快速物理”。氣候模擬、湍流預測都在求一條從噪聲到穩態的最短路徑，MeanFlow 的數學骨骼天然契合；

二是“巴掌模型”。有人已經在把平均速度塞進 LoRA、Adapter 里，試圖用十幾個 million 的參數卷出可商用的端側版本。

論文：

https://arxiv.org/abs/2505.13447https://mlg.eng.cam.ac.uk/blog/2024/01/20/flow-matching.html

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.