網易首頁 > 網易號 > 正文申請入駐

何愷明CVPR最新講座PPT上線：走向端到端生成建模

2025-06-19 17:40:36　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：張倩

生成模型會重現識別模型的歷史嗎？

今年的 CVPR 已經在美國田納西州納什維爾順利閉幕。除了交流論文、互加好友，很多參會者還參加了個非常有意思的項目 —— 追星。

這個「星」自然是學術明星。從前方發來的實況來看，MIT 副教授何愷明可能是人氣最高的那一個。他的講座全場爆滿，還有很多同學曬出了與愷明大神的合影。

其實，這次現身 CVPR 會場的何愷明有著多重身份，包括但不限于最佳論文獎委員會成員、「Visual Generative Modeling: What’s After Diffusion?」workshop 演講嘉賓等。

這個 workshop 聚焦的主題是擴散模型之后的視覺生成建模演進方向。

近年來，擴散模型迅速超越了先前的方法，成為視覺生成建模中的主導方法，廣泛應用于圖像、視頻、3D 物體等的生成。然而，這些模型也存在一些顯著的局限性，例如生成速度較慢、生成過程中人類干預有限，以及在模擬復雜分布（如長視頻）時面臨挑戰。

這個 workshop 旨在探索視覺生成建模中能夠超越擴散模型的方法，何愷明在活動中做了主題為「Towards End-to-End Generative Modeling（走向端到端生成建模）」的分享。

近日，他的個人網頁上傳了 workshop 的 PPT，非常值得學習。

PPT 地址：https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前幾頁，何愷明首先帶大家回顧了識別模型（recognition model）的演進。在 AlexNet 之前，逐層訓練更為流行，如深度信念網絡（DBN）和去噪自編碼器（DAE）。但 AlexNet 之后，識別模型普遍實現了端到端訓練，大大簡化了模型設計和訓練的復雜性。

有趣的是，今天的生成模型在概念上更像是逐層訓練：Diffusion 模型通過 T 個去噪步驟逐步生成，自回歸模型通過 T 個 token 逐步生成，它們都需要多步推理過程。這讓我們不禁思考：歷史能否在生成模型領域重演？

從更高層面來看，識別與生成其實是同一枚硬幣的兩面。識別可以被看作是一個「抽象」的過程：我們從豐富的原始數據（如圖像像素）出發，通過網絡的多層處理，逐步提取出越來越抽象的特征，直到最終得到一個高度抽象的分類標簽或嵌入。

而生成則恰恰相反，它是一個「具體化」的過程：我們從一個抽象的表示（比如一個隨機噪聲或概念向量）開始，通過網絡的多步轉換，逐漸將其具體化，最終生成出具有復雜細節的真實數據。

下圖更直觀地描繪了這種「抽象」與「具體化」的對應關系。底部代表原始數據，頂部代表抽象的嵌入空間。表示學習是從數據向上流動，將數據映射到嵌入。而生成建模則是從嵌入向下流動，將嵌入轉換為數據。這個過程可以被視為數據在不同抽象層次之間的「流動」。

不過，識別和生成和生成有著本質的不同。識別任務通常有一個確定的數據到標簽的映射，但生成任務不然：我們希望從一個簡單的「噪聲」分布映射到復雜多變的數據分布。這個映射是高度非線性的，而且存在無限的可能性。

如何有效地「構造」這個映射，是生成模型面臨的核心挑戰。連續歸一化流（Continuous Normalizing Flow），尤其是其中衍生的「流匹配」（Flow Matching）技術，為解決這個問題提供了有希望的方向。

在講座中，何愷明提到了流匹配方向的幾篇代表性論文：

下圖直觀地展示了 Flow Matching 在生成模型領域中的位置：

何愷明還介紹了流匹配的一些技術細節：

講到這里，何愷明總結出了幾個關鍵點：

識別與生成都可以被視為數據分布之間的一種「流」。
Flow Matching 為訓練生成模型提供了一種強大的方法，它能夠構建出 ground-truth 場，這些場是隱式存在的，并且與具體的神經網絡結構無關。
盡管我們希望實現精確的積分來生成，但在實踐中，我們通常采用有限求和的近似，這與 ResNet 的離散化方法類似，或者利用數值 ODE 求解器。
我們的終極目標是實現前饋式的、端到端的生成建模，擺脫多步迭代的依賴。

接下來，何愷明介紹了他們近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。

具體來說，論文提出了一種名為 MeanFlow 的理論框架，用于實現單步生成任務。其核心思想是引入一個新的 ground-truth 場來表示平均速度，而不是流匹配中常用的瞬時速度。

論文推導出平均速度與瞬時速度之間存在一個內在的關系，從而作為指導網絡訓練的原則性基礎。

基于這一基本概念，論文訓練了一個神經網絡來直接建模平均速度場，并引入損失函數來獎勵網絡滿足平均速度和瞬時速度之間的內在關系。

以下是該論文的技術細節（可參見機器之心之前的報道輔助理解：《何愷明團隊又發新作： MeanFlow 單步圖像生成 SOTA，提升達 50%》：

論文所提方法的實驗結果如下。MeanFlow 與之前的單步擴散 / 流模型進行了比較，總體而言，MeanFlow 的表現遠超同類：它實現了 3.43 的 FID，與 IMM 的單步結果 7.77 相比，相對提升了 50% 以上。如果僅比較 1-NFE（而不僅僅是單步）生成，MeanFlow 與之前的最佳方法（10.60）相比，相對提升了近 70%。不難看出，該方法在很大程度上縮小了單步和多步擴散 / 流模型之間的差距。

然后，他展示了一些 1-NFE 的生成結果。

接下來，何愷明致敬了整個社區在實現高效、端到端生成方面所做的共同努力。他列舉了幾個主要的研究方向：

Consistency Models (CM)：包括 Song 等人的原始工作，以及后續的改進版本如 iCT、ECT、sCM。
Two-time-variable Models：例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
Revisiting Normalizing Flows：如 TarFlow 等。

最后，何愷明對整個方向進行了展望，并提出了幾個問題：

我們是否還在生成模型的「AlexNet 前時代」？
盡管 MeanFlow 已經取得了顯著的進步，但它在概念上仍然受限于迭代的 Flow Matching 和擴散模型框架。
MeanFlow 網絡扮演著雙重角色：它既要構建從噪聲到數據的理想軌跡（這些軌跡是隱式存在但需要模型去捕捉的），又要通過「粗化」或概括這些場來簡化生成過程。
那么，究竟什么是真正適用于端到端生成建模的良好公式？這是一個開放性的、激動人心的研究問題。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.