99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

何愷明CVPR最新講座PPT上線:走向端到端生成建模

0
分享至

機器之心報道

編輯:張倩

生成模型會重現識別模型的歷史嗎?

今年的 CVPR 已經在美國田納西州納什維爾順利閉幕。除了交流論文、互加好友,很多參會者還參加了個非常有意思的項目 —— 追星。

這個「星」自然是學術明星。從前方發來的實況來看,MIT 副教授何愷明可能是人氣最高的那一個。他的講座全場爆滿,還有很多同學曬出了與愷明大神的合影。



其實,這次現身 CVPR 會場的何愷明有著多重身份,包括但不限于最佳論文獎委員會成員、「Visual Generative Modeling: What’s After Diffusion?」workshop 演講嘉賓等。



這個 workshop 聚焦的主題是擴散模型之后的視覺生成建模演進方向。

近年來,擴散模型迅速超越了先前的方法,成為視覺生成建模中的主導方法,廣泛應用于圖像、視頻、3D 物體等的生成。然而,這些模型也存在一些顯著的局限性,例如生成速度較慢、生成過程中人類干預有限,以及在模擬復雜分布(如長視頻)時面臨挑戰。

這個 workshop 旨在探索視覺生成建模中能夠超越擴散模型的方法,何愷明在活動中做了主題為「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。

近日,他的個人網頁上傳了 workshop 的 PPT,非常值得學習。



PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前幾頁,何愷明首先帶大家回顧了識別模型(recognition model)的演進。在 AlexNet 之前,逐層訓練更為流行,如深度信念網絡(DBN)和去噪自編碼器(DAE)。但 AlexNet 之后,識別模型普遍實現了端到端訓練,大大簡化了模型設計和訓練的復雜性。











有趣的是,今天的生成模型在概念上更像是逐層訓練:Diffusion 模型通過 T 個去噪步驟逐步生成,自回歸模型通過 T 個 token 逐步生成,它們都需要多步推理過程。這讓我們不禁思考:歷史能否在生成模型領域重演?



從更高層面來看,識別與生成其實是同一枚硬幣的兩面。識別可以被看作是一個「抽象」的過程:我們從豐富的原始數據(如圖像像素)出發,通過網絡的多層處理,逐步提取出越來越抽象的特征,直到最終得到一個高度抽象的分類標簽或嵌入。

而生成則恰恰相反,它是一個「具體化」的過程:我們從一個抽象的表示(比如一個隨機噪聲或概念向量)開始,通過網絡的多步轉換,逐漸將其具體化,最終生成出具有復雜細節的真實數據。



下圖更直觀地描繪了這種「抽象」與「具體化」的對應關系。底部代表原始數據,頂部代表抽象的嵌入空間。表示學習是從數據向上流動,將數據映射到嵌入。而生成建模則是從嵌入向下流動,將嵌入轉換為數據。這個過程可以被視為數據在不同抽象層次之間的「流動」。











不過,識別和生成和生成有著本質的不同。識別任務通常有一個確定的數據到標簽的映射,但生成任務不然:我們希望從一個簡單的「噪聲」分布映射到復雜多變的數據分布。這個映射是高度非線性的,而且存在無限的可能性。

如何有效地「構造」這個映射,是生成模型面臨的核心挑戰。連續歸一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技術,為解決這個問題提供了有希望的方向。



在講座中,何愷明提到了流匹配方向的幾篇代表性論文:



下圖直觀地展示了 Flow Matching 在生成模型領域中的位置:



何愷明還介紹了流匹配的一些技術細節:





講到這里,何愷明總結出了幾個關鍵點:

  • 識別與生成都可以被視為數據分布之間的一種「流」。
  • Flow Matching 為訓練生成模型提供了一種強大的方法,它能夠構建出 ground-truth 場,這些場是隱式存在的,并且與具體的神經網絡結構無關。
  • 盡管我們希望實現精確的積分來生成,但在實踐中,我們通常采用有限求和的近似,這與 ResNet 的離散化方法類似,或者利用數值 ODE 求解器。
  • 我們的終極目標是實現前饋式的、端到端的生成建模,擺脫多步迭代的依賴。



接下來,何愷明介紹了他們近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。



具體來說,論文提出了一種名為 MeanFlow 的理論框架,用于實現單步生成任務。其核心思想是引入一個新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時速度。

論文推導出平均速度與瞬時速度之間存在一個內在的關系,從而作為指導網絡訓練的原則性基礎。

基于這一基本概念,論文訓練了一個神經網絡來直接建模平均速度場,并引入損失函數來獎勵網絡滿足平均速度和瞬時速度之間的內在關系。

以下是該論文的技術細節(可參見機器之心之前的報道輔助理解:《何愷明團隊又發新作: MeanFlow 單步圖像生成 SOTA,提升達 50%》:





















論文所提方法的實驗結果如下。MeanFlow 與之前的單步擴散 / 流模型進行了比較,總體而言,MeanFlow 的表現遠超同類:它實現了 3.43 的 FID,與 IMM 的單步結果 7.77 相比,相對提升了 50% 以上。如果僅比較 1-NFE(而不僅僅是單步)生成,MeanFlow 與之前的最佳方法(10.60)相比,相對提升了近 70%。不難看出,該方法在很大程度上縮小了單步和多步擴散 / 流模型之間的差距。











然后,他展示了一些 1-NFE 的生成結果。



接下來,何愷明致敬了整個社區在實現高效、端到端生成方面所做的共同努力。他列舉了幾個主要的研究方向:

  • Consistency Models (CM):包括 Song 等人的原始工作,以及后續的改進版本如 iCT、ECT、sCM。
  • Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
  • Revisiting Normalizing Flows:如 TarFlow 等。



最后,何愷明對整個方向進行了展望,并提出了幾個問題:

  • 我們是否還在生成模型的「AlexNet 前時代」?
  • 盡管 MeanFlow 已經取得了顯著的進步,但它在概念上仍然受限于迭代的 Flow Matching 和擴散模型框架。
  • MeanFlow 網絡扮演著雙重角色:它既要構建從噪聲到數據的理想軌跡(這些軌跡是隱式存在但需要模型去捕捉的),又要通過「粗化」或概括這些場來簡化生成過程。
  • 那么,究竟什么是真正適用于端到端生成建模的良好公式?這是一個開放性的、激動人心的研究問題。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
內塔尼亞胡稱與特朗普通話,美以設定共同目標!是否會推翻哈梅內伊?以總理回應!伊朗公布其破壞力最強導彈發射畫面

內塔尼亞胡稱與特朗普通話,美以設定共同目標!是否會推翻哈梅內伊?以總理回應!伊朗公布其破壞力最強導彈發射畫面

每日經濟新聞
2025-06-19 21:41:07
許家印最大靠山,死刑!

許家印最大靠山,死刑!

三農老歷
2025-06-19 08:57:49
網傳京東創始人劉強東視察工作時入住四季酒店,點外賣后豪氣給了騎手1000元小費!還親切地摟著騎手合影

網傳京東創始人劉強東視察工作時入住四季酒店,點外賣后豪氣給了騎手1000元小費!還親切地摟著騎手合影

和訊網
2025-06-19 18:11:44
曝中國三成車企短期資金緊張,比亞迪負流動資產1254億,2026或進入全行業淘汰階段

曝中國三成車企短期資金緊張,比亞迪負流動資產1254億,2026或進入全行業淘汰階段

回旋鏢
2025-06-19 20:37:30
太及時!人民網發聲解釋違規吃喝范疇,引全網怒贊!餐飲業有救了

太及時!人民網發聲解釋違規吃喝范疇,引全網怒贊!餐飲業有救了

娛樂看阿敞
2025-06-19 09:18:16
這棵外強中干的大樹眼看就要倒下了

這棵外強中干的大樹眼看就要倒下了

通往遠方的路
2025-06-18 09:43:26
索羅斯之子與希拉里貼身幕僚結婚,94歲索羅斯提前一天舉辦祝福儀式

索羅斯之子與希拉里貼身幕僚結婚,94歲索羅斯提前一天舉辦祝福儀式

紅星新聞
2025-06-19 19:58:40
男子7萬元買腕表平臺不發貨不退款,萬表網:愿分期退款

男子7萬元買腕表平臺不發貨不退款,萬表網:愿分期退款

澎湃新聞
2025-06-19 15:54:27
暴雷40億!康養巨頭跌落神壇,4萬老人血本無歸!

暴雷40億!康養巨頭跌落神壇,4萬老人血本無歸!

藍色海邊
2025-06-19 05:37:18
汽車屏幕突然彈出廣告,差點出事!這可能導致中國車遭到全球抵制

汽車屏幕突然彈出廣告,差點出事!這可能導致中國車遭到全球抵制

毒sir財經
2025-06-18 23:11:15
18歲身價150萬!王鈺棟刷爆紀錄,亞洲球員排第4,3人身價暴漲

18歲身價150萬!王鈺棟刷爆紀錄,亞洲球員排第4,3人身價暴漲

奧拜爾
2025-06-19 17:54:09
廣東一市委原書記被查!最新通報→

廣東一市委原書記被查!最新通報→

魯中晨報
2025-06-19 22:29:57
網傳央企設計院兩位領導被設計師暴揍!

網傳央企設計院兩位領導被設計師暴揍!

黯泉
2025-06-19 14:13:51
四川17歲白血病男孩去世!臨終哀嚎不想死,曝最大遺憾讓人淚崩

四川17歲白血病男孩去世!臨終哀嚎不想死,曝最大遺憾讓人淚崩

楊哥歷史
2025-06-19 16:35:50
李迅雷:預計2027年我國總人口將跌破14億 鼓勵生育政策具有“功在當代、利在千秋”的效應,應該高度重視

李迅雷:預計2027年我國總人口將跌破14億 鼓勵生育政策具有“功在當代、利在千秋”的效應,應該高度重視

金融界
2025-06-19 20:26:03
央視:足協原本給伊萬買了往返票,但自上而下的力量讓他下課

央視:足協原本給伊萬買了往返票,但自上而下的力量讓他下課

懂球帝
2025-06-19 20:57:14
哪吒汽車正式被申請破產

哪吒汽車正式被申請破產

新京報
2025-06-19 21:45:14
熬夜等伊朗的「大驚喜」?泥石超重型導彈已經改變戰爭格局

熬夜等伊朗的「大驚喜」?泥石超重型導彈已經改變戰爭格局

清游說娛
2025-06-19 11:33:49
互聯網大廠員工,在靜音艙做出不雅行為,女方褲子“不翼而飛”

互聯網大廠員工,在靜音艙做出不雅行為,女方褲子“不翼而飛”

社會醬
2025-06-19 17:44:58
特朗普再度炮轟美聯儲主席鮑威爾為 “蠢人”,不滿其拒絕降息,專業人士:美聯儲不是政府的附庸工具

特朗普再度炮轟美聯儲主席鮑威爾為 “蠢人”,不滿其拒絕降息,專業人士:美聯儲不是政府的附庸工具

魯中晨報
2025-06-19 17:33:14
2025-06-20 00:47:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10678文章數 142341關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

Labubu黃牛價腰斬 誰會是最后的接盤俠

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

旅游
教育
游戲
房產
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2025年山東夏季合格考準考證打印操作詳細教程

《戰地》實驗室13GB更新上線 支持英偉達DLSS 4

房產要聞

預定爆款!江東CBD+海中,海口這一國企大盤,即將引爆市場!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清水河县| 林西县| 丹棱县| 安陆市| 额济纳旗| 济阳县| 乌什县| 合阳县| 宁明县| 安西县| 西盟| 南雄市| 南部县| 台东市| 林芝县| 思南县| 师宗县| 兴文县| 盖州市| 呼玛县| 侯马市| 化德县| 界首市| 松原市| 北辰区| 阿克苏市| 长兴县| 姜堰市| 浦江县| 丹凤县| 库尔勒市| 四子王旗| 本溪| 云南省| 汉源县| 筠连县| 含山县| 渭南市| 临朐县| 邯郸市| 黑龙江省|