99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

何愷明CVPR最新講座PPT上線:走向端到端生成建模

0
分享至

機器之心報道

編輯:張倩

生成模型會重現識別模型的歷史嗎?

今年的 CVPR 已經在美國田納西州納什維爾順利閉幕。除了交流論文、互加好友,很多參會者還參加了個非常有意思的項目 —— 追星。

這個「星」自然是學術明星。從前方發來的實況來看,MIT 副教授何愷明可能是人氣最高的那一個。他的講座全場爆滿,還有很多同學曬出了與愷明大神的合影。



其實,這次現身 CVPR 會場的何愷明有著多重身份,包括但不限于最佳論文獎委員會成員、「Visual Generative Modeling: What’s After Diffusion?」workshop 演講嘉賓等。



這個 workshop 聚焦的主題是擴散模型之后的視覺生成建模演進方向。

近年來,擴散模型迅速超越了先前的方法,成為視覺生成建模中的主導方法,廣泛應用于圖像、視頻、3D 物體等的生成。然而,這些模型也存在一些顯著的局限性,例如生成速度較慢、生成過程中人類干預有限,以及在模擬復雜分布(如長視頻)時面臨挑戰。

這個 workshop 旨在探索視覺生成建模中能夠超越擴散模型的方法,何愷明在活動中做了主題為「Towards End-to-End Generative Modeling(走向端到端生成建模)」的分享。

近日,他的個人網頁上傳了 workshop 的 PPT,非常值得學習。



PPT 地址:https://people.csail.mit.edu/kaiming/cvpr25talk/cvpr2025_meanflow_kaiming.pdf

走向端到端生成建模

在 PPT 前幾頁,何愷明首先帶大家回顧了識別模型(recognition model)的演進。在 AlexNet 之前,逐層訓練更為流行,如深度信念網絡(DBN)和去噪自編碼器(DAE)。但 AlexNet 之后,識別模型普遍實現了端到端訓練,大大簡化了模型設計和訓練的復雜性。











有趣的是,今天的生成模型在概念上更像是逐層訓練:Diffusion 模型通過 T 個去噪步驟逐步生成,自回歸模型通過 T 個 token 逐步生成,它們都需要多步推理過程。這讓我們不禁思考:歷史能否在生成模型領域重演?



從更高層面來看,識別與生成其實是同一枚硬幣的兩面。識別可以被看作是一個「抽象」的過程:我們從豐富的原始數據(如圖像像素)出發,通過網絡的多層處理,逐步提取出越來越抽象的特征,直到最終得到一個高度抽象的分類標簽或嵌入。

而生成則恰恰相反,它是一個「具體化」的過程:我們從一個抽象的表示(比如一個隨機噪聲或概念向量)開始,通過網絡的多步轉換,逐漸將其具體化,最終生成出具有復雜細節的真實數據。



下圖更直觀地描繪了這種「抽象」與「具體化」的對應關系。底部代表原始數據,頂部代表抽象的嵌入空間。表示學習是從數據向上流動,將數據映射到嵌入。而生成建模則是從嵌入向下流動,將嵌入轉換為數據。這個過程可以被視為數據在不同抽象層次之間的「流動」。











不過,識別和生成和生成有著本質的不同。識別任務通常有一個確定的數據到標簽的映射,但生成任務不然:我們希望從一個簡單的「噪聲」分布映射到復雜多變的數據分布。這個映射是高度非線性的,而且存在無限的可能性。

如何有效地「構造」這個映射,是生成模型面臨的核心挑戰。連續歸一化流(Continuous Normalizing Flow),尤其是其中衍生的「流匹配」(Flow Matching)技術,為解決這個問題提供了有希望的方向。



在講座中,何愷明提到了流匹配方向的幾篇代表性論文:



下圖直觀地展示了 Flow Matching 在生成模型領域中的位置:



何愷明還介紹了流匹配的一些技術細節:





講到這里,何愷明總結出了幾個關鍵點:

  • 識別與生成都可以被視為數據分布之間的一種「流」。
  • Flow Matching 為訓練生成模型提供了一種強大的方法,它能夠構建出 ground-truth 場,這些場是隱式存在的,并且與具體的神經網絡結構無關。
  • 盡管我們希望實現精確的積分來生成,但在實踐中,我們通常采用有限求和的近似,這與 ResNet 的離散化方法類似,或者利用數值 ODE 求解器。
  • 我們的終極目標是實現前饋式的、端到端的生成建模,擺脫多步迭代的依賴。



接下來,何愷明介紹了他們近期提出的新方法 ——「Mean Flows for One-step Generative Modeling」。它的核心思想是追求一步到位的生成。



具體來說,論文提出了一種名為 MeanFlow 的理論框架,用于實現單步生成任務。其核心思想是引入一個新的 ground-truth 場來表示平均速度,而不是流匹配中常用的瞬時速度。

論文推導出平均速度與瞬時速度之間存在一個內在的關系,從而作為指導網絡訓練的原則性基礎。

基于這一基本概念,論文訓練了一個神經網絡來直接建模平均速度場,并引入損失函數來獎勵網絡滿足平均速度和瞬時速度之間的內在關系。

以下是該論文的技術細節(可參見機器之心之前的報道輔助理解:《何愷明團隊又發新作: MeanFlow 單步圖像生成 SOTA,提升達 50%》:





















論文所提方法的實驗結果如下。MeanFlow 與之前的單步擴散 / 流模型進行了比較,總體而言,MeanFlow 的表現遠超同類:它實現了 3.43 的 FID,與 IMM 的單步結果 7.77 相比,相對提升了 50% 以上。如果僅比較 1-NFE(而不僅僅是單步)生成,MeanFlow 與之前的最佳方法(10.60)相比,相對提升了近 70%。不難看出,該方法在很大程度上縮小了單步和多步擴散 / 流模型之間的差距。











然后,他展示了一些 1-NFE 的生成結果。



接下來,何愷明致敬了整個社區在實現高效、端到端生成方面所做的共同努力。他列舉了幾個主要的研究方向:

  • Consistency Models (CM):包括 Song 等人的原始工作,以及后續的改進版本如 iCT、ECT、sCM。
  • Two-time-variable Models:例如 Consistency Trajectory Models (CTM)、Flow Map Matching、Shortcut Models 和 Inductive Moment Matching。
  • Revisiting Normalizing Flows:如 TarFlow 等。



最后,何愷明對整個方向進行了展望,并提出了幾個問題:

  • 我們是否還在生成模型的「AlexNet 前時代」?
  • 盡管 MeanFlow 已經取得了顯著的進步,但它在概念上仍然受限于迭代的 Flow Matching 和擴散模型框架。
  • MeanFlow 網絡扮演著雙重角色:它既要構建從噪聲到數據的理想軌跡(這些軌跡是隱式存在但需要模型去捕捉的),又要通過「粗化」或概括這些場來簡化生成過程。
  • 那么,究竟什么是真正適用于端到端生成建模的良好公式?這是一個開放性的、激動人心的研究問題。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

蕭竹輕語
2025-06-20 17:21:16
普京:已得到以色列的保證

普京:已得到以色列的保證

魯中晨報
2025-06-21 21:13:06
狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

芳芳歷史燴
2025-06-21 16:32:59
伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

魯中晨報
2025-06-21 19:41:09
太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺
2025-06-21 17:25:41
46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

娛樂圈圈圓
2025-06-20 17:30:24
厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

超級數學建模
2025-06-20 22:40:10
美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

電影爛番茄
2025-06-19 20:58:44
罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

獵火照狼山
2025-06-21 21:48:12
足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側身凌空斬
2025-06-21 20:56:31
郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

魚樂大使
2025-06-19 15:26:19
“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

現代快報
2025-06-21 15:46:24
費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

網球之家
2025-06-21 23:07:20
經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

懂球帝
2025-06-21 11:26:29
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

粵語音樂噴泉
2025-06-20 11:08:17
英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

雷速體育
2025-06-21 21:47:38
剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

每日經濟新聞
2025-06-21 20:21:17
4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

一娛三分地
2025-06-19 20:34:17
中東局勢最新進展:6月21日下午最新消息

中東局勢最新進展:6月21日下午最新消息

第一校尉
2025-06-21 15:05:57
普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

亡海中的彼岸花
2025-06-21 19:21:00
2025-06-21 23:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

藝術
家居
房產
數碼
健康

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

山水之間 墨染風雨云間

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 城步| 视频| 岚皋县| 获嘉县| 青龙| 高碑店市| 板桥市| 衡南县| 绥化市| 东兰县| 洛浦县| 拉萨市| 霍城县| 大理市| 怀柔区| 柳林县| 余姚市| 肇源县| 宁都县| 武城县| 龙山县| 兴化市| 江达县| 吴忠市| 玛纳斯县| 康保县| 宣化县| 合作市| 北宁市| 西安市| 沙雅县| 桂东县| 清远市| 城口县| 平江县| 临沂市| 淮南市| 长海县| 古田县| 康平县| 文山县|