99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta新突破!跨模態生成告別噪聲:流匹配實現任意模態無縫流轉

0
分享至



本文第一作者為劉啟昊,約翰霍普金斯大學計算機科學博士四年級學生,師從 Alan Yuille 教授,研究方向涉及模型魯棒性、生成模型與 3D 視覺。通訊作者為 Mannat Singh,Meta GenAI 研究員,近期的研究主要涉及視頻生成領域創新工作,包括 Emu Video、MovieGen 等項目。

在人工智能領域,跨模態生成(如文本到圖像、圖像到文本)一直是技術發展的前沿方向。現有方法如擴散模型(Diffusion Models)和流匹配(Flow Matching)雖取得了顯著進展,但仍面臨依賴噪聲分布、復雜條件機制等挑戰。

近期,Meta 與約翰霍普金斯大學聯合推出的CrossFlow框架,以全新的技術路徑實現了跨模態生成的突破性進展,為生成式 AI 開辟了更高效、更通用的可能性。該文章已經被 CVPR 2025 收錄為 Highlight。



  • 論文標題:Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution
  • 論文地址:https://arxiv.org/pdf/2412.15213
  • 項目主頁:https://cross-flow.github.io/
  • 代碼地址:https://github.com/qihao067/CrossFlow
  • Demo地址:https://huggingface.co/spaces/QHL067/CrossFlow

核心創新:從 “噪聲到數據” 到 “模態到模態”

基于 Diffusion 或者流匹配的生成模型通常從高斯噪聲出發,通過逐步去噪或優化路徑生成目標數據。然而,對于噪聲的依賴限制了這類算法的靈活性和潛能。

近期,不少工作在探索如何擺脫對噪聲的依賴,比如使用基于薛定諤橋的生成模型。然而這些算法往往很復雜,并且依舊局限于相似模態之間的生成(比如人類轉貓臉等)。

而 CrossFlow 則深入分析了流匹配,并基于流匹配提出了一種非常簡單跨模態生成新范式,可以直接在模態間進行映射,無需依賴噪聲分布或額外條件機制。例如,在文本到圖像生成中,模型直接使用流匹配學習從文本語義空間到圖像空間的映射,省去了復雜的跨注意力機制(Cross-Attention),僅通過自注意力即可實現高效的文本到圖像生成。



通過直接使用流匹配做模態間的映射,本文提出的模型在僅使用由自注意力和前向層組成的 transformer的情況下,不需要基于任務的特定設計,便在多個任務(圖像生成、字幕生成、深度估計、超分辨率)上實現了媲美乃至超過最優算法的性能。



作者發現,使用流匹配做模態間映射的核心在于如何形成 regularized 的分布。

為了實現這一點,作者提出使用變分編碼器(Variational Encoder):將輸入模態(如文本)編碼為與目標模態(如圖像)同維度的正則化潛在空間,確保跨模態路徑的平滑性和語義連貫性。然后,作者發現:僅需要訓練一個最簡單的流匹配模型,就可以實現這兩個空間的映射。



同時,現在的圖片生成模型往往依賴無分類器引導(Classifier-free guidance)。這種引導通過改變額外輸入的 condition 來實現。為了在無額外條件機制的情況下實現無分類器引導,作者通過引入二元指示符,在單模型中實現條件與非條件生成的靈活切換,顯著提升生成質量。

實驗表現

作者通過大量實驗證明了新范式的優勢:

1. 在文本到圖像生成任務上,相比于主流的使用跨注意力增加 text condition 的方法,CrossFlow 取得了更好的生成效果,并且有更好的 scaling 特性。







2.latent space 的差值算術操作:支持語義層面的加減運算(如 “戴帽子的狗”+“墨鏡”-“帽子”=“戴墨鏡的狗”),為生成內容提供前所未有的可控性,同時為圖像編輯、平滑的視頻生成等任務提供了新思路。









3.源分布可定制,讓圖像生成更靈活,同時顯著降低訓練成本,提高生成速度:原本的圖像生成始終學習從噪聲到圖像的映射,因此流匹配所需要學到的 path 的復雜度是確定的。而 CrossFlow 則建立了一個可學習的源分布到圖像的映射,通過不同的方法來學習源分布,可以改變兩個分布之間的差異以及 path 的復雜度,實現更靈活、快速的生成。

具體來說,相比 DALL-E 2 等模型,CrossFlow 訓練資源需求大幅減少(630 A100 GPU 天 vs. 數千天),而后續的研究工作也表明,通過對源分布的設計,可以進一步將訓練時間縮短至 208 A100 GPU 天,并提高 6.62 倍的采樣速度。

4. 由于流匹配的 “雙向映射” 的特性(bi-directional flow property),可以直接將文本到圖像生成模型反過來使用,成為一個圖像描述(image captioning)模型——該模型在 COCO 上取得了SOTA水平。



5. 無需基于任務的特定設計,即可以在多個任務上(圖像生成、圖像描述、深度估計、超分辨率)的多個數據集上取得 SOTA 的水平,推動模型使用統一、單一框架適配多任務。





結語

CrossFlow 的誕生標志著生成式 AI 從 “噪聲中創造” 邁向 “語義間流轉” 的新階段。其簡潔的設計、卓越的性能與靈活的擴展性,為跨模態生成提供了更多的可能性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
江蘇色貪徐其耀,家中養女子158名,被捕時:我控制不住

江蘇色貪徐其耀,家中養女子158名,被捕時:我控制不住

星宇共鳴
2025-05-09 18:39:33
高考失敗到底要不要復讀?看看馬云就知道,從落榜兩次到中國首富

高考失敗到底要不要復讀?看看馬云就知道,從落榜兩次到中國首富

擔撲
2025-06-11 00:22:29
這個阿姨太會穿了!60+看起來像40歲,顯年輕時尚,適合大家借鑒

這個阿姨太會穿了!60+看起來像40歲,顯年輕時尚,適合大家借鑒

小陳聊搭配
2025-06-10 19:53:27
俄羅斯真正危機被曝光,沖突3年從中國賺的錢,都進了寡頭的口袋

俄羅斯真正危機被曝光,沖突3年從中國賺的錢,都進了寡頭的口袋

武事匯
2025-06-07 14:32:57
乒超聯戰況激烈,許昕連續失利,樊振東成大功臣,下午將遇王楚欽

乒超聯戰況激烈,許昕連續失利,樊振東成大功臣,下午將遇王楚欽

阿纂看事
2025-06-10 12:49:05
不想當教練!王楚欽已經做了退役后打算,4個字,讓人羨慕

不想當教練!王楚欽已經做了退役后打算,4個字,讓人羨慕

最愛乒乓球
2025-06-11 00:06:06
記者:孫繼海此前批伊萬團隊沒預案 本場后者80分鐘變陣回應質疑

記者:孫繼海此前批伊萬團隊沒預案 本場后者80分鐘變陣回應質疑

直播吧
2025-06-10 21:04:43
痛心!2025高考剛結束,多名考生受傷,18歲女孩離開了大家!

痛心!2025高考剛結束,多名考生受傷,18歲女孩離開了大家!

界史
2025-06-10 14:05:30
江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

江蘇省2025年養老金調整即將開始,工齡35年和42年漲錢能差多少?

暖心人社
2025-06-09 21:18:39
2012年三對高校教師夫妻玩“換妻”游戲,內容不堪入目,結局如何

2012年三對高校教師夫妻玩“換妻”游戲,內容不堪入目,結局如何

阿胡
2024-06-19 14:36:12
巴帕頌穿黃裙配金鞋現身,身姿與顏值反差惹熱議

巴帕頌穿黃裙配金鞋現身,身姿與顏值反差惹熱議

述家娛記
2025-06-10 15:31:41
喜馬拉雅慘淡收場,無奈賣身騰訊了

喜馬拉雅慘淡收場,無奈賣身騰訊了

開柒
2025-06-10 21:16:57
理性看待“禁酒令”:整治歪風與避免矯枉過正

理性看待“禁酒令”:整治歪風與避免矯枉過正

冬天來旅游
2025-06-10 02:19:32
震驚!貪污一千多萬,罰一百萬。網友疑問:自負盈虧怎么是貪污?

震驚!貪污一千多萬,罰一百萬。網友疑問:自負盈虧怎么是貪污?

行者聊官
2025-06-10 11:26:00
印度媒體稱,印度成為了全球第一個掌握中國武器參數的國家!

印度媒體稱,印度成為了全球第一個掌握中國武器參數的國家!

大道無形我有型
2025-06-10 12:31:37
他做了一個小時,我真的忍不住……了!

他做了一個小時,我真的忍不住……了!

性學研究僧
2025-06-04 21:39:43
手搓蜜桃臀瘋狂鑲牙鉆?歐美白女斥資上萬,把Labubu整成了卡戴珊

手搓蜜桃臀瘋狂鑲牙鉆?歐美白女斥資上萬,把Labubu整成了卡戴珊

最愛酷影視
2025-06-10 21:40:06
菲律賓政壇大結局?莎拉取得全面勝利

菲律賓政壇大結局?莎拉取得全面勝利

易老馮唐
2025-06-10 14:39:49
時隔一個月,印巴空戰模式再次上演,俄蘇35S被擊落一點都不冤枉

時隔一個月,印巴空戰模式再次上演,俄蘇35S被擊落一點都不冤枉

嘆知
2025-06-09 12:52:31
不是退貨,全紅嬋加盟香港隊?亮相回應,誰注意嬋寶退賽后舉動

不是退貨,全紅嬋加盟香港隊?亮相回應,誰注意嬋寶退賽后舉動

體育有點水
2025-06-10 12:30:57
2025-06-11 04:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10615文章數 142336關注度
往期回顧 全部

科技要聞

"液態玻璃"新皮膚,能挽救"AI差生"蘋果嗎

頭條要聞

加州州長:特朗普正讓軍隊與美公民對抗 必須立即阻止

頭條要聞

加州州長:特朗普正讓軍隊與美公民對抗 必須立即阻止

體育要聞

18歲199天!王鈺棟脫衣慶祝國足處子球

娛樂要聞

唐嫣卷入熱巴換角風波 只能給熱巴加戲

財經要聞

連續4個月提"漲工資",背后有何深意?

汽車要聞

激光雷達+9氣囊 一汽豐田bZ5售12.98萬起

態度原創

房產
游戲
教育
旅游
公開課

房產要聞

45億!突然,又一民企巨頭殺入海南舊改!

PS5低功耗模式?爆料人:100%為新掌機準備!

教育要聞

北京市高考作文題“第二次呼吸”:考不跪不屈堅韌精神

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 且末县| 即墨市| 德惠市| 宜兰市| 阳泉市| 夹江县| 怀宁县| 永清县| 勃利县| 郯城县| 特克斯县| 清苑县| 张家口市| 清徐县| 皋兰县| 辛集市| 屏东市| 拜城县| 牟定县| 南宁市| 新安县| 万荣县| 太保市| 广饶县| 彭水| 道孚县| 黄冈市| 保定市| 平昌县| 婺源县| 永清县| 荆州市| 威宁| 邵东县| 门源| 莱阳市| 宁强县| 弋阳县| 都江堰市| 瓦房店市| 凤山县|