99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

港科聯合SnapResearch發布ThinkDiff,為擴散模型裝上大腦

0
分享至



本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態理解與生成,3D/4D 重建與生成,目前正在尋找工業界全職職位或實習職位。

自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席卷圖像生成領域以來,文本到圖像的生成技術取得了長足進步。但它們往往只能根據精確的文字或圖片提示作圖,缺乏真正讀懂圖像與文本、在多模 態上下文中推理并創作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態推理與創作,一直是學術界和工業界關注的熱門問題。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規模參數和海量數據,展示了強大的多模態推理與生成能力。但在學術與產業環境中算力和數據并不充裕時,用較少數據與計算資源實現類似的功能,依然是一道難題。

在頂級學術會議 ICML2025 上,香港科技大學聯合 Snap Research 提出了多模態理解與生成新方法:ThinkDiff。該方法僅需較少的圖文對和數小時訓練,就能讓擴散模型具備思考能力,使其在復雜的圖像文本組合輸入下,完成推理式生成,為多模態理解與生成開辟了全新路徑。



  • Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
  • Paper link:
  • https://arxiv.org/abs/2502.10458
  • Github:(in progress)
  • https://github.com/MiZhenxing/ThinkDiff
  • Project page:
  • https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法設計

ThinkDiff 這項工作的核心是將現有大規模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。通過聯合 VLM 強大的多模態推理能力和 Diffusion 的高質量生成能力,使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關系,以此為基礎進行高質量的圖像生成。

LLM 與 Diffusion 的共享特征空間

最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等,都開始使用大語言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴散模型的文本編碼器 (Text Encoder)。

在這種設計下,擴散模型里的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特征空間。只要把 VLM 對圖像和文本的推理對齊到該特征空間,就能讓擴散模型繼承 VLM 的推理能力。



將 VLM 對齊到 LLM 解碼器

直接對齊 VLM 與擴散解碼器需要大量復雜數據和低效的 Diffusion 訓練,因此,ThinkDiff 通過一個代理任務,將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之后,由于共享空間的存在,VLM 就自然地與 Diffusion Decoder 對齊。

在訓練過程中,對于每個訓練樣本,ThinkDiff 將圖像 + 文本輸入到 VLM,自回歸 (Autoregressive) 地生成多模態特征向量,再通過一個輕量級的對齊網絡(Aligner),將這些特征向量映射到 LLM 解碼器的輸入空間,去自回歸地重建圖像的文字描述,用交叉熵損失進行監督。

經過訓練的對齊網絡 (Aligner),可以有效地把 VLM 的多模態推理能力傳遞給了 LLM 解碼器。而在推理階段,只要用同樣的對齊網絡,通過共享的特征空間,就可以將 VLM 的多模態推理能力傳遞給擴散解碼器,使擴散模型具備多模態理解與生成能力。



網絡結構核心設計

對齊 VLM 生成的 Token:傳統 Diffusion 在使用 LLM 時,是將 LLM 當做輸入文本的編碼器,將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力,來自于它自回歸生成的 tokens,而非編碼的輸入 tokens。因此在 ThinkDiff 中,我們選擇將VLM (大型視覺-語言模型) 自回歸生成的 tokens 的特征對齊到擴散模型,使擴散解碼器能夠真正繼承LVLM的多模態推理能力。

掩碼訓練 (Masked Training):為了避免對齊網絡走捷徑,而非真正對齊特征空間,ThinkDiff 在訓練階段對 VLM 輸出的 token 特征使用隨機掩碼策略,隨機丟掉一部分特征,讓對齊網絡學會僅從不完整的多模態信息中恢復語義。這種掩碼訓練使得對齊網絡深度理解圖像 + 文本,從而高效地將理解能力傳遞給擴散解碼器。

網絡變體

依據使用的 VLM 的不同,ThinkDiff 有ThinkDiff-LVLM和ThinkDiff-CLIP兩種變體。ThinkDiff-LVLM將大規模視覺語言模型 (LVLM) 對齊到 Diffusion,使得 Diffusion 繼承 LVLM 的多模態理解能力。ThinkDiff-CLIP將 CLIP 對齊到 Diffusion,使得 Diffusion 擁有極強的文本圖像組合能力。

實驗結果

多模態理解與生成定量結果

ThinkDiff-LVLM 在多模態理解與生成基準 CoBSAT 上,大幅領先現有方法,展現出高精度高質量的理解與生成能力。





以下是訓練資源的對比,與其他使用上百張 GPU 的方法相比,ThinkDiff-LVLM 僅使用5 小時 × 4 × A100 GPU的訓練,就達到了最優的效果。



多模態理解與生成圖片結果

ThinkDiff-LVLM 在 CoBSAT 上,能夠對輸入的多模態圖片與文本進行深度推理,并用高質量的圖片展現推理結果。



與 Gemini 的對比

ThinkDiff-LVLM 在日常圖片推理與生成任務上展現出與 Gemini 類似的能力。

Gemini:



Ours:



多模態組合生成結果

在輸入多張圖片時,ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。



多模態視頻生成結果

將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時,ThinkDiff-CLIP 能在不重新訓練的情況下,依據輸入的圖片和文本,生成高質量的視頻。



總結

ThinkDiff 將多模態推理能力傳遞給擴散模型,創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的數據,讓擴散模型具備了在多模態上下文中進行推理和創作的能力。在定量和定性實驗上,都優于現有的開源模型,并展現出與商業模型相當的潛力。無論是在科研領域還是工業應用,都對圖像生成與理解技術做出重要貢獻。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西安出發,直飛!正式開通!

西安出發,直飛!正式開通!

91.6陜西交通廣播
2025-07-17 11:32:08
女子稱在上海遭多輛出租車拒載,最后上了一輛被罵一路,還關空調

女子稱在上海遭多輛出租車拒載,最后上了一輛被罵一路,還關空調

葡萄說娛
2025-07-17 09:32:38
惡心的一幕出現了!再看施幼珍曾經說過的話,現在才懂她有多高明

惡心的一幕出現了!再看施幼珍曾經說過的話,現在才懂她有多高明

娛樂看阿敞
2025-07-16 18:24:59
又騙走五個!“好大哥”高薪雇用,軍人出手救不了,個個下落不明

又騙走五個!“好大哥”高薪雇用,軍人出手救不了,個個下落不明

明月聊史
2025-07-16 15:02:36
解放軍通告全球!7月13日,以色列沒料到,5國采購中國大量武器

解放軍通告全球!7月13日,以色列沒料到,5國采購中國大量武器

智觀科技
2025-07-13 18:35:03
俄羅斯必須直面現實:歸還領土100萬,換取中國的全力支持

俄羅斯必須直面現實:歸還領土100萬,換取中國的全力支持

科技虎虎
2025-06-16 17:40:21
董璇婚禮現場曝光!小酒窩和繼父太默契,男方被指配不上董璇!

董璇婚禮現場曝光!小酒窩和繼父太默契,男方被指配不上董璇!

古希臘掌管月桂的神
2025-07-16 09:40:03
宗馥莉和她媽的關系也很復雜,因為老宗去世后就開始算賬了…

宗馥莉和她媽的關系也很復雜,因為老宗去世后就開始算賬了…

史行途
2025-07-16 15:37:30
中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺表述大變

中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺表述大變

起喜電影
2025-07-14 03:01:48
場均29.3分7.7籃板!爵士官方:菲利波夫斯基不再參加剩余夏聯

場均29.3分7.7籃板!爵士官方:菲利波夫斯基不再參加剩余夏聯

直播吧
2025-07-17 02:35:52
曝30歲銀行女高管出軌,兩人運動畫面曝光,又親又抱,丈夫發聲

曝30歲銀行女高管出軌,兩人運動畫面曝光,又親又抱,丈夫發聲

180視角
2025-07-17 13:04:26
八路軍六位旅長,為何只有陳賡聞名天下?其他旅長大多名聲不顯?

八路軍六位旅長,為何只有陳賡聞名天下?其他旅長大多名聲不顯?

小童歷史
2025-07-15 15:51:14
臺灣省徹底亂作一團!巨大爆炸聲,讓民眾驚呼“解放軍進城了”

臺灣省徹底亂作一團!巨大爆炸聲,讓民眾驚呼“解放軍進城了”

南宗歷史
2025-07-16 16:50:26
梁曉聲:層次越低的人,越愛吵;層次高的人,從不多言

梁曉聲:層次越低的人,越愛吵;層次高的人,從不多言

清風拂心
2025-07-07 14:20:03
宋佳寵著,李小冉護著,相貌平平卻有大咖做配,此人到底有啥來頭

宋佳寵著,李小冉護著,相貌平平卻有大咖做配,此人到底有啥來頭

冷紫葉
2025-07-16 19:10:03
7月14日俄烏最新:斯洛伐克開價了

7月14日俄烏最新:斯洛伐克開價了

西樓飲月
2025-07-14 18:08:56
理想高管回應MEGA交付時間久:因銷量慘淡縮減產能,今年用戶喜歡超預期

理想高管回應MEGA交付時間久:因銷量慘淡縮減產能,今年用戶喜歡超預期

鞭牛士
2025-07-17 08:24:36
李璇:徐正源、周定洋等人不乏追求者,他們與成都溝通無進展

李璇:徐正源、周定洋等人不乏追求者,他們與成都溝通無進展

懂球帝
2025-07-17 09:59:25
特朗普:準備向150國征收10%至15%關稅

特朗普:準備向150國征收10%至15%關稅

參考消息
2025-07-17 10:40:16
男按摩師回憶:有的女顧客需要的不是按摩手法,更像是沖著我本人

男按摩師回憶:有的女顧客需要的不是按摩手法,更像是沖著我本人

歷來都很現實
2025-07-08 01:20:54
2025-07-17 13:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10884文章數 142381關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

頭條要聞

特朗普:我的支持者竟信"愛潑斯坦騙局" 不需要他們了

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

游戲
手機
時尚
數碼
軍事航空

直面會終于來了!寶可夢直面會下周二開啟、皮爺準備要搞事?

手機要聞

S26 Ultra轉投索尼傳感器!三星手機影像終于有救了?

“渣女上衣”火了?巨洋氣巨顯瘦!誰穿誰好看!

數碼要聞

金士頓全新Canvas Select Plus系列microSD/SD存儲卡上市,42元起

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南乐县| 丰都县| 东乡族自治县| 洪湖市| 河间市| 泰和县| 双流县| 建水县| 元江| 旬阳县| 长汀县| 梅河口市| 札达县| 泰顺县| 玉环县| 贵定县| 穆棱市| 夹江县| 望奎县| 伽师县| 荣成市| 阳高县| 安新县| 休宁县| 墨竹工卡县| 阳春市| 惠来县| 定结县| 十堰市| 盘锦市| 怀来县| 托克托县| 湘潭市| 株洲县| 神农架林区| 泰兴市| 广州市| 中山市| 乌海市| 香港 | 上杭县|