網易首頁 > 網易號 > 正文申請入駐

港科聯合SnapResearch發布ThinkDiff，為擴散模型裝上大腦

2025-07-16 18:00:06　來源: 機器之心Pro

河北舉報

分享至

本文第一作者密振興，香港科技大學計算機科學與技術學院人工智能方向博士生，研究方向是多模態理解與生成，3D/4D 重建與生成，目前正在尋找工業界全職職位或實習職位。

自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席卷圖像生成領域以來，文本到圖像的生成技術取得了長足進步。但它們往往只能根據精確的文字或圖片提示作圖，缺乏真正讀懂圖像與文本、在多模態上下文中推理并創作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態推理與創作，一直是學術界和工業界關注的熱門問題。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規模參數和海量數據，展示了強大的多模態推理與生成能力。但在學術與產業環境中算力和數據并不充裕時，用較少數據與計算資源實現類似的功能，依然是一道難題。

在頂級學術會議 ICML2025 上，香港科技大學聯合 Snap Research 提出了多模態理解與生成新方法：ThinkDiff。該方法僅需較少的圖文對和數小時訓練，就能讓擴散模型具備思考能力，使其在復雜的圖像文本組合輸入下，完成推理式生成，為多模態理解與生成開辟了全新路徑。

Paper：I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
Paper link：
https://arxiv.org/abs/2502.10458
Github：(in progress)
https://github.com/MiZhenxing/ThinkDiff
Project page：
https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法設計

ThinkDiff 這項工作的核心是將現有大規模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。通過聯合 VLM 強大的多模態推理能力和 Diffusion 的高質量生成能力，使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關系，以此為基礎進行高質量的圖像生成。

LLM 與 Diffusion 的共享特征空間

最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等，都開始使用大語言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴散模型的文本編碼器 (Text Encoder)。

在這種設計下，擴散模型里的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特征空間。只要把 VLM 對圖像和文本的推理對齊到該特征空間，就能讓擴散模型繼承 VLM 的推理能力。

將 VLM 對齊到 LLM 解碼器

直接對齊 VLM 與擴散解碼器需要大量復雜數據和低效的 Diffusion 訓練，因此，ThinkDiff 通過一個代理任務，將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之后，由于共享空間的存在，VLM 就自然地與 Diffusion Decoder 對齊。

在訓練過程中，對于每個訓練樣本，ThinkDiff 將圖像 + 文本輸入到 VLM，自回歸 (Autoregressive) 地生成多模態特征向量，再通過一個輕量級的對齊網絡(Aligner)，將這些特征向量映射到 LLM 解碼器的輸入空間，去自回歸地重建圖像的文字描述，用交叉熵損失進行監督。

經過訓練的對齊網絡 (Aligner)，可以有效地把 VLM 的多模態推理能力傳遞給了 LLM 解碼器。而在推理階段，只要用同樣的對齊網絡，通過共享的特征空間，就可以將 VLM 的多模態推理能力傳遞給擴散解碼器，使擴散模型具備多模態理解與生成能力。

網絡結構核心設計

對齊 VLM 生成的 Token：傳統 Diffusion 在使用 LLM 時，是將 LLM 當做輸入文本的編碼器，將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力，來自于它自回歸生成的 tokens，而非編碼的輸入 tokens。因此在 ThinkDiff 中，我們選擇將VLM (大型視覺-語言模型) 自回歸生成的 tokens 的特征對齊到擴散模型，使擴散解碼器能夠真正繼承LVLM的多模態推理能力。

掩碼訓練 (Masked Training)：為了避免對齊網絡走捷徑，而非真正對齊特征空間，ThinkDiff 在訓練階段對 VLM 輸出的 token 特征使用隨機掩碼策略，隨機丟掉一部分特征，讓對齊網絡學會僅從不完整的多模態信息中恢復語義。這種掩碼訓練使得對齊網絡深度理解圖像 + 文本，從而高效地將理解能力傳遞給擴散解碼器。

網絡變體

依據使用的 VLM 的不同，ThinkDiff 有ThinkDiff-LVLM和ThinkDiff-CLIP兩種變體。ThinkDiff-LVLM將大規模視覺語言模型 (LVLM) 對齊到 Diffusion，使得 Diffusion 繼承 LVLM 的多模態理解能力。ThinkDiff-CLIP將 CLIP 對齊到 Diffusion，使得 Diffusion 擁有極強的文本圖像組合能力。

實驗結果

多模態理解與生成定量結果

ThinkDiff-LVLM 在多模態理解與生成基準 CoBSAT 上，大幅領先現有方法，展現出高精度高質量的理解與生成能力。

以下是訓練資源的對比，與其他使用上百張 GPU 的方法相比，ThinkDiff-LVLM 僅使用5 小時 × 4 × A100 GPU的訓練，就達到了最優的效果。

多模態理解與生成圖片結果

ThinkDiff-LVLM 在 CoBSAT 上，能夠對輸入的多模態圖片與文本進行深度推理，并用高質量的圖片展現推理結果。

與 Gemini 的對比

ThinkDiff-LVLM 在日常圖片推理與生成任務上展現出與 Gemini 類似的能力。

Gemini：

Ours：

多模態組合生成結果

在輸入多張圖片時，ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。

多模態視頻生成結果

將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時，ThinkDiff-CLIP 能在不重新訓練的情況下，依據輸入的圖片和文本，生成高質量的視頻。

總結

ThinkDiff 將多模態推理能力傳遞給擴散模型，創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的數據，讓擴散模型具備了在多模態上下文中進行推理和創作的能力。在定量和定性實驗上，都優于現有的開源模型，并展現出與商業模型相當的潛力。無論是在科研領域還是工業應用，都對圖像生成與理解技術做出重要貢獻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.