網易首頁 > 網易號 > 正文申請入駐

舍棄自回歸!國內團隊純擴散多模態大模型LLaDA-V,理解任務新SOTA

2025-05-27 11:36:39　來源: 機器之心Pro

北京舉報

分享至

本文介紹的工作由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。游澤彬和聶燊是中國人民大學高瓴人工智能學院的博士生，導師為李崇軒副教授。該研究基于團隊前期發布的、首個性能比肩 LLaMA 3 的 8B 擴散大語言模型LLaDA。

此次，團隊將 LLaDA 拓展至多模態領域，推出了LLaDA-V—— 集成了視覺指令微調的純擴散多模態大語言模型（MLLM）。這項工作標志著對當前以自回歸為主流的多模態方法的一次重要突破，展示了擴散模型在多模態理解領域的巨大潛力。

近年來，多模態大語言模型（MLLMs）在處理圖像、音頻、視頻等多種輸入模態方面取得了顯著進展。然而，現有的大多數方法依賴自回歸模型。雖然有研究嘗試將擴散模型引入 MLLMs，但往往采用混合架構（自回歸 + 擴散）或者受限于語言建模能力，導致性能不佳。

繼 LLaDA 成功證明擴散模型在純語言任務上能與自回歸模型（如 LLaMA3-8B）競爭后，一個關鍵問題隨之而來：擴散語言模型能否在多模態任務中也達到與自回歸模型相當的性能？LLaDA-V 正是對這一問題的有力回答。

研究團隊將 LLaDA 作為語言基座，通過引入視覺編碼器（SigLIP 2）和 MLP 連接器，將視覺特征投影到語言嵌入空間，實現了有效的多模態對齊。LLaDA-V 在訓練和采樣階段均采用離散擴散機制，擺脫了自回歸范式。

論文標題：LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
論文鏈接：https://arxiv.org/abs/2505.16933
項目地址：https://ml-gsai.github.io/LLaDA-V-demo/
代碼倉庫：https://github.com/ML-GSAI/LLaDA-V

團隊預計近期開源訓練推理代碼以及 LLaDA-V 權重。

性能亮點

數據可擴展性強，多項基準表現優異

大規模的實驗評估揭示了 LLaDA-V 的多個引人注目的特性：

1. 卓越的數據可擴展性與競爭力。團隊將 LLaDA-V 與使用 LLaMA3-8B 作為語言基座、但其他部分完全相同的自回歸基線 LLaMA3-V 進行了對比。

結果顯示，LLaDA-V 展現出更強的數據可擴展性，特別是在多學科知識（如 MMMU）基準上。令人印象深刻的是，盡管 LLaDA-8B 在純文本任務上略遜于 LLaMA3-8B，但 LLaDA-V 在 11 個多模態任務中超越了 LLaMA3-V。這表明擴散架構在多模態任務上面具備一定的優勢。

2. 純擴散與混合架構中的 SOTA：與現有的混合自回歸 - 擴散模型（如 MetaMorph, Show-o）和純擴散模型相比，LLaDA-V 在多模態理解任務上達到了當前最佳（SOTA）性能。這證明了基于強大語言擴散模型的 MLLM 架構的有效性。

3. 縮小與頂尖自回歸 MLLM 的差距：盡管 LLaDA 的語言能力明顯弱于 Qwen2-7B，但 LLaDA-V 在某些基準（如 MMStar）上顯著縮小了與強大的 Qwen2-VL 的性能差距，達到了相當的水平（60.1 vs. 60.7）。這進一步印證了擴散模型在多模態領域的潛力。

下圖是 LLaDA-V 同用戶進行交流的場景。

LLaDA-V 準確描述出了一幅寧靜而富有層次感的瑞士阿爾卑斯山景：一條綠色小路蜿蜒延伸，一位行人沿路行走，遠處是山谷中的白色教堂和被薄霧環繞的巍峨群山，藍天白云為畫面增添了寧靜氛圍，整體構圖清晰，意境優美。

核心方法

LLaDA-V 的核心在于將視覺指令微調框架與 LLaDA 的掩碼擴散機制相結合。下圖展示了 LLaDA-V 的訓練和推理過程：

架構：采用經典的「視覺編碼器 + MLP 投影器 + 語言模型」架構。視覺編碼器（SigLIP 2）提取圖像特征，MLP 投影器將其映射到 LLaDA 的嵌入空間。LLaDA 語言塔則負責處理融合后的多模態輸入并生成回復。特別地，LLaDA-V采用了雙向注意力機制，允許模型在預測時全面理解對話上下文，這在消融實驗中被證明略優于對話因果注意力機制。

訓練目標：LLaDA-V 擴展了 LLaDA 的訓練目標，以支持多輪多模態對話。其核心思想是在訓練時保持圖像特征和用戶提示（Prompt），僅對模型的回復（Response）進行隨機掩碼，訓練目標僅對被掩碼部分計算交叉熵損失。

推理過程：LLaDA-V 的生成過程并非自回歸式的逐詞預測，而是通過擴散模型的反向去噪過程。從一個完全被掩碼的回復開始，模型在多個步驟中迭代地預測被掩碼的詞元，逐步恢復出完整的回復。研究采用了 LLaDA 的低置信度重掩碼策略，優先保留高置信度的預測，提升了生成質量。

總結與展望

LLaDA-V 成功地將視覺指令微調與掩碼擴散模型相結合，證明了擴散模型不僅能在語言任務上與自回歸模型一較高下，在多模態理解領域同樣展現出強大的競爭力和獨特的優勢，尤其是在數據可擴展性方面。

這項工作不僅為 MLLM 的發展開辟了一條新的技術路徑，也挑戰了多模態智能必須依賴自回歸模型的傳統觀念。隨著語言擴散模型的不斷發展，我們有理由相信，基于擴散的 MLLM 將在未來扮演更重要的角色，進一步推動多模態 AI 的邊界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.