99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

舍棄自回歸!國內團隊純擴散多模態大模型LLaDA-V,理解任務新SOTA

0
分享至



本文介紹的工作由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。游澤彬和聶燊是中國人民大學高瓴人工智能學院的博士生,導師為李崇軒副教授。該研究基于團隊前期發布的、首個性能比肩 LLaMA 3 的 8B 擴散大語言模型LLaDA。

此次,團隊將 LLaDA 拓展至多模態領域,推出了LLaDA-V—— 集成了視覺指令微調的純擴散多模態大語言模型(MLLM)。這項工作標志著對當前以自回歸為主流的多模態方法的一次重要突破,展示了擴散模型在多模態理解領域的巨大潛力。

近年來,多模態大語言模型(MLLMs)在處理圖像、音頻、視頻等多種輸入模態方面取得了顯著進展。然而,現有的大多數方法依賴自回歸模型。雖然有研究嘗試將擴散模型引入 MLLMs,但往往采用混合架構(自回歸 + 擴散)或者受限于語言建模能力,導致性能不佳。

繼 LLaDA 成功證明擴散模型在純語言任務上能與自回歸模型(如 LLaMA3-8B)競爭后,一個關鍵問題隨之而來:擴散語言模型能否在多模態任務中也達到與自回歸模型相當的性能?LLaDA-V 正是對這一問題的有力回答。

研究團隊將 LLaDA 作為語言基座,通過引入視覺編碼器(SigLIP 2)和 MLP 連接器,將視覺特征投影到語言嵌入空間,實現了有效的多模態對齊。LLaDA-V 在訓練和采樣階段均采用離散擴散機制,擺脫了自回歸范式。



  • 論文標題:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
  • 論文鏈接:https://arxiv.org/abs/2505.16933
  • 項目地址:https://ml-gsai.github.io/LLaDA-V-demo/
  • 代碼倉庫:https://github.com/ML-GSAI/LLaDA-V

團隊預計近期開源訓練推理代碼以及 LLaDA-V 權重。

性能亮點

數據可擴展性強,多項基準表現優異

大規模的實驗評估揭示了 LLaDA-V 的多個引人注目的特性:

1. 卓越的數據可擴展性與競爭力。團隊將 LLaDA-V 與使用 LLaMA3-8B 作為語言基座、但其他部分完全相同的自回歸基線 LLaMA3-V 進行了對比。

結果顯示,LLaDA-V 展現出更強的數據可擴展性,特別是在多學科知識(如 MMMU)基準上。令人印象深刻的是,盡管 LLaDA-8B 在純文本任務上略遜于 LLaMA3-8B,但 LLaDA-V 在 11 個 多模態任務中超越了 LLaMA3-V。這表明擴散架構在多模態任務上面具備一定的優勢。





2. 純擴散與混合架構中的 SOTA:與現有的混合自回歸 - 擴散模型(如 MetaMorph, Show-o)和純擴散模型相比,LLaDA-V 在多模態理解任務上達到了當前最佳(SOTA)性能。這證明了基于強大語言擴散模型的 MLLM 架構的有效性。



3. 縮小與頂尖自回歸 MLLM 的差距:盡管 LLaDA 的語言能力明顯弱于 Qwen2-7B,但 LLaDA-V 在某些基準(如 MMStar)上顯著縮小了與強大的 Qwen2-VL 的性能差距,達到了相當的水平(60.1 vs. 60.7)。這進一步印證了擴散模型在多模態領域的潛力。

下圖是 LLaDA-V 同用戶進行交流的場景。



LLaDA-V 準確描述出了一幅寧靜而富有層次感的瑞士阿爾卑斯山景:一條綠色小路蜿蜒延伸,一位行人沿路行走,遠處是山谷中的白色教堂和被薄霧環繞的巍峨群山,藍天白云為畫面增添了寧靜氛圍,整體構圖清晰,意境優美。

核心方法

LLaDA-V 的核心在于將視覺指令微調框架與 LLaDA 的掩碼擴散機制相結合。下圖展示了 LLaDA-V 的訓練和推理過程:



架構:采用經典的「視覺編碼器 + MLP 投影器 + 語言模型」架構。視覺編碼器(SigLIP 2)提取圖像特征,MLP 投影器將其映射到 LLaDA 的嵌入空間。LLaDA 語言塔則負責處理融合后的多模態輸入并生成回復。特別地,LLaDA-V采用了雙向注意力機制,允許模型在預測時全面理解對話上下文,這在消融實驗中被證明略優于對話因果注意力機制。

訓練目標:LLaDA-V 擴展了 LLaDA 的訓練目標,以支持多輪多模態對話。其核心思想是在訓練時保持圖像特征和用戶提示(Prompt),僅對模型的回復(Response)進行隨機掩碼,訓練目標僅對被掩碼部分計算交叉熵損失。



推理過程:LLaDA-V 的生成過程并非自回歸式的逐詞預測,而是通過擴散模型的反向去噪過程。從一個完全被掩碼的回復開始,模型在多個步驟中迭代地預測被掩碼的詞元,逐步恢復出完整的回復。研究采用了 LLaDA 的低置信度重掩碼策略,優先保留高置信度的預測,提升了生成質量。

總結與展望

LLaDA-V 成功地將視覺指令微調與掩碼擴散模型相結合,證明了擴散模型不僅能在語言任務上與自回歸模型一較高下,在多模態理解領域同樣展現出強大的競爭力和獨特的優勢,尤其是在數據可擴展性方面。

這項工作不僅為 MLLM 的發展開辟了一條新的技術路徑,也挑戰了多模態智能必須依賴自回歸模型的傳統觀念。隨著語言擴散模型的不斷發展,我們有理由相信,基于擴散的 MLLM 將在未來扮演更重要的角色,進一步推動多模態 AI 的邊界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友自曝女友是他人女奴,交往一年的性愛短片,全都發給主人看

網友自曝女友是他人女奴,交往一年的性愛短片,全都發給主人看

社會醬
2025-05-28 18:04:31
游客稱武陵山天池底部竟為304不銹鋼,網友驚呆!景區:確有此事

游客稱武陵山天池底部竟為304不銹鋼,網友驚呆!景區:確有此事

有趣的火烈鳥
2025-05-28 19:09:13
薩巴倫卡慌了?不僅因為鄭欽文2:0輕取阿蘭戈,更因為這三點!

薩巴倫卡慌了?不僅因為鄭欽文2:0輕取阿蘭戈,更因為這三點!

田先生籃球
2025-05-28 23:56:08
邱毅,早勸你回頭不聽勸,如今回頭已無路

邱毅,早勸你回頭不聽勸,如今回頭已無路

呼呼歷史論
2025-05-29 00:32:19
唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

唇語專家破譯法國總統馬克龍被妻子打臉后對話:布麗吉特怒罵“滾開,你個廢物”

愛意隨風起呀
2025-05-29 00:50:32
利好突襲!深夜,大漲!

利好突襲!深夜,大漲!

證券時報
2025-05-29 00:14:05
A股:震蕩普跌,大資金緊發4大信號!所有人做好準備,大變盤將至

A股:震蕩普跌,大資金緊發4大信號!所有人做好準備,大變盤將至

虎哥閑聊
2025-05-28 11:38:28
43歲上海男子失業后逆襲,開辟新賽道,收入是當外企高管時兩三倍

43歲上海男子失業后逆襲,開辟新賽道,收入是當外企高管時兩三倍

上觀新聞
2025-05-28 22:14:00
田徑亞錦賽第2日:日本飛人千分之2秒勝泰將奪冠 中國隊再得6金

田徑亞錦賽第2日:日本飛人千分之2秒勝泰將奪冠 中國隊再得6金

勁爆體壇
2025-05-28 21:01:14
洪秀柱直飛北京參會,馬英九心腹發現,賴清德或不想打仗

洪秀柱直飛北京參會,馬英九心腹發現,賴清德或不想打仗

小鬼頭體育
2025-05-29 01:24:30
電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區炸裂

電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區炸裂

派大星紀錄片
2025-05-28 17:00:51
反轉來了,中美交易生變,對華智囊被迫離職,特朗普七寸被掐住!

反轉來了,中美交易生變,對華智囊被迫離職,特朗普七寸被掐住!

科技有趣事
2025-05-28 09:37:07
77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

安山客
2025-05-28 17:46:32
新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

新冠再次爆發,可能不發燒!提醒:出現 5 個癥狀,病毒或已來敲門

健身狂人
2025-05-28 13:41:50
吃相難看!朱媛媛去世僅11天,讓人作嘔的事就再次出現,不止一件

吃相難看!朱媛媛去世僅11天,讓人作嘔的事就再次出現,不止一件

姩姩有娛呀
2025-05-27 21:44:11
痛別!今天凌晨,她因病逝世,享年68歲

痛別!今天凌晨,她因病逝世,享年68歲

魯中晨報
2025-05-28 16:02:16
廣東燙碗令人惡心后續:汪教授再發聲,原因曝光,原來我們誤會了

廣東燙碗令人惡心后續:汪教授再發聲,原因曝光,原來我們誤會了

清游說娛
2025-05-28 13:45:36
大駝背、躲鏡頭、鼻尖分家,芭莎這一夜,楊冪的狀態和格局全暴露

大駝背、躲鏡頭、鼻尖分家,芭莎這一夜,楊冪的狀態和格局全暴露

萌神木木
2025-05-28 19:59:21
U16國足開門紅!帥惟浩壓哨絕殺,260天首勝沙特,連破3魔咒

U16國足開門紅!帥惟浩壓哨絕殺,260天首勝沙特,連破3魔咒

奧拜爾
2025-05-28 21:37:48
0-1!曼聯太慘了 連東南亞全明星都踢不過 26人登場全場機會寥寥

0-1!曼聯太慘了 連東南亞全明星都踢不過 26人登場全場機會寥寥

狍子歪解體壇
2025-05-28 22:41:43
2025-05-29 04:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10547文章數 142325關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

房產
藝術
游戲
親子
公開課

房產要聞

看完這份數據,你應該對海南樓市有信心!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

夢幻西游從零起號到變現需要多久?新區只需一周!

親子要聞

動手又動腦的#磁力幾何拼圖,可以鍛煉寶寶邏輯思維能力和空間想象力,提升專注力,孩子越玩越聰明#益智玩...

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清水县| 花垣县| 平凉市| 绥阳县| 通道| 肃宁县| 行唐县| 肥城市| 岳普湖县| 竹山县| 吉木萨尔县| 瓦房店市| 昌邑市| 杭锦旗| 西峡县| 乃东县| 浑源县| 松阳县| 湖南省| 丹棱县| 承德县| 丹东市| 穆棱市| 七台河市| 昌邑市| 锦州市| 湾仔区| 东源县| 仁化县| 汝城县| 宿迁市| 沛县| 如皋市| 天峻县| 内丘县| 威宁| 朝阳区| 奎屯市| 南江县| 武冈市| 青岛市|