機(jī)器之心報(bào)道
編輯:Panda
上個(gè)月 21 號(hào),Google I/O 2025 開發(fā)者大會(huì)可說是吸睛無數(shù),各種 AI 模型、技術(shù)、工具、服務(wù)、應(yīng)用讓人目不暇接。在這其中,Gemini Diffusion絕對(duì)算是最讓人興奮的進(jìn)步之一。從名字看得出來,這是一個(gè)采用了擴(kuò)散模型的 AI 模型,而這個(gè)模型卻并非我們通常看到的擴(kuò)散式視覺生成模型,而是一個(gè)地地道道的語言模型!
Google DeepMind 表示,他們正在使用「擴(kuò)散」技術(shù)來探索新的語言模型方向,從而為用戶提供更強(qiáng)大的控制力、創(chuàng)造力和文本生成速度。
從演示效果看,Gemini Diffusion 也確實(shí)快 ——「生成速度是我們迄今為止最快模型的五倍,同時(shí)還具有相當(dāng)?shù)木幊绦阅堋!?/p>
那么,擴(kuò)散模型為什么會(huì)這么快呢?這與其工作原理有關(guān)。簡單來說,不像自回歸語言模型那樣直接預(yù)測(cè)下個(gè)文本 token,擴(kuò)散語言模型(dLLM)是通過逐步細(xì)化噪聲的方式來學(xué)習(xí)生成輸出。這意味著它們不僅可以快速迭代,還能在生成過程中進(jìn)行糾錯(cuò)。這些特性有助于它們更好地應(yīng)對(duì)編輯等任務(wù),包括在數(shù)學(xué)和代碼環(huán)境中。
用戶輸入「Explain what artificial intelligence is」時(shí),擴(kuò)散語言模型 LLaDA 生成響應(yīng)的過程,可以看到其生成方式與從左到右的自回歸模型有明顯差別。
但遺憾的是,截至目前,Gemini Diffusion 都還沒有真正問世,感興趣的用戶也還只得在 waitlist 中繼續(xù)等待。但是,其實(shí)早在 Gemini Diffusion 問世之前幾年,就已經(jīng)有一些研究團(tuán)隊(duì)在探索擴(kuò)散式 LLM 的可行性了,并研發(fā)出了擴(kuò)散語言模型。
比如斯坦福大學(xué) 2022 年提出的 Diffusion-LM 在細(xì)粒度的復(fù)雜生成控制方面取得了重要進(jìn)步;同年,上海 AI 實(shí)驗(yàn)室提出了首個(gè)專為序列到序列(Seq2Seq)任務(wù)設(shè)計(jì)的擴(kuò)散模型 DiffuSeq,而復(fù)旦大學(xué)則將擴(kuò)散過程與 BERT 模型相結(jié)合創(chuàng)造了 DiffusionBERT。之后還有人大高瓴人工智能學(xué)院李崇軒團(tuán)隊(duì)對(duì)掩碼式擴(kuò)散模型在文本建模上的 Scaling Law 的研究。
一直到今年二月份,螞蟻集團(tuán)和中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團(tuán)隊(duì)推出了首個(gè) 8B 參數(shù)量的擴(kuò)散大語言模型 LLaDA。憑借比肩同規(guī)模 LLaMA 3 的性能,LLaDA 備受關(guān)注。不僅如此,該模型也是國內(nèi)率先做到真正可用的擴(kuò)散語言模型,并在相關(guān)研究領(lǐng)域產(chǎn)生了巨大影響,甚至成為了許多相關(guān)研究所使用的基礎(chǔ)模型 —— 后續(xù)的 d1、LaViDa 和 LLaDOU 都采用了 LLaDA 作為基礎(chǔ)或主干模型。
有意思的是,就在 LLaDA 誕生之后幾天,硅谷的一家初創(chuàng)公司 Inception Labs 正式從隱身模式中浮出水面,研發(fā)的「首個(gè)商業(yè)級(jí)擴(kuò)散大型語言模型」Mercury 問世了。AI 社區(qū)對(duì)擴(kuò)散式 LLM 的關(guān)注也隨之迎來了一波小高潮。
在這期間,相關(guān)研究層出不窮,包括將自回歸與擴(kuò)散模型融合的 Block Diffusion 和 CtrlDiff、通過 KV Cache 和并行解碼實(shí)現(xiàn) dLLM 無訓(xùn)練加速的 Fast-dLLM、基于傅里葉變換的狀態(tài)擴(kuò)散語言模型 SFDLM、香港大學(xué)和華為發(fā)布的 Dream 7B、使用橫向思維擴(kuò)散鏈(DCoLT)增強(qiáng)擴(kuò)散語言模型推理能力的 LLaDOU 以及我們?cè)鴪?bào)道過的來自 UCLA 和 Meta 的 d1 模型 —— 其通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(diffu-GRPO 算法),擴(kuò)展了 dLLM 的推理能力,尤其是在數(shù)學(xué)和邏輯推理任務(wù)上的表現(xiàn)。
以 LLaDA 為基礎(chǔ)模型開發(fā)的 d1-LLaDA 在多個(gè)數(shù)學(xué)和邏輯推理任務(wù)上都獲得了明顯提升,來自論文 arXiv:2504.12216
當(dāng)然,谷歌 5 月份發(fā)布的 Gemini Diffusion 絕對(duì)算得上是 dLLM 領(lǐng)域的一大盛事,而其給人最直觀的第一印象就一個(gè)字:「快」。其排除額外開銷后的采樣速度可以達(dá)到驚人的每秒 1479 token。而 Gemini Diffusion 還不只是快,其在多個(gè)基準(zhǔn)上的表現(xiàn)可媲美大得多的自回歸模型 Gemini 2.0 Flash-Lite,彰顯了 dLLM 的巨大潛力。
而在 dLLM 研究發(fā)展的基礎(chǔ)上,我們也看到了 dMLLM(擴(kuò)散式多模態(tài) LLM)研究正在爆發(fā),其中最典型的代表莫過于螞蟻集團(tuán)與人大基于 LLaDA 模型開發(fā)的多模態(tài)擴(kuò)散大語言模型LLaDA-V和字節(jié)跳動(dòng)開發(fā)的多模態(tài)擴(kuò)散大語言模型MMaDA。
其它一些研究同樣非常值得關(guān)注,包括來自新加坡國立大學(xué)的首個(gè)離散 dMLLM Dimple、來自 UCLA 等的 LaViDa。
可以說,MMaDA 與 LLaDA 系列模型一起,表明在擴(kuò)散語言模型這個(gè)賽道上,國內(nèi)的研究團(tuán)隊(duì)已經(jīng)躋身第一梯度。我們也非常期待螞蟻集團(tuán)和字節(jié)跳動(dòng)接下來在這個(gè)方向上的進(jìn)一步探索。
下面,我們首先將以 LLaDA 為例,展現(xiàn)當(dāng)前擴(kuò)散式 LLM 的工作原理;之后我們會(huì)深入多模態(tài)的領(lǐng)域,帶你一窺當(dāng)前擴(kuò)散式多模態(tài) LLM(dMLLM)研究成果所昭示的光明未來。在這個(gè)未來里,你說不定還能看見 AGI 的影子。
擴(kuò)散式 LLM 的工作原理
—— 以 LLaDA 為例
不管是擴(kuò)散式 LLM 還是自回歸 LLM,其實(shí)都是生成式模型。而本質(zhì)上講,生成模型是對(duì)高維概率分布 P_θ 進(jìn)行建模,旨在優(yōu)化 P_θ 與 P_data 間的某種距離。這個(gè)過程通常包含三大要素,即網(wǎng)絡(luò)結(jié)構(gòu)(MLP、CNN、RNN、Transformer)、規(guī)模擴(kuò)展(模型、數(shù)據(jù)、計(jì)算)、概率建模方法(VAE、GAN、Flow、自回歸、擴(kuò)散模型)。
更具體而言,自回歸模型是使用鏈?zhǔn)桨l(fā)展來拆分概率分布 P_θ,而擴(kuò)散模型則是借助隨機(jī)微分方程,通過前向加噪和反向去噪過程建模聯(lián)合概率 P_θ。
LLaDA 團(tuán)隊(duì)觀察到:當(dāng)前主流大語言模型普遍采用極大似然估計(jì)訓(xùn)練網(wǎng)絡(luò),而極大似然估計(jì)等價(jià)于最小化真實(shí)數(shù)據(jù)分布與模型分布的 KL 散度。他們認(rèn)為:「大模型的諸多優(yōu)良性質(zhì)源于極大似然估計(jì)本身,而非自回歸建模方式。」
基于這一見解,該團(tuán)隊(duì)探索了「擴(kuò)散模型」這一已經(jīng)在視覺生成領(lǐng)域取得顯著成功的范式,看其能否在語言任務(wù)上得同樣的成功。他們進(jìn)一步觀察到,對(duì)于自回歸語言模型成功的要素,擴(kuò)散模型同樣也具備,包括卓越的可擴(kuò)展性、指令遵從和上下文學(xué)習(xí)能力、「壓縮即智能」的理論基礎(chǔ)。
基于這些觀察,人大和螞蟻集團(tuán)提出了LLaDA,即 Large Language Diffusion with mAsking,下圖展示了其一些概念。
LLaDA 架構(gòu)的概念性說明,其中 (a) 是預(yù)訓(xùn)練,(b) 為 SFT,(c) 則是采樣過程,來自論文 arXiv:2502.09992
其中,在預(yù)訓(xùn)練過程中,LLaDA 會(huì)基于文本進(jìn)行訓(xùn)練,并且這些文本都帶有隨機(jī)掩碼 —— 以相同的比例獨(dú)立應(yīng)用于所有 token。在接下來的 SFT 階段,則被遮掩的只有 response,該階段的目標(biāo)是提升模型的指令遵從能力。而在采樣階段,LLaDA 模擬從 t = 1(全掩碼)到 t = 0(無掩碼)的擴(kuò)散過程,并在每一步,模型預(yù)測(cè)所有被掩碼 token 后,會(huì)按一定比例對(duì)部分預(yù)測(cè)結(jié)果進(jìn)行再掩碼(remask),以保證反向過程與前向過程一致。
對(duì)這些過程更詳細(xì)的數(shù)學(xué)描述可參閱我們之前的報(bào)道《語言模型新范式:首個(gè) 8B 擴(kuò)散大語言模型 LLaDA 發(fā)布,性能比肩 LLaMA 3》或原論文。
預(yù)訓(xùn)練后的 LLaDA 8B 的實(shí)驗(yàn)表現(xiàn)足以比肩同等規(guī)模下的 LLaMA3,來自論文 arXiv:2502.09992
經(jīng)過后訓(xùn)練的 LLaDA 8B 也有同樣表現(xiàn),來自論文 arXiv:2502.09992
LLaDA 首次表明:通過前向掩碼加噪與反向去噪機(jī)制,同樣可以實(shí)現(xiàn)大語言模型的核心能力。
此后,LLaDA 逐漸發(fā)展成了 dLLM 研究的常用基礎(chǔ)模型之一,比如前文提到的 d1、LaViDa 和 LLaDOU 以及近期 Meta 剛發(fā)布的新研究 EB-Sampler,一種通過 Entropy Bounded Unmasking 加速掩碼式擴(kuò)散模型的采樣過程的技術(shù)。
事實(shí)上,掩碼式擴(kuò)散語言模型的有效性已經(jīng)得到了一些理論證明,比如論文《A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective》從信息論的角度對(duì)擴(kuò)散語言模型的收斂性進(jìn)行了理論分析,為擴(kuò)散語言模型的實(shí)際有效性提供了新的理論見解。而北京大學(xué)和螞蟻集團(tuán)的論文《Theoretical Benefit and Limitation of Diffusion Language Model》更是從理論上剖析了 dLLM 的優(yōu)勢(shì)和局限。
同時(shí),LLaDA 本身也在不斷演進(jìn)。5 月下旬,LLaDA 1.5問世,其有效整合了新提出的 Variance-Reduced Preference Optimization(VRPO)方法 ,在多個(gè)數(shù)學(xué)和對(duì)齊基準(zhǔn)上都取得了顯著進(jìn)步。簡單來說,VRPO 旨在降低偏好得分估計(jì)器的方差,從而減輕整體偏好優(yōu)化中的偏差和方差。
LLaDA 1.5 相比 LLaDA 進(jìn)步明顯,來自論文 arXiv:2505.19223
另一方面,dLLM 也在不斷地?cái)U(kuò)展自己的能力邊界,尤其是在多模態(tài)能力方面 —— 本就已經(jīng)在視覺生成任務(wù)上表現(xiàn)優(yōu)異的擴(kuò)散模型也開始通過視覺理解這個(gè)世界。
擴(kuò)散式多模態(tài) LLM
機(jī)器理解絢麗世界的另一種方式
目前,擴(kuò)散式多模態(tài) LLM(dMLLM)還主要集中在文本模態(tài)的基礎(chǔ)上增加視覺模態(tài)。其中,來自人大和螞蟻集團(tuán)的LLaDA-V可說是最典型的代表(實(shí)際上 LLaDA-V 中的 V 便是指視覺 /vision)。
LLaDA-V 是一種集成了視覺指令微調(diào)的純擴(kuò)散多模態(tài)大語言模型,其核心在于將視覺指令微調(diào)框架與 LLaDA 的掩碼擴(kuò)散機(jī)制相結(jié)合。下圖展示了 LLaDA-V 的訓(xùn)練和推理過程。
b 和 c 分別展示了 LLaDA-V 的訓(xùn)練和推理過程,而 a 則是自回歸訓(xùn)練
架構(gòu)上,LLaDA-V 采用了經(jīng)典的「視覺編碼器 + MLP 投影器 + 語言模型」架構(gòu)。視覺編碼器(SigLIP 2)的作用是提取圖像特征,MLP 投影器再將其映射到 LLaDA 的嵌入空間,LLaDA 語言模型則負(fù)責(zé)處理融合后的多模態(tài)輸入并生成回復(fù)。尤其需要注意,LLaDA-V 采用了雙向注意力機(jī)制。這允許模型在預(yù)測(cè)時(shí)全面理解對(duì)話上下文,這在消融實(shí)驗(yàn)中被證明略優(yōu)于對(duì)話因果注意力機(jī)制。
為了支持多輪多模態(tài)對(duì)話,LLaDA-V 的訓(xùn)練目標(biāo)在 LLaDA 的訓(xùn)練目標(biāo)的基礎(chǔ)上進(jìn)行了擴(kuò)展,以支持多輪多模態(tài)對(duì)話。其核心思想是在訓(xùn)練時(shí)保持圖像特征和用戶提示,僅對(duì)模型的 response 進(jìn)行隨機(jī)掩碼,訓(xùn)練目標(biāo)僅對(duì)被掩碼部分計(jì)算交叉熵?fù)p失。
在執(zhí)行推理時(shí),LLaDA-V 由于是擴(kuò)散模型,因此其生成過程并非自回歸式的逐詞預(yù)測(cè),而是通過擴(kuò)散模型的反向去噪過程。從一個(gè)完全被掩碼的回復(fù)開始,模型在多個(gè)步驟中迭代地預(yù)測(cè)被掩碼的 token,逐步恢復(fù)出完整的回復(fù)。研究采用了 LLaDA 的低置信度重掩碼策略,優(yōu)先保留高置信度的預(yù)測(cè),以提升生成質(zhì)量。
整體而言,LLaDA-V 成功地將視覺指令微調(diào)與掩碼擴(kuò)散模型相結(jié)合,證明了擴(kuò)散模型不僅能在語言任務(wù)上與自回歸模型一較高下,在多模態(tài)理解領(lǐng)域同樣展現(xiàn)出強(qiáng)大的競爭力和獨(dú)特的優(yōu)勢(shì),尤其是在數(shù)據(jù)可擴(kuò)展性方面。
LLaDA-V 的基準(zhǔn)測(cè)試結(jié)果,來自論文 arXiv: 2505.16933
對(duì) LLaDA-V 模型的更多介紹可以參看我們之前的報(bào)道《舍棄自回歸!國內(nèi)團(tuán)隊(duì)打造純擴(kuò)散多模態(tài)大模型 LLaDA-V,理解任務(wù)新 SOTA》。
當(dāng)然,除了 LLaDA-V,近期也誕生了其它一些非常值得關(guān)注的 dMLLM。
這里來重點(diǎn)看看字節(jié)跳動(dòng)開發(fā)的MMaDA,其兼具文本推理、多模態(tài)理解和文生圖三種能力。該方法具有三大關(guān)鍵創(chuàng)新:采用了統(tǒng)一的擴(kuò)散架構(gòu)、實(shí)現(xiàn)了一種混合長思維鏈(CoT)微調(diào)策略、提出了一種基于策略梯度的統(tǒng)一強(qiáng)化學(xué)習(xí)算法 UniGRPO。
MMaDA 的訓(xùn)練和推理流程概況,來自論文 arXiv: 2505.15809
這些創(chuàng)新造就了 MMaDA 在多種任務(wù)上的強(qiáng)勢(shì)表現(xiàn),這也使其成為了當(dāng)前 dMLLM 領(lǐng)域最具代表性的研究成果之一。
MMaDA 執(zhí)行文本推理任務(wù)示例,來自論文 arXiv: 2505.15809
當(dāng)然,除了視覺模態(tài),dLLM 也正在向其它更多模態(tài)推進(jìn),其中尤其值得一提的是擴(kuò)散蛋白質(zhì)語言模型(DPLM)。該研究也來自字節(jié)跳動(dòng),可以無條件地生成結(jié)構(gòu)合理、新穎且多樣化的蛋白質(zhì)序列。另外,DPLM 還可根據(jù)各種需求進(jìn)行定制,并展現(xiàn)出了強(qiáng)大的條件生成能力。
作為當(dāng)前生成式 AI 的前沿方向,dMLLM 相關(guān)研究正迅速積累。LLaDA-V 和 MMaDA 作為杰出代表,也代表了國內(nèi)在這一研究方向上的前沿探索水平。期待這一范式早日邁入真實(shí)應(yīng)用場景。
智能的范式不會(huì)固定
AI 也將繼續(xù)擴(kuò)散
從視覺生成到語言理解,再到多模態(tài)交互,擴(kuò)散模型正逐步走出「圖像領(lǐng)域的舒適區(qū)」,成為通用智能的新基底。在自回歸模型主導(dǎo) AI 敘事數(shù)年的當(dāng)下,這種技術(shù)范式的更迭并非輕易之舉,它意味著思路的反轉(zhuǎn)、范式的顛覆,也意味著更大的挑戰(zhàn)與更遠(yuǎn)的可能。
LLaDA 系列模型、MMaDA 和即將問世的 Gemini Diffusion 是這一技術(shù)路徑從可能性走向現(xiàn)實(shí)性的關(guān)鍵一躍。它們不僅驗(yàn)證了掩碼式擴(kuò)散機(jī)制在語言和多模態(tài)任務(wù)上的有效性,也為整個(gè) AI 社區(qū)提供了更加多元和可擴(kuò)展的研究方向。我們看到,越來越多的團(tuán)隊(duì)開始圍繞 dLLM 與 dMLLM 展開嘗試,構(gòu)建起一個(gè)不斷擴(kuò)展的模型生態(tài)。事實(shí)上,甚至已經(jīng)有研究團(tuán)隊(duì)嘗試將量子計(jì)算與擴(kuò)散語言模型進(jìn)行整合并開發(fā)出了所謂的 Quantum-Diffusion LLM(qdLLM)。這種擴(kuò)散模型的擴(kuò)散,似乎本身就預(yù)示著某種更具生命力的未來。
我們始終相信,AI 的發(fā)展從來不是一條直線。范式的演進(jìn),是一次次對(duì)既有認(rèn)知的突破。在擴(kuò)散的光譜中,或許我們尚未抵達(dá)最終形態(tài),但每一次掩碼與解碼之間的跳躍,都是通往通用智能世界的回聲。
未來已在擴(kuò)散中生成,下一代智能的曙光,也許正藏在每一個(gè)逐步去噪的片段里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.