本文參考LLaDA:Large Language Diffusion Models
這個圖可以很輕松的讓沒有任何基礎的人看懂DLM的工作原理,它會根據問題直接生成一個回答草稿,然后一次次的修改和潤色草稿,最終輸出回答。
Prompt:Explain what artificial intelligence is.
來源:https://ml-gsai.github.io/LLaDA-demo/
而傳統的大模型是一個字一個字的吐,比如我問DeepSeek,跟上面同樣的問題,它的回答模式就是線性的,下一個字的輸出取決于前面的內容,跟后面的內容沒有關系。
這個就是現在最為主流的大模型生成原理,autoregressive modeling (ARM),它的核心公式就是下面,就是根據前面的所有內容預測下個字。
我在介紹ChatGPT原理的時候提到過(從deepseek書里面找)。
而DLM(Diffusion Large language model)走的是非常不一樣,但是又比較符合人類直覺的路子。
就比如說高考作文題要求寫一篇不少于800字的議論文,“AI的出現給人類帶來了什么改變?”
傳統的LLM會一個字一個字的往外蹦,也就是線性生成過程。
就比如這個生成了一句話。
下一時刻它生成的就只有一個字,不多不少,就只多一個字。
你可以觀察任何一個傳統的大模型,DeepSeek,ChatGPT,Qwen,Gemini等等,都是這樣的,跳不出這個邏輯,因為它的底層設計就是一個字一個字的往外吐。
而DLM則是完全不同的邏輯,它是直接生成一篇800字的“文章”,為什么要加引號,是因為這個最初生成的“文章”很有可能狗屁不通,壓根不能算做文章。
但是它快呀,你別管它能不能讀,反正快是肯定的。
并且它有獨特的更新機制,就像下面的這張圖,它會一輪輪的迭代更新自己的內容,你看當前時刻可能只確定了一部分的詞匯(紅色),但是在下一時刻,可能就有更多的內容被確定了出來(綠色)。
多輪迭代之后,就可以實驗整體性的優化,最后實現跟傳統大模型類似的結果,你像這個領域的經典工作,LLaDA,在同等模型大小的前提下,在大多數的任務上表現并不比其他的模型差多少。
從結果為導向來看,這也是DLM為什么會吸引關注的主要原因,因為它真的快,傳統大模型生成速度再快,也得一個字一個字來。
有些工作雖然在做next two tokens(預測下兩個字符),甚至更多的字符,但是進展非常緩慢,并且從直覺來看,DLM明顯要比傳統大模型更具備可擴展性。
就跟我們寫作文的時候,很少時候是一個字一個字的往出蹦想法,而是總體上有個考量,然后甚至會在幾個部分想幾個金句出來,只不過在最后執行的時候是一個字一個字的寫。
油畫的創作過程就比較類似,先來一個非常粗略的草稿,然后一層層的上顏色,一次次的涂個幾層幾十層都不是什么稀罕事。
其實這個正好暗合了DLM中D這個字母所代表的技術,也就是Diffusion,這個技術原本是應用在圖像生成(Image generation)上面的,可以說現在絕大多數的圖像以及視頻生成都是基于這個技術,比如OpenAI的Sora,阿里的Wan通義萬相等。
簡單來說,就是生成一堆亂七八糟的噪音,然后讓AI學習怎么從噪音轉換到想要的圖片或者視頻。
DLM只不過是把脫胎于圖像生成的技術應用到了文字生成,所以這也是很多技術到了最后都會兼容的主要原因,單一技術總會存在這樣那樣的限制,而取眾家之長則是必然要走的路。
DLM的核心技術技術其實原理上很直觀,不同于LLM的next token prediction,它做的是mask predictor。
Next token prediction我們之前講過了,那就是根據現有的句子,預測下一個詞,
Mask predictor類似,就是隨機的把一段話的部分內容“掩蓋”住,這就是Mask的來源,被蓋住的內容就叫掩碼(masked token)。
比如說在最開始訓練的時候,我們提供了一個數據,下面這個基本上大家都知道。
如果是LLM學習的話,它在知道“世上無”這三個字之后,基本上可以穩定輸出后面的所有內容,它是線性的。
而DLM不太一樣,它會隨機“掩蓋”幾個字,就比如說這樣的,然后讓大模型去學習怎么去填空。
它可能會這么填,也可能有其他的填法。
但是在一輪輪的訓練,迭代,它也能學會這種填空的方法。
正好契合了LLaDA的流程,總體上就是隨機掩蓋一部分字符,然后去預測這些內容。
最后達到極致,就是直接輸出要求的所有內容,只不過是以隨機的字符輸出,然后在一輪輪的迭代下,生成最終需要的文章。
這篇文章的這個例子很直觀,用戶了提問了一個簡單的數學題:
Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?
LLaDA在生成回答的時候,顏色深的部分是后面確定的,顏色淺的部分時早些時候確定的。
可以看到非關鍵信息比如人名Lily,量詞hours,很早就確定了下來。而比較關鍵的數字,特別是4這個數字,以及涉及到運算和邏輯的部分,都是在后面確定的。
也可以從這個案例中看到,DLM在生成內容的時候,在遵循一定的主次關系。
還有更多的案例,可以在論文的附錄appendix里找到。
總的來說,這是一項非常有前景的技術,只不過相比起只預測下一個字符來說,技術難度要更高一些;但從長遠來說,潛力不小,特別是Google也在下場做這件事。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.