99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

2025年黑馬:擴散語言模型(DLM)?跟傳統大語言模型相比有什么優勢?

0
分享至

本文參考LLaDA:Large Language Diffusion Models

這個圖可以很輕松的讓沒有任何基礎的人看懂DLM的工作原理,它會根據問題直接生成一個回答草稿,然后一次次的修改和潤色草稿,最終輸出回答。

Prompt:Explain what artificial intelligence is.


來源:https://ml-gsai.github.io/LLaDA-demo/

而傳統的大模型是一個字一個字的吐,比如我問DeepSeek,跟上面同樣的問題,它的回答模式就是線性的,下一個字的輸出取決于前面的內容,跟后面的內容沒有關系。

這個就是現在最為主流的大模型生成原理,autoregressive modeling (ARM),它的核心公式就是下面,就是根據前面的所有內容預測下個字。


我在介紹ChatGPT原理的時候提到過(從deepseek書里面找)。

而DLM(Diffusion Large language model)走的是非常不一樣,但是又比較符合人類直覺的路子。

就比如說高考作文題要求寫一篇不少于800字的議論文,“AI的出現給人類帶來了什么改變?”

傳統的LLM會一個字一個字的往外蹦,也就是線性生成過程。

就比如這個生成了一句話。


下一時刻它生成的就只有一個字,不多不少,就只多一個字。


你可以觀察任何一個傳統的大模型,DeepSeek,ChatGPT,Qwen,Gemini等等,都是這樣的,跳不出這個邏輯,因為它的底層設計就是一個字一個字的往外吐。


而DLM則是完全不同的邏輯,它是直接生成一篇800字的“文章”,為什么要加引號,是因為這個最初生成的“文章”很有可能狗屁不通,壓根不能算做文章。

但是它快呀,你別管它能不能讀,反正快是肯定的。

并且它有獨特的更新機制,就像下面的這張圖,它會一輪輪的迭代更新自己的內容,你看當前時刻可能只確定了一部分的詞匯(紅色),但是在下一時刻,可能就有更多的內容被確定了出來(綠色)。


多輪迭代之后,就可以實驗整體性的優化,最后實現跟傳統大模型類似的結果,你像這個領域的經典工作,LLaDA,在同等模型大小的前提下,在大多數的任務上表現并不比其他的模型差多少。


從結果為導向來看,這也是DLM為什么會吸引關注的主要原因,因為它真的快,傳統大模型生成速度再快,也得一個字一個字來。

有些工作雖然在做next two tokens(預測下兩個字符),甚至更多的字符,但是進展非常緩慢,并且從直覺來看,DLM明顯要比傳統大模型更具備可擴展性。

就跟我們寫作文的時候,很少時候是一個字一個字的往出蹦想法,而是總體上有個考量,然后甚至會在幾個部分想幾個金句出來,只不過在最后執行的時候是一個字一個字的寫。

油畫的創作過程就比較類似,先來一個非常粗略的草稿,然后一層層的上顏色,一次次的涂個幾層幾十層都不是什么稀罕事。

其實這個正好暗合了DLM中D這個字母所代表的技術,也就是Diffusion,這個技術原本是應用在圖像生成(Image generation)上面的,可以說現在絕大多數的圖像以及視頻生成都是基于這個技術,比如OpenAI的Sora,阿里的Wan通義萬相等。

簡單來說,就是生成一堆亂七八糟的噪音,然后讓AI學習怎么從噪音轉換到想要的圖片或者視頻。


DLM只不過是把脫胎于圖像生成的技術應用到了文字生成,所以這也是很多技術到了最后都會兼容的主要原因,單一技術總會存在這樣那樣的限制,而取眾家之長則是必然要走的路。

DLM的核心技術技術其實原理上很直觀,不同于LLM的next token prediction,它做的是mask predictor。


Next token prediction我們之前講過了,那就是根據現有的句子,預測下一個詞,

Mask predictor類似,就是隨機的把一段話的部分內容“掩蓋”住,這就是Mask的來源,被蓋住的內容就叫掩碼(masked token)。

比如說在最開始訓練的時候,我們提供了一個數據,下面這個基本上大家都知道。


如果是LLM學習的話,它在知道“世上無”這三個字之后,基本上可以穩定輸出后面的所有內容,它是線性的。

而DLM不太一樣,它會隨機“掩蓋”幾個字,就比如說這樣的,然后讓大模型去學習怎么去填空。


它可能會這么填,也可能有其他的填法。


但是在一輪輪的訓練,迭代,它也能學會這種填空的方法。

正好契合了LLaDA的流程,總體上就是隨機掩蓋一部分字符,然后去預測這些內容。


最后達到極致,就是直接輸出要求的所有內容,只不過是以隨機的字符輸出,然后在一輪輪的迭代下,生成最終需要的文章。

這篇文章的這個例子很直觀,用戶了提問了一個簡單的數學題:

Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?

LLaDA在生成回答的時候,顏色深的部分是后面確定的,顏色淺的部分時早些時候確定的。

可以看到非關鍵信息比如人名Lily,量詞hours,很早就確定了下來。而比較關鍵的數字,特別是4這個數字,以及涉及到運算和邏輯的部分,都是在后面確定的。


也可以從這個案例中看到,DLM在生成內容的時候,在遵循一定的主次關系。

還有更多的案例,可以在論文的附錄appendix里找到。


總的來說,這是一項非常有前景的技術,只不過相比起只預測下一個字符來說,技術難度要更高一些;但從長遠來說,潛力不小,特別是Google也在下場做這件事。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河北一新郎接親,被堵在門外,淡定的看女方家屬鬧,直言不著急

河北一新郎接親,被堵在門外,淡定的看女方家屬鬧,直言不著急

觀察鑒娛
2025-06-23 10:14:12
裝都不裝了?染發,臟話,臭臉,何炅10年前對她的評價一一應驗

裝都不裝了?染發,臟話,臭臉,何炅10年前對她的評價一一應驗

大笑江湖史
2025-06-12 23:00:30
王室不敢給凱特王妃制造意外,當初戴安娜出車禍,王室差點被推翻

王室不敢給凱特王妃制造意外,當初戴安娜出車禍,王室差點被推翻

小嵩
2025-06-23 09:13:52
中美博弈進入深水區,中國不動聲色地抽走籌碼,連拋百億美債

中美博弈進入深水區,中國不動聲色地抽走籌碼,連拋百億美債

閆樹軍論評
2025-06-23 09:42:35
第21波來了,4輪齊射連中7枚,福爾多再被炸,內塔:“哭墻”祈禱

第21波來了,4輪齊射連中7枚,福爾多再被炸,內塔:“哭墻”祈禱

史行途
2025-06-23 17:59:16
獎金+奢侈稅分紅2390萬美金!雷霆奪冠大賺,太陽繳稅1.52億最慘

獎金+奢侈稅分紅2390萬美金!雷霆奪冠大賺,太陽繳稅1.52億最慘

李喜林籃球絕殺
2025-06-23 14:57:29
440架俄軍機直撲基輔,澤連斯基求援無門,普京拿下烏8州倒計時?

440架俄軍機直撲基輔,澤連斯基求援無門,普京拿下烏8州倒計時?

陳博世財經
2025-06-23 14:43:19
相貌平平,卻總演央視大劇,還能搭檔李幼斌,馬藜到底什么來頭?

相貌平平,卻總演央視大劇,還能搭檔李幼斌,馬藜到底什么來頭?

塞外書語
2025-06-05 11:31:30
一些自媒體賬號被禁,曾稱西方現代科學抄襲自《永樂大典》

一些自媒體賬號被禁,曾稱西方現代科學抄襲自《永樂大典》

長平投研
2025-06-23 08:05:10
廣西一女子約閨蜜家中做客,不料引狼入室,洗澡時丈夫趁機出軌

廣西一女子約閨蜜家中做客,不料引狼入室,洗澡時丈夫趁機出軌

一個人講故事
2024-08-03 21:04:20
美媒爆:美軍襲擊伊朗核設施前,伊朗曾向美透風,若遭襲將啟動美境內“潛伏分子”發動襲擊

美媒爆:美軍襲擊伊朗核設施前,伊朗曾向美透風,若遭襲將啟動美境內“潛伏分子”發動襲擊

環球網資訊
2025-06-23 08:46:35
馬克龍的46歲醫生弟弟罕見露面,哥倆長得像,卻很“疏遠”

馬克龍的46歲醫生弟弟罕見露面,哥倆長得像,卻很“疏遠”

譯言
2025-06-23 09:58:30
小伙90萬彩禮娶老婆不讓碰還跑了,全網維權曝女生照片這長相真的值嗎…

小伙90萬彩禮娶老婆不讓碰還跑了,全網維權曝女生照片這長相真的值嗎…

浪花媽媽
2025-06-22 23:52:48
莆田“百萬新娘”騙婚后續:錢可能要不回來,女方是二婚,沒領證

莆田“百萬新娘”騙婚后續:錢可能要不回來,女方是二婚,沒領證

娜烏和西卡
2025-06-23 18:14:47
國有銀行薪酬改革,覆蓋面將擴大!

國有銀行薪酬改革,覆蓋面將擴大!

挖掘機007
2025-06-23 13:53:51
七月財運大爆發!這三個生肖將徹底翻身,恭喜發財!

七月財運大爆發!這三個生肖將徹底翻身,恭喜發財!

毅談生肖
2025-06-23 13:46:23
“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

“事出反常必有妖”:竟然有高手總結了中國的現狀,絕了!

詩詞中國
2025-06-22 14:46:30
上海目前存在的最大的問題在哪里?

上海目前存在的最大的問題在哪里?

叮當當科技
2025-06-23 13:29:09
馬景濤暈倒后首現身,說話有氣無力眼神失焦前妻曝其為新女友累倒

馬景濤暈倒后首現身,說話有氣無力眼神失焦前妻曝其為新女友累倒

深析古今
2025-06-23 15:18:24
克拉拉真空西服長裙,散發一種精致的韓系財閥美人特有的味道

克拉拉真空西服長裙,散發一種精致的韓系財閥美人特有的味道

吃瓜黨二號頭目
2025-06-17 10:04:22
2025-06-23 23:20:49
平凡AI incentive-icons
平凡AI
高校AI從業者
26文章數 23關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

以伊沖突升級,對經濟和股市影響有多大?

汽車要聞

真香價格+質保承諾 別克E5很難讓人拒絕了

態度原創

時尚
本地
健康
公開課
軍事航空

50+姐姐的穿搭小心機:不裝嫩不扮老,這樣穿才顯貴又舒服

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:即便核設施被毀 游戲也遠未結束

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 枝江市| 恩平市| 冷水江市| 重庆市| 肥西县| 石泉县| 和平县| 安宁市| 昭平县| 碌曲县| 辉南县| 珠海市| 敦煌市| 玉门市| 井研县| 米林县| 长岭县| 贺兰县| 潜江市| 封开县| 东兴市| 海阳市| 六安市| 浙江省| 共和县| 方城县| 德昌县| 钟祥市| 南皮县| 金塔县| 盐山县| 吉安市| 铜鼓县| 巴里| 福贡县| 昂仁县| 遂宁市| 房山区| 开原市| 澄迈县| 宁安市|