99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

2025年黑馬：擴散語言模型(DLM)？跟傳統大語言模型相比有什么優勢？

2025-05-29 18:54:35　來源: 平凡AI

海外舉報

0

分享至

本文參考LLaDA：Large Language Diffusion Models

這個圖可以很輕松的讓沒有任何基礎的人看懂DLM的工作原理，它會根據問題直接生成一個回答草稿，然后一次次的修改和潤色草稿，最終輸出回答。

Prompt：Explain what artificial intelligence is.

來源：https://ml-gsai.github.io/LLaDA-demo/

而傳統的大模型是一個字一個字的吐，比如我問DeepSeek，跟上面同樣的問題，它的回答模式就是線性的，下一個字的輸出取決于前面的內容，跟后面的內容沒有關系。

這個就是現在最為主流的大模型生成原理，autoregressive modeling (ARM)，它的核心公式就是下面，就是根據前面的所有內容預測下個字。

我在介紹ChatGPT原理的時候提到過（從deepseek書里面找）。

而DLM（Diffusion Large language model）走的是非常不一樣，但是又比較符合人類直覺的路子。

就比如說高考作文題要求寫一篇不少于800字的議論文，“AI的出現給人類帶來了什么改變？”

傳統的LLM會一個字一個字的往外蹦，也就是線性生成過程。

就比如這個生成了一句話。

下一時刻它生成的就只有一個字，不多不少，就只多一個字。

你可以觀察任何一個傳統的大模型，DeepSeek，ChatGPT，Qwen，Gemini等等，都是這樣的，跳不出這個邏輯，因為它的底層設計就是一個字一個字的往外吐。

而DLM則是完全不同的邏輯，它是直接生成一篇800字的“文章”，為什么要加引號，是因為這個最初生成的“文章”很有可能狗屁不通，壓根不能算做文章。

但是它快呀，你別管它能不能讀，反正快是肯定的。

并且它有獨特的更新機制，就像下面的這張圖，它會一輪輪的迭代更新自己的內容，你看當前時刻可能只確定了一部分的詞匯（紅色），但是在下一時刻，可能就有更多的內容被確定了出來（綠色）。

多輪迭代之后，就可以實驗整體性的優化，最后實現跟傳統大模型類似的結果，你像這個領域的經典工作，LLaDA，在同等模型大小的前提下，在大多數的任務上表現并不比其他的模型差多少。

從結果為導向來看，這也是DLM為什么會吸引關注的主要原因，因為它真的快，傳統大模型生成速度再快，也得一個字一個字來。

有些工作雖然在做next two tokens（預測下兩個字符），甚至更多的字符，但是進展非常緩慢，并且從直覺來看，DLM明顯要比傳統大模型更具備可擴展性。

就跟我們寫作文的時候，很少時候是一個字一個字的往出蹦想法，而是總體上有個考量，然后甚至會在幾個部分想幾個金句出來，只不過在最后執行的時候是一個字一個字的寫。

油畫的創作過程就比較類似，先來一個非常粗略的草稿，然后一層層的上顏色，一次次的涂個幾層幾十層都不是什么稀罕事。

其實這個正好暗合了DLM中D這個字母所代表的技術，也就是Diffusion，這個技術原本是應用在圖像生成（Image generation）上面的，可以說現在絕大多數的圖像以及視頻生成都是基于這個技術，比如OpenAI的Sora，阿里的Wan通義萬相等。

簡單來說，就是生成一堆亂七八糟的噪音，然后讓AI學習怎么從噪音轉換到想要的圖片或者視頻。

DLM只不過是把脫胎于圖像生成的技術應用到了文字生成，所以這也是很多技術到了最后都會兼容的主要原因，單一技術總會存在這樣那樣的限制，而取眾家之長則是必然要走的路。

DLM的核心技術技術其實原理上很直觀，不同于LLM的next token prediction，它做的是mask predictor。

Next token prediction我們之前講過了，那就是根據現有的句子，預測下一個詞，

Mask predictor類似，就是隨機的把一段話的部分內容“掩蓋”住，這就是Mask的來源，被蓋住的內容就叫掩碼（masked token）。

比如說在最開始訓練的時候，我們提供了一個數據，下面這個基本上大家都知道。

如果是LLM學習的話，它在知道“世上無”這三個字之后，基本上可以穩定輸出后面的所有內容，它是線性的。

而DLM不太一樣，它會隨機“掩蓋”幾個字，就比如說這樣的，然后讓大模型去學習怎么去填空。

它可能會這么填，也可能有其他的填法。

但是在一輪輪的訓練，迭代，它也能學會這種填空的方法。

正好契合了LLaDA的流程，總體上就是隨機掩蓋一部分字符，然后去預測這些內容。

最后達到極致，就是直接輸出要求的所有內容，只不過是以隨機的字符輸出，然后在一輪輪的迭代下，生成最終需要的文章。

這篇文章的這個例子很直觀，用戶了提問了一個簡單的數學題：

Lily can run 12 kilometers per hour for 4 hours. After that, she runs 6 kilometers per hour. How many kilometers can she run in 8 hours?

LLaDA在生成回答的時候，顏色深的部分是后面確定的，顏色淺的部分時早些時候確定的。

可以看到非關鍵信息比如人名Lily，量詞hours，很早就確定了下來。而比較關鍵的數字，特別是4這個數字，以及涉及到運算和邏輯的部分，都是在后面確定的。

也可以從這個案例中看到，DLM在生成內容的時候，在遵循一定的主次關系。

還有更多的案例，可以在論文的附錄appendix里找到。

總的來說，這是一項非常有前景的技術，只不過相比起只預測下一個字符來說，技術難度要更高一些；但從長遠來說，潛力不小，特別是Google也在下場做這件事。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

28歲輟學生掌舵Meta超級AI！小扎擲千億，與奧特曼密謀，新「王」登頂

新智元 2025-06-23 16:49:53
0 跟貼 0
AI需要「像人類」那樣思考？AlphaOne揭示大模型的「思考之道」

機器之心Pro 2025-06-23 17:37:28
0 跟貼 0

全面評測圖像編輯模型推理能力：所有模型在程序性推理方面表現差

量子位 2025-06-13 14:20:11
0 跟貼 0

我在哪？要去哪？字節跳動Astra雙模型架構助力機器人自由導航

機器之心Pro 2025-06-23 17:44:23
0 跟貼 0
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0

技術產品“五連發” Minimax迎來“主場時刻”

每日經濟新聞 2025-06-23 19:48:12
0 跟貼 0

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
具身智能創業來了位浙大博導，機器人會飛，VC搶著投

量子位 2025-06-23 20:25:19
0 跟貼 0

生成式AI的“安全溢價”與生態競爭專訪亞馬遜云科技陳曉建：我們不打極致的“價格戰”

每日經濟新聞 2025-06-23 21:04:17
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0
腳氣反復出現，鉆心的癢！醫生：試試夏天去沙灘踩“熱”沙子！

BRTV新聞 2025-06-22 23:47:09
717 跟貼 717
高樓阻尼器實驗模擬，對比下來效果明顯，原來原理這么簡單！

搞笑海蠣子 2025-06-20 12:53:47
4 跟貼 4
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環球網資訊 2025-06-23 11:56:50
27359 跟貼 27359
這是什么原理呢

妖靈笑敘 2025-06-20 14:14:46
0 跟貼 0
當接過一個新業務/需求時，底層的思考框架都有什么

人人都是產品經理社區 2025-06-23 07:51:09
0 跟貼 0
重達三萬磅鉆地彈的工作原理：專為解決兩個國家的“深層”問題！

Nee看 2025-06-22 12:31:38
638 跟貼 638
螞蟻開源輕量級推理模型Ring-lite，多項Benchmark達到SOTA

量子位 2025-06-23 21:18:50
0 跟貼 0
原來關空調真的可以提速，這是什么原理？

四川強哥 2025-06-22 22:29:32
1 跟貼 1
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
253 跟貼 253
一直很好奇一件事，炸麻花出來就筆直，這是什么原理呢！

歡樂小丑君 2025-06-20 14:26:08
0 跟貼 0
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
盤點東北大娘的語言技術，這口才真的不得了

開心鴨 2025-06-22 16:54:29
0 跟貼 0
曾被化學托舉的少年，用“浪漫”打破化學的次元壁

顯微故事 2025-06-19 19:25:54
5 跟貼 5
洞洞鞋買大了可怎么辦，女子方法太有才，利用原理太管用！

搞笑海蠣子 2025-06-23 13:01:07
1 跟貼 1
哪吒汽車，正式被申請破產，網友辣評：早破產，早解脫

玩車專家1 2025-06-23 17:41:26
0 跟貼 0
【會診手冊3.0】52：周期更新流程（重復性）——流程

中國臨床營養網 2025-06-23 07:50:37
0 跟貼 0
免費報名啦！手慢無！

i金山 2025-06-20 06:07:27
0 跟貼 0
西亞卡姆：我們走對了路讓人們開始關注步行者球隊會繼續戰斗

直播吧 2025-06-23 21:16:16
1 跟貼 1
水平定向鉆機的工作原理

科普再出發 2025-06-22 14:57:08
1 跟貼 1
被美女坐到充電線，這是什么原理，怎么充上電的？

小火堆視頻 2025-06-19 10:40:32
1 跟貼 1
女性高潮產生的原理是什么？潮吹的原理又是什么？你遇到過嗎？

大蝦哥 2025-06-23 09:53:38
0 跟貼 0
越南視角的中越諒山戰役，描述的客觀且真實，越南官方數據存疑

芳華生輝 2025-06-21 17:00:00
0 跟貼 0
《漫威爭鋒》“燃”系列賽開戰，中國力量競逐超級英雄電競王座

NGA 2025-06-23 19:05:20
0 跟貼 0
真香價格+質保承諾別克E5很難讓人拒絕了

網易汽車 2025-06-23 17:29:20
1 跟貼 1
重磅發布會，明天上午10時舉行！

中國網 2025-06-23 13:39:24
12040 跟貼 12040
歐拉半年不到再換帥，呂文斌救火解局難

中車網評 2025-06-23 19:10:23
1 跟貼 1
全民世運睦鄰同燃 | 19強巡禮①——千禧河畔三俠、養生天團、雙冠王朝...快來Pick你的本命戰隊！

公平事 2025-06-23 22:36:08
0 跟貼 0
就因為姓“空”，他們生活中處處BUG！干啥都能讓電腦宕機，簡直電子柯南

英國那些事兒 2025-02-24 23:18:08
73 跟貼 73
為了讓用戶買到放心的增程車阿維塔07竟然這么虐！

車圈薛可奈 2025-06-22 01:32:37
6 跟貼 6

河北一新郎接親，被堵在門外，淡定的看女方家屬鬧，直言不著急

河北一新郎接親，被堵在門外，淡定的看女方家屬鬧，直言不著急

觀察鑒娛

2025-06-23 10:14:12

裝都不裝了？染發，臟話，臭臉，何炅10年前對她的評價一一應驗

裝都不裝了？染發，臟話，臭臉，何炅10年前對她的評價一一應驗

大笑江湖史

2025-06-12 23:00:30

王室不敢給凱特王妃制造意外，當初戴安娜出車禍，王室差點被推翻

王室不敢給凱特王妃制造意外，當初戴安娜出車禍，王室差點被推翻

小嵩

2025-06-23 09:13:52

中美博弈進入深水區，中國不動聲色地抽走籌碼，連拋百億美債

中美博弈進入深水區，中國不動聲色地抽走籌碼，連拋百億美債

閆樹軍論評

2025-06-23 09:42:35

第21波來了，4輪齊射連中7枚，福爾多再被炸，內塔：“哭墻”祈禱

第21波來了，4輪齊射連中7枚，福爾多再被炸，內塔：“哭墻”祈禱

史行途

2025-06-23 17:59:16

獎金+奢侈稅分紅2390萬美金！雷霆奪冠大賺，太陽繳稅1.52億最慘

獎金+奢侈稅分紅2390萬美金！雷霆奪冠大賺，太陽繳稅1.52億最慘

李喜林籃球絕殺

2025-06-23 14:57:29

440架俄軍機直撲基輔，澤連斯基求援無門，普京拿下烏8州倒計時？

440架俄軍機直撲基輔，澤連斯基求援無門，普京拿下烏8州倒計時？

陳博世財經

2025-06-23 14:43:19

相貌平平，卻總演央視大劇，還能搭檔李幼斌，馬藜到底什么來頭？

相貌平平，卻總演央視大劇，還能搭檔李幼斌，馬藜到底什么來頭？

塞外書語

2025-06-05 11:31:30

一些自媒體賬號被禁，曾稱西方現代科學抄襲自《永樂大典》

一些自媒體賬號被禁，曾稱西方現代科學抄襲自《永樂大典》

長平投研

2025-06-23 08:05:10

廣西一女子約閨蜜家中做客，不料引狼入室，洗澡時丈夫趁機出軌

廣西一女子約閨蜜家中做客，不料引狼入室，洗澡時丈夫趁機出軌

一個人講故事

2024-08-03 21:04:20

美媒爆：美軍襲擊伊朗核設施前，伊朗曾向美透風，若遭襲將啟動美境內“潛伏分子”發動襲擊

美媒爆：美軍襲擊伊朗核設施前，伊朗曾向美透風，若遭襲將啟動美境內“潛伏分子”發動襲擊

環球網資訊

2025-06-23 08:46:35

馬克龍的46歲醫生弟弟罕見露面，哥倆長得像，卻很“疏遠”

馬克龍的46歲醫生弟弟罕見露面，哥倆長得像，卻很“疏遠”

譯言

2025-06-23 09:58:30

小伙90萬彩禮娶老婆不讓碰還跑了，全網維權曝女生照片這長相真的值嗎…

小伙90萬彩禮娶老婆不讓碰還跑了，全網維權曝女生照片這長相真的值嗎…

浪花媽媽

2025-06-22 23:52:48

莆田“百萬新娘”騙婚后續：錢可能要不回來，女方是二婚，沒領證

莆田“百萬新娘”騙婚后續：錢可能要不回來，女方是二婚，沒領證

娜烏和西卡

2025-06-23 18:14:47

國有銀行薪酬改革，覆蓋面將擴大！

國有銀行薪酬改革，覆蓋面將擴大！

挖掘機007

2025-06-23 13:53:51

七月財運大爆發！這三個生肖將徹底翻身，恭喜發財！

七月財運大爆發！這三個生肖將徹底翻身，恭喜發財！

毅談生肖

2025-06-23 13:46:23

“事出反常必有妖”：竟然有高手總結了中國的現狀，絕了！

“事出反常必有妖”：竟然有高手總結了中國的現狀，絕了！

詩詞中國

2025-06-22 14:46:30

上海目前存在的最大的問題在哪里？

上海目前存在的最大的問題在哪里？

叮當當科技

2025-06-23 13:29:09

馬景濤暈倒后首現身，說話有氣無力眼神失焦前妻曝其為新女友累倒

馬景濤暈倒后首現身，說話有氣無力眼神失焦前妻曝其為新女友累倒

深析古今

2025-06-23 15:18:24

克拉拉真空西服長裙，散發一種精致的韓系財閥美人特有的味道

克拉拉真空西服長裙，散發一種精致的韓系財閥美人特有的味道

吃瓜黨二號頭目

2025-06-17 10:04:22

高校AI從業者

26文章數 23關注度

往期回顧全部

科技要聞

售出千萬臺！他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

頭條要聞

玉淵譚天：美軍轟炸伊朗的武器僅美國有但掏空了老本

體育要聞

比起雷霆三少，他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手！

財經要聞

以伊沖突升級，對經濟和股市影響有多大？

汽車要聞

真香價格+質保承諾別克E5很難讓人拒絕了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

健康

公開課

軍事航空

50+姐姐的穿搭小心機：不裝嫩不扮老，這樣穿才顯貴又舒服

本地新聞

被貴妃帶火的“唐代頂流”，如今怎么不火了

呼吸科專家破解呼吸道九大謠言！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

軍事要聞

伊朗：即便核設施被毀游戲也遠未結束

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：枝江市| 恩平市| 冷水江市| 重庆市| 肥西县| 石泉县| 和平县| 安宁市| 昭平县| 碌曲县| 辉南县| 珠海市| 敦煌市| 玉门市| 井研县| 米林县| 长岭县| 贺兰县| 潜江市| 封开县| 东兴市| 海阳市| 六安市| 浙江省| 共和县| 方城县| 德昌县| 钟祥市| 南皮县| 金塔县| 盐山县| 吉安市| 铜鼓县| 巴里| 福贡县| 昂仁县| 遂宁市| 房山区| 开原市| 澄迈县| 宁安市|