99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

與Gemini Diffusion共振!首個擴散式「發散思維鏈」來了

文俊輝Gemini

0
分享至



近年來,思維鏈在大模型訓練和推理中愈發重要。近日,西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式「發散思維鏈」—— 一種面向擴散語言模型的新型大模型推理范式。該方法將反向擴散過程中的每一步中間結果都看作大模型的一個「思考」步驟,然后利用基于結果的強化學習去優化整個生成軌跡,最大化模型最終答案的正確率。不同于始終單向推理、線性生成的傳統思維鏈(CoT),擴散式「發散思維鏈」允許模型以任意順序非線性生成,且在生成過程中無需嚴格遵從語法結構和可讀性要求,能夠鼓勵模型以更加發散、創造性的方法開展推理。

擴散式「發散思維鏈」目前已成功應用于兩種具有代表性的擴散語言模型中。在連續時間擴散語言模型中,該方法可以直接優化由模型輸出的得分函數所確定的策略分布;而在離散時間擴散語言模型中,團隊將預測不同掩碼 Token 的順序當作模型決策的一部分,并基于 Plackett-Luce 模型設計去掩碼策略。據此,團隊成功訓練有序掩碼生成擴散語言模型(LargeLanguageDiffusion withOrderedUnmasking,LLaDOU)。實驗表明,僅用公開數據集和 16 張 H800,經擴散式「發散思維鏈」增強后的模型即可在數學推理和代碼生成任務上超越現有擴散語言模型。

擴散式「發散思維鏈」對基礎大模型的訓練與推理給出了重要啟示:傳統的自回歸思維鏈語言模型通過線性預測下一個 token 生成答案并非唯一的選擇范式。團隊的研究揭示了通過優化 token 生成的順序進行非線性語言生成是發散式思維的重要特點,對于在生成過程中逐步構建從早期概念要素的形成、到最終連接成具有完整想法和語法結構的回答起到了關鍵作用。

相關研究成果已于 5 月 15 日公開。團隊注意在此后谷歌發布了 Gemini Diffusion 語言模型,因而期待強化「發散思維鏈」可以應用到更多的擴散語言模型上成為標準訓練過程的一部分。



  • 論文標題:Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
  • arXiv 地址:https://arxiv.org/abs/2505.10446
  • GitHub 地址:https://github.com/maple-research-lab/LLaDOU

背景

近期,大型語言模型的推理能力引發了學術界的高度關注。一般而言,「推理」通常是指模型在生成最終應答前所經歷的系統性思考過程。當前主流的大型語言模型普遍采用分步拆解問題的方法,構建一種具有因果順序的線性思維鏈條,形成所謂的「思維鏈」推理范式。

值得注意的是,人類認知過程中的思維構建機制與此存在本質差異。在構思階段,人類思維往往呈現非線性的發散特征,能夠突破既有語言框架的約束,通過非線性、跳躍性的方式自發生成概念原型、詞匯單元及初始設想。隨著認知加工的持續深化,這些離散的思維片段經歷系統性整合與結構化重組,最終形成邏輯連貫的完整表達體系。認知科學領域將此類思維模式定義為「發散思維」(Lateral Thinking),顯著區別于傳統思維鏈所采用的線性推理模式。

為模擬這一思考過程,西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式 「發散思維鏈」這一概念。如圖所示,模型的思考過程從一段不包含任何信息的掩碼序列開始,在思考過程中,模型會逐步生成推理所需要的關鍵信息,將掩碼轉換為具有實際語義內涵的文字內容,如數字和計算過程。最終,在整個擴散去噪流程結束后,模型將生成具有連貫語義內涵且包含正確答案的文字回復。通過僅基于結果的強化學習訓練,團隊鼓勵模型探索多樣化的、創造性的和非線性的思維路徑,最終得出正確的答案。



擴散式「發散思維鏈」





在這一過程中,為了得到最終的輸出 x_N,模型天然需要生成一系列中間結果 x_1:N-1。這一過程與「思維鏈」(Chain-of-Thought, CoT)技術相似。然而,與 CoT 采用線性因果推理不同,擴散過程中的模型能夠在思考過程中自由地生成任何有助于達到正確答案的中間內容,更符合發散思維的概念 —— 即通過間接、具有探索性的方法解決問題。正因如此,團隊將由去噪過程中所有的中間結果組成的序列稱為擴散式「發散思維鏈」(Diffusion Chain of Lateral Thoughts, DCoLT),并通過強化學習算法優化模型的這些中間擴散「推理」過程



在下圖中,團隊以 GRPO 為例詳細闡述了算法訓練框架。類似地,其他強化學習算法也可應用于所提出的框架中。



連續時間擴散語言模型:DCoLT 強化的 SEDD

首先團隊考慮以 SEDD 為代表的連續時間擴散語言模型。這類模型通過如下線性常微分方程描述該演化過程。









擴展到整個序列時,其轉移概率可以看作所有 token 轉移概率的累乘,即可通過以下公式計算 DCoLT 生成過程中每一步動作對應的采樣概率。



離散時間擴散語言模型:DCoLT 強化的 LLaDA

一些擴散語言模型直接在離散的時間步上執行多步生成過程。對于這些模型,需要為每個離散步驟定義其輸出策略分布。在這其中,考慮最為常見的掩碼擴散語言模型。

以 LLaDA 模型為例:生成過程從一個完全掩碼序列開始,逐步去除掩碼直至生成最終文本。在每個生成步驟中,模型接收一個帶有掩碼的序列作為輸入,將其中部分掩碼預測為有實際含義的文本內容。在整個生成過程進行時,掩碼的數量會逐漸減少,直到模型最終輸出完整的生成序列。



具體而言,團隊首先根據預測的得分構建一個多項分布,隨后以無放回的方式依次采樣出 K 個掩碼 token,這樣,得分較高的 token 有更大的可能性被首先取出,從而使序列中的掩碼得分值更傾向滿足非遞增排序關系,即:











從以上推導可以看出,某種意義上,LLaDOU 模型和基于 next token 預測的自回歸(auto-regressive) 語言模型并沒有本質區別。兩者都是在給定了 prompt 和 context 作為前綴后,去預測后續的 token。區別僅在于,自回歸模型要求預測的是緊鄰的下一個 token;而 LLaDOU 模型允許通過一個 UPM 模塊,從所有可能的后續位置,選擇一個或多個 token 進行預測。后者相對于前者更加靈活,可以根據當前生成的結果,打破語言自左到右的自然順序,在中間步驟,跳躍式地選擇合適的 token 進行生成。當然,最終生成的完整結果,仍然滿足各種語言語法結構的要求。

在同一時期,業界也推出了一些其他面向 diffusion model 的強化訓練方法,如 d1 和 MMaDA。這些方法首先采樣得到生成結果以及對應的獎勵值,然后對生成結果或問題部分再次進行隨機掩碼處理,以估算每個 token 的生成概率,用于強化訓練。這種情況下,實際采樣生成的中間過程和計算概率時的再掩碼過程并不一致,可能導致所強化的再掩碼采樣過程并不是模型真正的采樣過程。不同于這些方法,團隊直接基于采樣過程中每一步所選中的 unmask token 計算概率,據此進行強化訓練,保持訓練和采樣過程一致。同時,更重要的是,團隊注意到每步如何選擇要 unmask 的 token 也是擴散語言模型采樣的關鍵步驟?;诖耍痉椒▽?strong>unmask token 生成的順序也作為強化學習所優化策略的一部分,進一步提升擴散語言模型采樣的性能。

實驗結果

團隊基于兩個具有代表性的擴散語言模型 ——SEDD 和 LLaDA 開展實驗進行驗證。

首先,團隊基于 SEDD 模型,在數獨解題和數學推理兩個任務上與其他方法展開了公平對比。DCoLT 取得了比 CoT 和 DoT 更好的實驗結果。比如在 GSM8K-Aug 數據集上,同樣是使用 SEDD 模型,DCoLT 取得了 57.0% 準確率,超越了 DoT,即使后者使用的訓練數據中帶有逐步驟的詳細 CoT 標注。



而后,團隊在 LLaDA 8B 權重的基礎上訓練 LLaDOU 模型,充分驗證了這一思考技術在數學推理和代碼生成任務上的能力。結果顯示,該技術顯著提升了模型對復雜數學邏輯問題的推理準確率,和生成代碼的測試通過率。在相關的評測基準上,LLaDOU 超越了其他擴散語言模型,取得了最好的性能。



在下圖中,團隊用不同顏色展示了同一回答中不同 token 的先后生成順序 —— 越淺的顏色代表 token 在更早的步數生成??梢钥闯?,整個推理過程傾向于首先生成關鍵數字和計算符號,然后填充其他相關的文本內容,逐漸滿足語法約束。



在這里,團隊也以視頻形式展示了 LLaDOU 在解決數學問題的完整生成過程。

總結

這篇文章介紹了由西湖大學 MAPLE 實驗室提出的一種全新的大模型推理范式,擴散式「發散思維鏈」。該框架將反向擴散過程中的中間結果看作模型的推理過程,并將模型最終輸出結果的正確性作為獎勵開展強化學習訓練,大幅提升了大模型的推理能力,在數學推理、代碼生成等任務上取得了超越其他擴散語言模型的性能。擴散式「發散思維鏈」這一理論打破了大模型推理過程的固有范式,為復雜推理問題提供了創新性的方法解決方案,值得我們進一步挖掘。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
比亞迪回應山東經銷商爆雷:該經銷商盲目擴張并加杠桿運營,在對其進行紓困

比亞迪回應山東經銷商爆雷:該經銷商盲目擴張并加杠桿運營,在對其進行紓困

澎湃新聞
2025-05-28 13:18:26
公安部的禁酒令及宴請規定:公職人員下班聚餐和飲酒也算違規?

公安部的禁酒令及宴請規定:公職人員下班聚餐和飲酒也算違規?

二月侃事
2025-05-28 08:18:10
黃楊鈿甜媽媽非法移民、判決書被扒,舅舅坐牢,奶奶才是最大BOSS

黃楊鈿甜媽媽非法移民、判決書被扒,舅舅坐牢,奶奶才是最大BOSS

葡萄說娛
2025-05-28 09:55:20
網友自曝女友是他人女奴,交往一年的性愛短片,全都發給主人看

網友自曝女友是他人女奴,交往一年的性愛短片,全都發給主人看

社會醬
2025-05-28 18:04:31
美國費盡心思研究咋攔截東風26,結果一則噩耗傳來:三年努力白費

美國費盡心思研究咋攔截東風26,結果一則噩耗傳來:三年努力白費

第一軍情
2025-05-28 17:50:38
中國教育怎么了?孩子們沒空上廁所不敢喝水,都集體便秘拉不出屎來了!

中國教育怎么了?孩子們沒空上廁所不敢喝水,都集體便秘拉不出屎來了!

互聯網大觀
2025-05-28 17:53:58
往事悠悠:上海馮容士老師尋找當年送往百草溝插隊落戶的八名學生

往事悠悠:上海馮容士老師尋找當年送往百草溝插隊落戶的八名學生

草根情感故事茶社
2025-05-27 10:06:28
兩條吃相難看的新聞,再一次擊穿底線

兩條吃相難看的新聞,再一次擊穿底線

末名先生
2025-05-28 14:52:12
卡車夫妻真實生活自述:一天24小時都在車上,特別是晚上最為難熬

卡車夫妻真實生活自述:一天24小時都在車上,特別是晚上最為難熬

濤哥講堂
2025-05-24 09:35:10
87歲凝聚態物理學家孫鑫逝世,復旦物理學系官網變為黑白色

87歲凝聚態物理學家孫鑫逝世,復旦物理學系官網變為黑白色

澎湃新聞
2025-05-28 17:02:28
楊穎被經紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

楊穎被經紀人當街訓罵照曝光!自費租房面試找工作,吃地攤無人識

史書無明
2025-05-28 21:51:52
電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區炸裂

電影看多了?女子騎共享單車,被人坐墊下放情趣用品,評論區炸裂

派大星紀錄片
2025-05-28 17:00:51
“零公里二手車”在醞釀危險風暴

“零公里二手車”在醞釀危險風暴

今綸財經
2025-05-28 19:22:55
淚目!漓江文學獎獲得者劉楚昕追憶已故女友

淚目!漓江文學獎獲得者劉楚昕追憶已故女友

深圳晚報
2025-05-28 15:51:37
25屆高考生要哭了,今年高考將迎來3個壞消息!家長考生提前了解

25屆高考生要哭了,今年高考將迎來3個壞消息!家長考生提前了解

侃故事的阿慶
2025-05-28 02:13:14
剛剛,國乒突遭意外!王勵勤上任又把事辦砸了,這回損失可不小

剛剛,國乒突遭意外!王勵勤上任又把事辦砸了,這回損失可不小

十點體壇
2025-05-28 13:02:56
43歲上海男子失業后逆襲,開辟新賽道,收入是當外企高管時兩三倍

43歲上海男子失業后逆襲,開辟新賽道,收入是當外企高管時兩三倍

上觀新聞
2025-05-28 22:14:00
《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

叨嘮
2025-05-28 19:42:24
正廳級畢榮青 任上被查

正廳級畢榮青 任上被查

大象新聞
2025-05-28 18:46:25
罕見!馬斯克公開與特朗普唱反調

罕見!馬斯克公開與特朗普唱反調

環球時報國際
2025-05-29 00:07:28
2025-05-29 06:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10547文章數 142325關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

家居
藝術
健康
親子
軍事航空

家居要聞

開闊實用 技術控的大平層

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

親子要聞

動手又動腦的#磁力幾何拼圖,可以鍛煉寶寶邏輯思維能力和空間想象力,提升專注力,孩子越玩越聰明#益智玩...

軍事要聞

俄烏均稱遭對方大規模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乌苏市| 安康市| 乌苏市| 周宁县| 成都市| 西充县| 潮州市| 大关县| 磴口县| 宁安市| 济南市| 萍乡市| 饶河县| 东乌珠穆沁旗| 定州市| 北辰区| 汽车| 离岛区| 米脂县| 白银市| 搜索| 科技| 杂多县| 岳阳县| 邛崃市| 吴江市| 玉田县| 阿瓦提县| 德钦县| 东方市| 赣州市| 喀喇沁旗| 会东县| 洛阳市| 涿州市| 南阳市| 克什克腾旗| 洱源县| 青岛市| 惠水县| 虹口区|