近年來,思維鏈在大模型訓練和推理中愈發重要。近日,西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式「發散思維鏈」—— 一種面向擴散語言模型的新型大模型推理范式。該方法將反向擴散過程中的每一步中間結果都看作大模型的一個「思考」步驟,然后利用基于結果的強化學習去優化整個生成軌跡,最大化模型最終答案的正確率。不同于始終單向推理、線性生成的傳統思維鏈(CoT),擴散式「發散思維鏈」允許模型以任意順序非線性生成,且在生成過程中無需嚴格遵從語法結構和可讀性要求,能夠鼓勵模型以更加發散、創造性的方法開展推理。
擴散式「發散思維鏈」目前已成功應用于兩種具有代表性的擴散語言模型中。在連續時間擴散語言模型中,該方法可以直接優化由模型輸出的得分函數所確定的策略分布;而在離散時間擴散語言模型中,團隊將預測不同掩碼 Token 的順序當作模型決策的一部分,并基于 Plackett-Luce 模型設計去掩碼策略。據此,團隊成功訓練有序掩碼生成擴散語言模型(LargeLanguageDiffusion withOrderedUnmasking,LLaDOU)。實驗表明,僅用公開數據集和 16 張 H800,經擴散式「發散思維鏈」增強后的模型即可在數學推理和代碼生成任務上超越現有擴散語言模型。
擴散式「發散思維鏈」對基礎大模型的訓練與推理給出了重要啟示:傳統的自回歸思維鏈語言模型通過線性預測下一個 token 生成答案并非唯一的選擇范式。團隊的研究揭示了通過優化 token 生成的順序進行非線性語言生成是發散式思維的重要特點,對于在生成過程中逐步構建從早期概念要素的形成、到最終連接成具有完整想法和語法結構的回答起到了關鍵作用。
相關研究成果已于 5 月 15 日公開。團隊注意在此后谷歌發布了 Gemini Diffusion 語言模型,因而期待強化「發散思維鏈」可以應用到更多的擴散語言模型上成為標準訓練過程的一部分。
- 論文標題:Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
- arXiv 地址:https://arxiv.org/abs/2505.10446
- GitHub 地址:https://github.com/maple-research-lab/LLaDOU
背景
近期,大型語言模型的推理能力引發了學術界的高度關注。一般而言,「推理」通常是指模型在生成最終應答前所經歷的系統性思考過程。當前主流的大型語言模型普遍采用分步拆解問題的方法,構建一種具有因果順序的線性思維鏈條,形成所謂的「思維鏈」推理范式。
值得注意的是,人類認知過程中的思維構建機制與此存在本質差異。在構思階段,人類思維往往呈現非線性的發散特征,能夠突破既有語言框架的約束,通過非線性、跳躍性的方式自發生成概念原型、詞匯單元及初始設想。隨著認知加工的持續深化,這些離散的思維片段經歷系統性整合與結構化重組,最終形成邏輯連貫的完整表達體系。認知科學領域將此類思維模式定義為「發散思維」(Lateral Thinking),顯著區別于傳統思維鏈所采用的線性推理模式。
為模擬這一思考過程,西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式 「發散思維鏈」這一概念。如圖所示,模型的思考過程從一段不包含任何信息的掩碼序列開始,在思考過程中,模型會逐步生成推理所需要的關鍵信息,將掩碼轉換為具有實際語義內涵的文字內容,如數字和計算過程。最終,在整個擴散去噪流程結束后,模型將生成具有連貫語義內涵且包含正確答案的文字回復。通過僅基于結果的強化學習訓練,團隊鼓勵模型探索多樣化的、創造性的和非線性的思維路徑,最終得出正確的答案。
擴散式「發散思維鏈」
在這一過程中,為了得到最終的輸出 x_N,模型天然需要生成一系列中間結果 x_1:N-1。這一過程與「思維鏈」(Chain-of-Thought, CoT)技術相似。然而,與 CoT 采用線性因果推理不同,擴散過程中的模型能夠在思考過程中自由地生成任何有助于達到正確答案的中間內容,更符合發散思維的概念 —— 即通過間接、具有探索性的方法解決問題。正因如此,團隊將由去噪過程中所有的中間結果組成的序列稱為擴散式「發散思維鏈」(Diffusion Chain of Lateral Thoughts, DCoLT),并通過強化學習算法優化模型的這些中間擴散「推理」過程
在下圖中,團隊以 GRPO 為例詳細闡述了算法訓練框架。類似地,其他強化學習算法也可應用于所提出的框架中。
連續時間擴散語言模型:DCoLT 強化的 SEDD
首先團隊考慮以 SEDD 為代表的連續時間擴散語言模型。這類模型通過如下線性常微分方程描述該演化過程。
擴展到整個序列時,其轉移概率可以看作所有 token 轉移概率的累乘,即可通過以下公式計算 DCoLT 生成過程中每一步動作對應的采樣概率。
離散時間擴散語言模型:DCoLT 強化的 LLaDA
一些擴散語言模型直接在離散的時間步上執行多步生成過程。對于這些模型,需要為每個離散步驟定義其輸出策略分布。在這其中,考慮最為常見的掩碼擴散語言模型。
以 LLaDA 模型為例:生成過程從一個完全掩碼序列開始,逐步去除掩碼直至生成最終文本。在每個生成步驟中,模型接收一個帶有掩碼的序列作為輸入,將其中部分掩碼預測為有實際含義的文本內容。在整個生成過程進行時,掩碼的數量會逐漸減少,直到模型最終輸出完整的生成序列。
具體而言,團隊首先根據預測的得分構建一個多項分布,隨后以無放回的方式依次采樣出 K 個掩碼 token,這樣,得分較高的 token 有更大的可能性被首先取出,從而使序列中的掩碼得分值更傾向滿足非遞增排序關系,即:
從以上推導可以看出,某種意義上,LLaDOU 模型和基于 next token 預測的自回歸(auto-regressive) 語言模型并沒有本質區別。兩者都是在給定了 prompt 和 context 作為前綴后,去預測后續的 token。區別僅在于,自回歸模型要求預測的是緊鄰的下一個 token;而 LLaDOU 模型允許通過一個 UPM 模塊,從所有可能的后續位置,選擇一個或多個 token 進行預測。后者相對于前者更加靈活,可以根據當前生成的結果,打破語言自左到右的自然順序,在中間步驟,跳躍式地選擇合適的 token 進行生成。當然,最終生成的完整結果,仍然滿足各種語言語法結構的要求。
在同一時期,業界也推出了一些其他面向 diffusion model 的強化訓練方法,如 d1 和 MMaDA。這些方法首先采樣得到生成結果以及對應的獎勵值,然后對生成結果或問題部分再次進行隨機掩碼處理,以估算每個 token 的生成概率,用于強化訓練。這種情況下,實際采樣生成的中間過程和計算概率時的再掩碼過程并不一致,可能導致所強化的再掩碼采樣過程并不是模型真正的采樣過程。不同于這些方法,團隊直接基于采樣過程中每一步所選中的 unmask token 計算概率,據此進行強化訓練,保持訓練和采樣過程一致。同時,更重要的是,團隊注意到每步如何選擇要 unmask 的 token 也是擴散語言模型采樣的關鍵步驟?;诖耍痉椒▽?strong>unmask token 生成的順序也作為強化學習所優化策略的一部分,進一步提升擴散語言模型采樣的性能。
實驗結果
團隊基于兩個具有代表性的擴散語言模型 ——SEDD 和 LLaDA 開展實驗進行驗證。
首先,團隊基于 SEDD 模型,在數獨解題和數學推理兩個任務上與其他方法展開了公平對比。DCoLT 取得了比 CoT 和 DoT 更好的實驗結果。比如在 GSM8K-Aug 數據集上,同樣是使用 SEDD 模型,DCoLT 取得了 57.0% 準確率,超越了 DoT,即使后者使用的訓練數據中帶有逐步驟的詳細 CoT 標注。
而后,團隊在 LLaDA 8B 權重的基礎上訓練 LLaDOU 模型,充分驗證了這一思考技術在數學推理和代碼生成任務上的能力。結果顯示,該技術顯著提升了模型對復雜數學邏輯問題的推理準確率,和生成代碼的測試通過率。在相關的評測基準上,LLaDOU 超越了其他擴散語言模型,取得了最好的性能。
在下圖中,團隊用不同顏色展示了同一回答中不同 token 的先后生成順序 —— 越淺的顏色代表 token 在更早的步數生成??梢钥闯?,整個推理過程傾向于首先生成關鍵數字和計算符號,然后填充其他相關的文本內容,逐漸滿足語法約束。
在這里,團隊也以視頻形式展示了 LLaDOU 在解決數學問題的完整生成過程。
總結
這篇文章介紹了由西湖大學 MAPLE 實驗室提出的一種全新的大模型推理范式,擴散式「發散思維鏈」。該框架將反向擴散過程中的中間結果看作模型的推理過程,并將模型最終輸出結果的正確性作為獎勵開展強化學習訓練,大幅提升了大模型的推理能力,在數學推理、代碼生成等任務上取得了超越其他擴散語言模型的性能。擴散式「發散思維鏈」這一理論打破了大模型推理過程的固有范式,為復雜推理問題提供了創新性的方法解決方案,值得我們進一步挖掘。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.