摘要
OpenAI的O1及其后續(xù)競爭者(如DeepSeek R1)的發(fā)布顯著推動了大語言模型(Large Language Models,LLMs)在復雜推理方面的研究,引發(fā)學術界與工業(yè)界的雙重關注。此項進展激發(fā)了相關技術成果的復現(xiàn)和在此基礎上的創(chuàng)新。為系統(tǒng)構建該領域的研究框架,本文從自我進化(self-evolution)的角度系統(tǒng)地分類了現(xiàn)有技術。我們的調(diào)查發(fā)現(xiàn)分為三個相互關聯(lián)的部分:數(shù)據(jù)進化(data evolution)、模型進化(model evolution)和自我進化(self-evolution)。
數(shù)據(jù)進化部分改進推理訓練數(shù)據(jù),這包括任務進化和增強思維鏈(Chain-of-Thought,CoT)推理的推理時間計算。
模型進化部分通過在訓練過程中優(yōu)化模型模塊,以增強復雜推理能力。
自我進化部分則探討其進化策略和模式。包括自我進化的規(guī)模法則(scaling law)與對 O1 類研究工作的分析。
通過系統(tǒng)梳理相關研究,我們總結了前沿方法,并提供了對未來研究方向的前瞻性展望。本文旨在激勵LLM復雜推理社區(qū)進一步研究,并促進對LLM推理能力提升的深入探索。
關鍵詞:大語言模型、復雜推理、自我進化、數(shù)據(jù)進化、模型進化、專家迭代、推理計算、強化學習
Tao He, Hao Li, Jingchang Chen等丨作者
Azure丨譯者
論文題目:A Survey on Complex Reasoning of Large Language Models through the Lens of Self-Evolution 論文地址:https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution
作者 | Tao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu, Bing Qin
目錄
1. 引言
2. 預備知識
3. 數(shù)據(jù)演化
4. 模型演化
5. 自我進化
6. 在自我進化框架內(nèi)重新解讀代表性O1類研究
7. 未來挑戰(zhàn)和方向
8. 結論
摘要
OpenAI的O1及其后續(xù)競爭者(如DeepSeek R1)的發(fā)布顯著推動了大語言模型(Large Language Models,LLMs)在復雜推理方面的研究,引發(fā)學術界與工業(yè)界的雙重關注。此項進展激發(fā)了相關技術成果的復現(xiàn)和在此基礎上的創(chuàng)新。為系統(tǒng)構建該領域的研究框架,本文從自我進化(self-evolution)的角度系統(tǒng)地分類了現(xiàn)有技術。我們的調(diào)查發(fā)現(xiàn)分為三個相互關聯(lián)的部分:數(shù)據(jù)進化(data evolution)、模型進化(model evolution)和自我進化(self-evolution)。
數(shù)據(jù)進化部分改進推理訓練數(shù)據(jù),這包括任務進化和增強思維鏈(Chain-of-Thought,CoT)推理的推理時間計算。
模型進化部分通過在訓練過程中優(yōu)化模型模塊,以增強復雜推理能力。
自我進化部分則探討其進化策略和模式。包括自我進化的規(guī)模法則(scaling law)與對 O1 類研究工作的分析。
通過系統(tǒng)梳理相關研究,我們總結了前沿方法,并提供了對未來研究方向的前瞻性展望。本文旨在激勵LLM復雜推理社區(qū)進一步研究,并促進對LLM推理能力提升的深入探索。
1. 引言
近年來,大語言模型(LLMs)的發(fā)展令人矚目。它們不僅在閱讀理解、故事生成和對話能力等領域超出了預期,還在需要復雜邏輯推理的任務中表現(xiàn)出色,包括代碼生成和數(shù)學問題解決。2024年下半年,LLM研究迎來了一個關鍵時刻,OpenAI發(fā)布了O1 [OpenAI, 2024a],這標志著復雜推理研究的一個重要里程碑。O1系列模型能夠生成衍生的推理過程,靈活地分解問題,并在面臨挑戰(zhàn)時自主澄清、反思和糾正潛在錯誤,以及探索替代解決方案——模擬了人類思維特有的細致、反思性推理過程 [OpenAI, 2024b]。
工業(yè)界和學術界都致力于復現(xiàn)O1,掀起了一股技術報告的熱潮。
在工業(yè)界,一系列類似的產(chǎn)品涌現(xiàn),例如DeepSeek R1 [DeepSeek-AI et al.,2025](簡稱R1)、Kimi k1.5 [Team et al., 2025]和QwQ [Team, 2024b],它們都發(fā)布了自己的模型或技術報告。這些產(chǎn)品不僅達到甚至超越了O1,而且其開源貢獻也值得稱贊。此外,這些技術報告中強調(diào)的擴展強化學習(Scaling Reinforcement Learning)等技術,進一步拓展了研究類O1工作的方向。
在學術界,研究者從不同角度進行了多項復現(xiàn)研究。例如,O1 Journey [Qin等,2024; Huang等,2024] 廣泛討論了思維鏈格式化和蒸餾,但對持續(xù)優(yōu)化方法的見解有限。與此同時,OpenR [Wang等,2024e]、O1-Coder [Zhang等,2024j]等工作主要通過強化學習的視角研究O1,但忽略了對反思和糾正推理操作的討論。另一方面,Slow Thinking系列工作[Jiang等,2024a; Min等,2024]專注于推理時計算,嘗試通過樹搜索技術提升推理性能。此外,rStar-Math [Guan等,2025] 通過使用自我進化框架聯(lián)合訓練推理器和過程獎勵模型(Process Reward Model, PRM),實現(xiàn)了接近O1的性能,突顯了迭代優(yōu)化在提升推理能力方面的潛力。
盡管這些技術報告提供了寶貴的見解,但它們往往僅聚焦于特定技術領域,缺乏整體性的技術架構和統(tǒng)一的分類標準。因此,我們需要對這些方法進行系統(tǒng)性的高層次綜述。O1博客 [OpenAI, 2024a] 和系統(tǒng)卡片 [OpenAI, 2024b] 提示O1采用了強化學習(RL)和推理時計算。這使我們聯(lián)想到另一個杰出的人工智能——AlphaGo Zero [Silver等,2017]。AlphaGo Zero通過自我對弈、蒙特卡洛樹搜索(MCTS)和策略模型的迭代學習實現(xiàn)了自我進化 [Silver et al., 2017] 。這一過程在無人干預的情況下提升了其性能,啟發(fā)我們采用類似技術或許能將復雜推理能力提升至超越人類的水平。在這個類比中,訓練策略模型對應于推理優(yōu)化,而MCTS搜索則對應于推理時計算。自我進化通過循環(huán)這兩個階段,實現(xiàn)推理能力的自主提升。此外,高質(zhì)量數(shù)據(jù)的匱乏凸顯了自動化數(shù)據(jù)合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f],由于推理任務對邏輯嚴謹性要求更高,這一挑戰(zhàn)尤為突出。因為推理任務對邏輯嚴謹性有更高要求。在無人干預的情況下,自我進化不僅能利用合成數(shù)據(jù)來增強系統(tǒng)能力,還可以利用改進的系統(tǒng)合成更高質(zhì)量的數(shù)據(jù),創(chuàng)造一個良性循環(huán)推進過程。
鑒于這些考慮,本文希望從自我進化的視角對大語言模型的復雜推理提供全面綜述。大語言模型復雜推理的自我進化,亦稱自我改進(self-improvement),其需要在閉環(huán)推理系統(tǒng)中自主合成訓練數(shù)據(jù)并持續(xù)提升推理能力 [Tao等,2024; Hu等,2024]。專家迭代(Expert iteration)[Polu等,2022; Zhao等,2024b] 被視為典型的自我進化范式。其核心思想是:模型首先生成推理軌跡,再基于標準答案篩選出正確解決方案,最后利用這些解決方案對模型進行微調(diào),以提升其推理能力。這一過程進行迭代,直至模型收斂。此外,在線強化學習框架同樣體現(xiàn)了自我進化的理念。智能體首先進行探索并生成軌跡,然后利用這些軌跡進行自我優(yōu)化,從而在后續(xù)的學習周期中發(fā)現(xiàn)更高質(zhì)量的軌跡。
圖1:大語言模型中自我進化復雜推理能力的概念框架。我們在完整的自我進化框架中識別出三個組成部分:數(shù)據(jù)進化、模型進化以及進化策略和模式。
如圖 1 所示,本綜述的結構由三個部分組成:數(shù)據(jù)進化、模型進化和自我進化。數(shù)據(jù)進化探索合成高質(zhì)量數(shù)據(jù),包含兩個階段:(1)任務進化生成推理系統(tǒng)尚未能有效處理的任務,(2)思維鏈(CoT)進化通過擴展推理時計算 [Snell等,2024] 擴展大語言模型的性能邊界,并通過思維鏈(Chain-of-Thought, CoT)[Wei等,2022] 推理生成更好的解決方案。然而,性能的提升可能源于啟發(fā)式搜索算法而非模型的固有能力,這從模型無法持續(xù)生成高質(zhì)量思維鏈的證據(jù)可見一斑。模型進化通過提升系統(tǒng)模塊來解決這些問題。一方面,模型專門針對它們曾經(jīng)困難的任務進行訓練;另一方面,它們從收集的數(shù)據(jù)中有選擇地學習,以真正擴展其能力邊界。前兩種進化代表了探索性和發(fā)散性努力,旨在研究實現(xiàn)數(shù)據(jù)和模型進化的有前景技術和挑戰(zhàn)。這為自我進化奠定了數(shù)據(jù)合成策略和優(yōu)化方法的技術基礎。在第三部分,我們專注于推理系統(tǒng)的自我進化框架。通過迭代進行數(shù)據(jù)進化和模型進化,推理系統(tǒng)實現(xiàn)自我進化:數(shù)據(jù)進化基于當前模型生成更有針對性、更高質(zhì)量的數(shù)據(jù),而模型進化則利用收集的數(shù)據(jù)進一步強化模型,為下一輪數(shù)據(jù)進化提供更堅實的基礎。
我們的貢獻可總結如下:(1)全面綜述:這是首個聚焦于推理自我進化的大語言模型綜述;(2)分類體系:我們在圖2中構建了一個詳細的分類體系;(3)理論基礎:我們整理了相關的基礎理論,并探討了自我進化的規(guī)模法則;(4)前沿與未來:我們分析了自我進化框架內(nèi)的最新開源研究,并為未來研究指明方向。
圖2:先進方法的分類,包括數(shù)據(jù)進化、模型進化和自我進化。
2. 預備知識
2.1 背景
本綜述聚焦于大語言模型促成的復雜推理任務。具體而言,我們關注思維鏈推理,即大語言模型在預測最終答案之前生成逐步推理過程(即思維鏈,Chain-of-Thought, CoT)。
為便于后續(xù)討論,我們將任務及其解決過程形式化如下:
給定任務 q,大語言模型 PLLM 首先生成逐步思維鏈 y,然后基于 y 預測最終答案 z。這一過程可以用數(shù)學表達式表示為:
由于在實踐中 y 和 z 通常按順序出現(xiàn),我們有時會用 y 來表示解決方案,或者同時代表思維鏈和最終答案。
2.2 推理系統(tǒng)模塊
借鑒現(xiàn)有推理研究的見解,我們首先描述了閉環(huán)自我進化推理(closed-loop self-evolution reasoning)框架的基本組件。具體而言,我們確定了以下四個關鍵模塊:
任務創(chuàng)建器(Task Creator):推理系統(tǒng)需要任務作為輸入。任務創(chuàng)建器最直接的實現(xiàn)方式是從固定任務集中抽樣。然而,與單輪推理改進不同,自我進化需要通過迭代優(yōu)化持續(xù)提升推理能力。固定任務集可能導致性能快速收斂[Jiang等,2024a],因為系統(tǒng)學會識別針對特定任務的"捷徑",從而降低模型泛化能力。因此,生成多樣化任務對緩解這一問題并促進自我進化至關重要。
推理器(Reasoner):推理器是系統(tǒng)的核心角色,負責接收來自任務創(chuàng)建器的輸入并通過逐步推理生成解決方案。在本研究中,推理器由大語言模型實現(xiàn)。
評估器(Evaluator):評估器負責評估和驗證推理器生成的推理過程。這一輔助模塊有幾個關鍵功能:在訓練階段,它提供基于分數(shù)的反饋來微調(diào)推理器,例如拒絕微調(diào)或強化學習;在推理階段,它評估推理過程,從而指導推理時計算和后處理步驟。
后處理器(Post-Processor):后處理器基于評估器反饋,處理推理器生成的解決方案。最簡單的操作是直接過濾掉錯誤的解決方案;然而,這種方法可能導致數(shù)據(jù)浪費,且與人類處理錯誤的方式不盡相同。后處理分為兩個階段:在生成過程中,它可以通過修正錯誤的步驟或回溯來優(yōu)化部分思維鏈;在生成后,它利用系統(tǒng)的糾正能力來完善完整的解決方案。
值得注意的是,這些模塊在邏輯上是不同的,而非物理上。由于大語言模型強大的指令遵循能力,單個模型可以在實現(xiàn)過程中同時履行多個角色。在接下來的章節(jié)中,我們將探討它們在數(shù)據(jù)進化(共同生成高質(zhì)量數(shù)據(jù))、模型進化(優(yōu)化每個模塊)和自我進化(模塊的聯(lián)合進化)中的重要作用。
3. 數(shù)據(jù)進化
圖3:數(shù)據(jù)進化流程由任務進化和思維鏈進化組成。在思維鏈進化中,我們定義了三種元操作符,使兩種搜索范式能夠生成更高質(zhì)量的思維鏈。
如圖3所示,數(shù)據(jù)進化分為兩個不同階段:任務進化和思維鏈進化。任務進化的核心是通過解決關鍵因素來提高推理任務的質(zhì)量,如:難度、多樣性和有效性等。通過優(yōu)化這些維度,該系統(tǒng)不被局限于任務范圍,從而顯著提升泛化能力。思維鏈進化(推理時計算)旨在提高推理階段的推理過程質(zhì)量。這種提升主要體現(xiàn)在推理的準確性、邏輯連貫性以及系統(tǒng)自主評估和修正錯誤的能力上。
3.1 任務進化
任務進化(Task evolution)專注于生成新任務,提高訓練數(shù)據(jù)的多樣性和難度,以增強模型的推理和泛化能力。這種方法類似于學生通過練習各種習題來提高技能。盡管任務進化至關重要,但我們觀察到現(xiàn)有研究很少探索這一維度。因此,我們將任務進化作為起點。作為數(shù)據(jù)合成的關鍵組成部分,任務進化通常涉及創(chuàng)建新任務,例如利用更先進的大語言模型來制定新挑戰(zhàn) [Li等2024a]。在本節(jié)中,我們專注于增強任務多樣性(task diversity)、復雜性(task complexity)和可靠性(task reliability),以有效支持任務進化。
任務多樣性 :為了增強任務多樣性,Haluptzok等[2022]、Madaan等[2023a]使用大語言模型修改參考問題的數(shù)據(jù)類型和邏輯操作,生成結構相似但邏輯不同的任務。Yu等[2023b]則使用大語言模型重新表述參考問題來創(chuàng)建新問題。然而,此類方法受限于對參考數(shù)據(jù)的依賴,從而限制了全新任務的生成,并削弱了多樣性和創(chuàng)造性。為突破這一局限,有人提出從高方差分布中采樣數(shù)據(jù)或引入聚焦多樣性的提示詞。例如,Liu等[2023]采用溫度采樣和注重多樣性的提示詞來生成多樣化的問題,而Xu等[2023]則明確指示大語言模型創(chuàng)建罕見的、特定領域的問題。此外,Self-Instruct[Wang等,2022]通過結合人工編寫和模型生成的任務來生成新的任務指令,并使用特定的提示模板引導生成過程。
任務復雜性:Xu等[2023]提出了幾種基于示例問題生成復雜任務的方法:1) 添加約束:通過引入額外的約束或要求來提高任務難度,從而增強模型的靈活性和適應性;2) 深化:擴展示例中查詢的深度和廣度,以提升模型的推理能力;3) 具體化:將問題中的一般概念替換為具體概念,使指令更加清晰,從而提高響應的準確性和相關性;4) 增加推理步驟:重新制定簡單問題,要求額外的推理步驟,從而增強模型的邏輯思維能力;5) 增加輸入復雜性:通過修改問題條件,引入結構化數(shù)據(jù)或特定輸入格式(如代碼、表格、XML等),將問題從直接可計算轉(zhuǎn)變?yōu)樾枰~外數(shù)據(jù)解析或操作的形式,從而提升模型的魯棒性和泛化能力。
此外,Shi等[2023]通過引入無關條件來增加推理難度,迫使模型識別并聚焦于關鍵條件,而Mitra等[2024]則通過在問題中嵌入答案,將問題重新表述為陳述性語句,并借助自動化建議(如引入額外變量)來指導生成更復雜的問題。
任務可靠性:自動生成任務可能會產(chǎn)生無法解決的任務或不正確的答案。為解決這一問題,Li 等 [2023a] 采用微調(diào)的大語言模型(LLMs)對任務進行評分并篩選高質(zhì)量任務。類似地,Liu 等 [2024a] 和 Xu 等 [2023] 基于原始問題生成多種任務,并通過驗證答案來過濾不一致的任務。Haluptzok 等 [2022] 和 Liu 等 [2023] 則利用 Python 解釋器和預定義規(guī)則(如檢查任務長度或數(shù)值內(nèi)容)來驗證正確性,從而確保任務質(zhì)量。Kreber 和 Hahn [2021] 提出了一種基于 Transformer 編碼器的生成對抗網(wǎng)絡(GAN)[Goodfellow 等,2014],通過隨機噪聲生成符號任務。評判器評估生成任務與真實數(shù)據(jù)之間的相似性,并提供反饋以優(yōu)化生成器,從而提高任務可靠性。此外,Wei 等 [2023] 和 Lu 等 [2024b] 探索了反向任務生成方法,利用大語言模型從解決方案中推導問題。具體而言,Lu 等 [2024b] 從數(shù)學參考解決方案中迭代生成新答案,定義約束條件和邏輯關系,并將這些答案轉(zhuǎn)化為任務,從而確保生成問題的可靠性。類似地,Wei 等 [2023] 利用高質(zhì)量的開源代碼,通過大語言模型生成編程任務。
3.2 思維鏈進化
在開始推理過程之前,需要構思推理鏈(Chain of Thoughts, CoT)的理想形態(tài),以及它應該包含哪些元操作。推理鏈的格式?jīng)Q定了系統(tǒng)推理能力的上限。在本節(jié)中,我們首先定義三個元操作,以構建更強大的推理鏈,包括逐步推理(Step-by-Step Reasoning)、評估(Evaluation)和后處理(Post-Processing)。
我們回顧了推理中的計算方法,這些方法通常通過搜索生成更高質(zhì)量的思維鏈,分為顯式樹搜索(explicit tree search)和隱式試錯搜索(implicit trial-and-error search)兩類。早期研究集中在顯式樹搜索上,但隨著O1及其后續(xù)開源項目(如 R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025] 和 T1 [Hou 等,2025]),研究逐漸轉(zhuǎn)向試錯搜索。O1提供的思維鏈示例表明,它能在發(fā)現(xiàn)錯誤時自我糾正或回溯,并記錄整個推理過程,模仿人類在回答前的深思熟慮。O1 Journey [Qin 等,2024] 早期探討了這一點,提出了“捷徑學習”(Shortcut Learning)[Geirhos 等,2020] 概念,描述追求每一步都正確的思維鏈,并通過“旅程學習”(Journey Learning)[Qin 等,2024] 表示推理過程中的自我驗證、錯誤檢測和修正。Kimi k1.5[Team 等,2025] 和Redstar[Xu 等,2025] 進一步研究這一概念,并稱之為“長思維鏈”(Long CoT)。與此一致,我們將捷徑學習的結果稱為“短思維鏈”(Short CoT)。
3.2.1 元操作符
思維鏈推理的潛力已被廣泛探索。雖然普通思維鏈(vanilla CoT)在簡單任務上表現(xiàn)良好,但在更復雜任務中表現(xiàn)不佳。增強思維鏈推理的一種方法是設計受人類認知啟發(fā)的更復雜且高效的推理鏈。對類 O1 系統(tǒng) [Qin 等,2024; Zeng 等,2024b] 的觀察引發(fā)了對分解、逐步推理、自我評估、自我糾正和回溯等操作的討論。因此,我們總結并歸納了三個關鍵元操作:逐步推理(Step-by-step Reasoning)、評估(Evaluation)和后處理(Post-processing)。
我們聚焦這三個元操作符,并回顧前一節(jié)(§2.2)中提到的模塊,可以將思維鏈格式與推理系統(tǒng)模塊相連接。推理器(Reasoner)通過逐步分解生成推理過程,搜索算法作為其擴展技術。評估器(Evaluator)和后處理器(Post-Processor)分別管理思維鏈中的評估和糾正過程。整合這三個模塊后,我們可以構建一個全面且穩(wěn)健的推理系統(tǒng)。
逐步推理
逐步推理將問題分解為依序步驟,這需要強大的規(guī)劃能力,然后通過基于鏈的推理過程逐步解決問題 [Chu 等,2023]。此外,分解過程應該是遞歸的,從而使系統(tǒng)能夠迭代地分解復雜的子問題。
思維鏈
[Wei 等,2022] 代表了一種直接的線性搜索方法,利用少樣本(few-shot)或零樣本(zero-shot)提示來逐步解決問題。Plan-and-Solve [Wang 等,2023b] 采用零樣本提示引導模型在單一生成過程中生成計劃,隨后基于生成的計劃進行鏈式推理。從少到多提示(Least-to-Most Prompting)[Zhou 等,2022] 采用兩階段方法:第一階段,問題被明確分解為多個子問題;第二階段,這些子問題被順序解決。前一步的結果被添加至上下文,引導模型繼續(xù)解決后續(xù)子問題。。與基于規(guī)劃的方法不同,連續(xù)提示(Successive Prompting)[Dua 等,2022] 采用迭代分解過程。在每次迭代中,一個新的子問題被提出并在當前步驟中解決。這一兩步過程重復進行,直到整個問題被解決。ReACT [Yao 等,2022] 將迭代推理與行動相結合。在每一步中,模型基于其推理生成一個行動。該行動可能涉及調(diào)用外部工具(如計算器)或與環(huán)境交互。隨后,模型使用來自這些外部工具或環(huán)境的反饋進行下一步,直到達到最終目標。通過引入行動,ReACT 使模型能夠與外部系統(tǒng)交互,從而增強大語言模型的推理過程。
評估
一個穩(wěn)健的推理系統(tǒng)須具備自我評估能力,使其能夠在任務執(zhí)行期間和之后評估其推理過程。在推理過程中,系統(tǒng)應識別并終止錯誤的探索路徑以進行后處理。在啟發(fā)式搜索中,評估結果進一步用于指導搜索。完成推理過程后,可能會生成多個候選答案,這就需要進行徹底評估,以有效地評估和驗證不同的解決方案。我們從三個粒度回顧現(xiàn)有研究:結果級(outcome-level)、步驟級(step-level)和詞元級(token-level)。
結果級評估 早期工作主要關注結果級評估,即在推理完成后對完整解決方案進行評估 [Cobbe 等,2021; Wang 等,2023c; Lee 等,2024a]。這些方法的主要區(qū)別在于評估的形式和目的。在訓練階段,當正確答案可用時,一些工作對照標準答案對解決方案進行直接的正確性評估 [Cobbe 等,2021; Hosseini 等,2024]。除了單純的答案準確性外,R1 [DeepSeek-AI 等,2025] 和 T1 [Hou 等,2025] 還融入了基于格式的結果獎勵來指導推理格式學習。在推理階段,Cobbe 等 [2021]、Hosseini 等 [2024] 利用訓練好的驗證器對候選解決方案進行評分和排名,從而選擇最優(yōu)解。此外,一些方法使用大語言模型對解決方案提供自然語言反饋。例如,Madaan 等 [2023b]、Zhang 等 [2024b] 直接生成批評,而 Peng 等 [2023]、Shinn 等 [2023]、Gou 等 [2024] 在批評生成中包含內(nèi)部和外部環(huán)境信息。此外,Ankner 等 [2024b]、Yu 等 [2024b] 將自然語言批評與評分機制相結合,以提高評估的可靠性和可解釋性。一些研究還采用基于一致性的評估框架。例如,Wang 等 [2023c] 采用投票系統(tǒng)從多個解決方案候選中確定最終答案,而 Jiang 等 [2024b]、Weng 等 [2023] 通過確保前向和后向推理過程之間的一致性來評估答案質(zhì)量。
步驟級評估 雖然結果級評估實施簡單,但在實踐中應用有限,往往需要更細致的評估。其中,步驟級評估已成為一種特別突出的方法,強調(diào)對單個推理步驟的評估 [Lightman 等,2024; Wang 等,2024g,m; Gao 等,2024a; Lu 等,2024a; Li 等,2023b]。在樹搜索算法中,過程評估被廣泛用于指導搜索軌跡。例如,Tian 等 [2024] 在蒙特卡洛樹搜索(MCTS)中使用狀態(tài)評分來指導搜索過程,而 Xie 等 [2023] 在束搜索中實現(xiàn)狀態(tài)評分以優(yōu)化路徑選擇。此外,步驟級評估在錯誤糾正和推理步驟總結方面都證明了其有效性。值得注意的是,Zheng 等 [2024]、Xi 等 [2024] 已開發(fā)出能夠精確定位特定推理步驟中的不準確之處的方法,從而提供更精確和可操作的反饋,用于全面評估。
詞元級評估 一些研究認為,步驟級評估的粒度對于全面的推理評估仍然不足 [Yoon 等,2024; Chen 等,2024h]。這促使了詞元級評估框架的發(fā)展,提供了更高細粒度的分析。Yoon 等 [2024] 引入了一種方法,利用強大的大語言模型在詞元級別上迭代修改思維鏈推理。他們的方法根據(jù)修改操作為詞元分配不同的獎勵,并利用這些獎勵來訓練詞元級獎勵模型。類似地,Chen 等 [2024h] 提出了一個兩階段框架,首先訓練一個糾正模型來識別和糾正錯誤的推理步驟。通過將低生成概率與錯誤詞元關聯(lián),將高概率與正確詞元關聯(lián),他們的方法能夠構建精確的詞元級獎勵信號。此外,Lee 等 [2024d] 提出了一個詞元監(jiān)督的價值模型,該模型監(jiān)督單個詞元以提供對解決方案正確性的更準確評估。同時,Yang 等 [2024b] 基于最大熵強化學習原理推導出了一種詞元級評估方案。他們的方法通過基于排名的截斷計算詞元級價值,為每個詞元分配 +1、0 或 -1 的離散獎勵,從而實現(xiàn)對推理過程的細粒度優(yōu)化。
基于評估反饋的呈現(xiàn)格式,現(xiàn)有的評估方法可分為兩種不同范式:驗證器(verifier)和評論器(critic)。驗證器專注于通過標量評分量化解決方案質(zhì)量,而評論器則以自然語言提供口頭反饋。
驗證器 驗證器范式通過分配量化分數(shù)來評估解決方案的正確性。例如,Cobbe 等[2021]使用驗證器來估計解決方案正確的概率,而Hosseini 等[2024]利用經(jīng)過訓練的DPO驗證器生成反映解決方案有效性的似然分數(shù)。此外,[Lightman 等,2024; Wang 等,2024g; Lu 等,2024a]采用步驟級評分機制,對單個推理步驟分配分數(shù),并使用最小值或平均值等指標聚合它們,以得出整體解決方案質(zhì)量評估。[Tian 等,2024; Xie 等,2023]為樹搜索過程中的每個狀態(tài)分配分數(shù),以優(yōu)化搜索路徑。為了更細的粒度,[Yoon 等,2024; Chen 等,2024h; Lee 等,2024d; Yang 等,2024b]引入了詞元級評分機制,為單個詞元分配連續(xù)或離散分數(shù)(如中性、正確或錯誤)。
評論器 評論器范式生成自然語言反饋,以促進錯誤澄清并提高評分機制的可解釋性。例如,Madaan 等[2023b]利用模型固有的能力對其自身解決方案產(chǎn)生批判性反饋,實現(xiàn)迭代改進。同時,[Peng 等,2023; Shinn 等,2023; Gou 等,2024]通過結合內(nèi)部模型狀態(tài)和外部環(huán)境信息來擴展這種方法,生成全面的批評,不僅識別錯誤,還指導后續(xù)改進。進一步推進這一工作,[Zheng 等,2024; Xi 等,2024]進行粒度化、逐步的批判性分析,以更詳細地定位和糾正錯誤。[Ankner 等,2024b; Yu 等,2024b]將批評生成與評分機制整合。通過在分配分數(shù)之前生成自然語言批評,這些方法增強了評估過程的透明度和可靠性,為評估解決方案質(zhì)量提供了更可解釋和穩(wěn)健的框架。此外,MCTS-Judge Wang 等[2025b]也將自我評估建模為一系列子任務,并使用蒙特卡洛樹搜索將問題分解為更簡單的多角度評估任務。
圖4:評估后的三種后處理方法:過濾(Filter)、總結(Summary)和糾正(Correction)。
評估的挑戰(zhàn):獎勵欺騙 獎勵欺騙被定義為策略模型利用獎勵定義中的模糊性或漏洞獲得高獎勵,而實際上并未學習所需能力的情況 [Weng,2024]。針對特定階段,有兩條主要路徑可以緩解獎勵欺騙。在獎勵建模階段,設計更復雜的過程獎勵可能有助于緩解這一問題。然而,過于復雜的獎勵信號也可能改變收斂目標。另一種方法是放棄細粒度的過程獎勵模型(PRM)而僅依賴結果獎勵模型(ORM),這對推理任務尤為適用。例如,R1 [DeepSeek-AI 等,2025]和T1 [Hou 等,2025]僅采用基于答案正確性和格式合規(guī)性的規(guī)則型結果獎勵,有效緩解了使用過程獎勵模型時的獎勵欺騙問題。此外,使用更大規(guī)模的大語言模型作為基礎獎勵模型可以提高其泛化能力并降低利用漏洞的風險。同時,在強化學習訓練過程中,裁剪和獎勵塑造等機制可以在一定程度上幫助緩解這一問題 [Gao 等,2024b]。
評估的挑戰(zhàn):泛化性 此外,獎勵模型的泛化能力同樣至關重要。參數(shù)化評估器(如獎勵模型)通常在特定數(shù)據(jù)分布上訓練,這限制了它們在分布外(out-of-distribution, OOD)任務上的適用性。這種限制可能導致對新任務的評估出現(xiàn)偏差或不穩(wěn)定,進一步阻礙任務泛化 [DeepSeek-AI 等,2025; Cui 等,2025]。因此,增強獎勵模型的泛化能力,以在更廣泛的任務范圍內(nèi)提供可靠反饋,對于提高任務泛化至關重要。一方面,可以優(yōu)先考慮非參數(shù)化評估器,如答案正確性或格式準確性,以緩解這些問題 [DeepSeek-AI 等,2025; Hou 等,2025]。另一方面,如果必須使用參數(shù)化評估器,確保其持續(xù)更新至關重要。一個關鍵挑戰(zhàn)在于高效且經(jīng)濟地構建這些評估器的訓練數(shù)據(jù)。
盡管像 R1 [DeepSeek-AI 等,2025] 這樣的工作通過基于規(guī)則的結果獎勵規(guī)避了現(xiàn)有評估器中的獎勵欺騙和泛化限制問題,但也暴露了新的挑戰(zhàn),如過長的思維鏈、低效的反思和過度思考。這些問題表明,僅依賴結果獎勵可能不足。更高細粒度的步驟級評估可能有助于解決這些缺點。結合過程獎勵模型(PRMs)和結果獎勵模型(ORMs)的優(yōu)勢,既能緩解獎勵欺騙并確保泛化,又能實現(xiàn)細粒度評估,仍然是未來研究中的重要挑戰(zhàn)。
后處理
如圖4所示,評估后的推理解決方案可以進一步處理以提高其質(zhì)量和可靠性。首先,可以使用總結知識(Summary Knowledge)從推理過程中提煉和總結關鍵信息。對于低質(zhì)量的推理解決方案,常見的處理方法包括過濾(Filtering)和糾正(Correcting)。過濾直接移除不可靠的解決方案,而糾正通過修正錯誤或恢復到正確狀態(tài)來優(yōu)化推理過程。這兩種方法各有優(yōu)勢,其中糾正在提高推理準確性的同時特別有效地保留有用信息。通過納入這些后處理操作,系統(tǒng)可以有效避免陷入邏輯死角和重復失敗的推理路徑,從而在復雜問題解決場景中增強整體穩(wěn)健性和可靠性。以下討論將更詳細地深入探討這些核心策略。
從思維鏈中總結知識
為提高模型在推理任務中的表現(xiàn),一些研究專注于總結先前解決方案的經(jīng)驗來指導后續(xù)推理。例如,Zhang 等[2024k]在訓練實例中納入反思組件,如通過類比和推理的替代解決方案或問題擴展,引導模型從不同角度理解問題并積累多樣化的推理經(jīng)驗。而Wang 等[2024l]通過訓練對齊將反思見解整合到代碼本模塊中,使模型能夠主動檢索相關反思來輔助推理過程。在樹搜索推理中,Hui 等[2024]識別重要節(jié)點并反思后續(xù)行動和結果,生成任務級指導方針以優(yōu)化搜索效率并避免重復錯誤。同時,Liu 等[2024c]引入了用于行動選擇的文本原則,通過迭代反思不斷完善這些原則,靈活指導行動執(zhí)行。此外,Zhang 等[2025a]提出了基于思維鏈的合成器(CoT-based Synthesizer),通過結合多個候選解決方案的互補信息來改進推理,即使所有候選解決方案都有缺陷也能生成更好的解決方案。
過濾低質(zhì)量思維鏈
當在評估階段識別出低質(zhì)量解決方案時,最簡單的方法是直接過濾。例如,當標準答案可用時,可以基于答案正確性過濾低質(zhì)量解決方案 [Singh 等,2023; Gulcehre 等,2023]。在沒有標準答案的情況下,過濾策略可以基于一致性進行完善,如困惑度(perplexity)[Min 等,2024]、基于投票的一致性 [Wang 等,2023c; Chen 等,2023a]、前向-后向一致性 [Jiang 等,2024b; Weng 等,2023],或通過構建針對多項選擇題性質(zhì)的后續(xù)問題來評估解決方案一致性 [Ankner 等,2024a; Lee 等,2024b]。此外,可學習的驗證器 [Cobbe 等,2021; Yu 等,2023a; Stiennon 等,2020]可以用來進一步增強過濾過程。雖然簡單過濾既高效又易于實施,但通常會導致大量推理數(shù)據(jù)浪費。
糾正低質(zhì)量思維鏈
除了直接過濾外,糾正不正確的解決方案有助于最大限度地利用已有數(shù)據(jù),因此低質(zhì)量解決方案的改進已成為研究的關鍵方向。早期研究主要依賴模型的內(nèi)在能力對解決方案進行優(yōu)化。例如,Madaan 等 [2023b] 使用自生成反饋對初始輸出進行迭代優(yōu)化;Zhang 等 [2024g] 則通過大語言模型比較多個方案,并將差異整理為對照清單,以增強自我反思過程的一致性與可靠性。然而,僅依賴內(nèi)在糾正方法往往難以充分優(yōu)化結果,表明引入外部信息對于提升改進效果至關重要。
最近的研究提出多種策略增強糾正性能。Ferraz 等[2024]、Wu 等[2024b]通過細粒度約束分解和后向推理優(yōu)化糾正過程。Gou 等[2024]利用外部工具反饋,Li 等[2024b]、Gao 等[2024c]、Chen 等[2023b]、Yuan 等[2024a]借助Python解釋器迭代執(zhí)行代碼,直至成功評估。Ramji 等[2024]采用策略指標作為質(zhì)量反饋,迭代優(yōu)化答案。Wu 等[2024c]訓練PSV模型識別并糾正錯誤步驟,確保準確性。Shridhar 等[2024]訓練提問者模型生成子問題以輔助糾正。為增強模型的批評與改進能力,Zheng 等[2024]、Xi 等[2024]、Yan 等[2024]、Zhang 等[2024i]提出訓練模型提供批評以推動改進。
從理論角度看,迭代糾正方法可視為通過線性搜索進行的馬爾可夫決策過程(Markov Decision Process, MDP),其中解決方案為狀態(tài),糾正操作則為狀態(tài)轉(zhuǎn)移的行動。簡單的線性搜索通常效果平平,但更復雜的樹搜索方法理論上能獲得更優(yōu)結果。例如,Zhang 等[2024e,d]將蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)與自我進化機制結合,優(yōu)化復雜數(shù)學推理任務的解決方案。該算法初始化根節(jié)點,并通過價值函數(shù) Q 選擇最具潛力的節(jié)點進行擴展。在自我進化階段,模型通過反饋糾正答案并生成更優(yōu)解,隨后通過自我評估打分,這些分數(shù)用于更新樹中節(jié)點的價值評估。節(jié)點的樹上置信上界(Upper Confidence Bound for Trees,UCT)值通過改進的公式進行更新。該過程持續(xù)進行,直到滿足終止條件,既提升了解決方案質(zhì)量,也不斷探索新的可能性。
其他方法
除上述糾正、過濾與總結操作外,還可采用其他后處理方式,如回溯機制 [Qin 等,2024;Yang 等,2025b]。當系統(tǒng)檢測到錯誤時,可回溯至先前狀態(tài),重新探索替代的推理路徑。
3.2.2 用于短思維鏈的顯式樹搜索
在本小節(jié)中,我們將“短思維鏈”(Short CoT)定義為僅包含邏輯推理步驟、不涉及評估與糾正等行為的思維鏈。短思維鏈體現(xiàn)了一種從任務提示直接通向標準答案的精簡推理過程,要求每個中間步驟均為正確。針對傳統(tǒng)思維鏈準確率較低的問題,研究者提出基于啟發(fā)式搜索(尤其是樹搜索)的增強方法,以提高對短思維鏈的搜索效率。我們將此類方法統(tǒng)一歸納為“顯式樹搜索”(Explicit Tree Search)框架。
盡管短思維鏈本身不包含評估等行為,但在搜索過程中仍可引入評估機制輔助推理。搜索過程中,評估函數(shù)用于引導探索方向并執(zhí)行剪枝,從而優(yōu)先保留最具潛力的路徑。該方法在提升搜索效率的同時,亦保持了所生成思維鏈的準確性與簡潔性。根據(jù)底層搜索策略的不同,顯式樹搜索算法可分為若干類型:樸素的廣度優(yōu)先/深度優(yōu)先搜索(naive BFS/DFS)、束搜索(Beam Search)、A*算法以及蒙特卡洛樹搜索(MCTS)。
廣度優(yōu)先/深度優(yōu)先搜索:思維樹(Tree-of-Thoughts, ToT)[Yao 等,2023] 將問題分解為多個思維節(jié)點,并利用經(jīng)典搜索算法——廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)——探索多樣化的推理路徑,顯著增強了語言模型在復雜任務中的問題解決能力。Qin 等 [2023] 將搜索過程與工具使用相結合,采用 DFS 處理工具組合與錯誤管理,從而提升模型在真實任務中的表現(xiàn)。上述方法依賴外部程序(如 Python 代碼)定義搜索邏輯。然而,這些被動搜索方法效率較低,靈活性有限。自主樹搜索(Autonomous Tree-Search)[Zhang 等,2023b] 通過提示直接引導大語言模型獨立執(zhí)行 BFS 或 DFS,自主探索多條解決路徑,提升推理靈活性。思維算法(Algorithm-of-Thought, AoT)[Sel 等,2023] 則利用 BFS/DFS 的整個搜索路徑作為提示,整合思維鏈與思維樹的優(yōu)勢,使模型在推理過程中能動態(tài)調(diào)整路徑,從而更高效地發(fā)現(xiàn)解法。此外,AoT 避免了 ToT 所需的多輪查詢,降低了推理開銷。
束搜索:束搜索作為廣度優(yōu)先搜索的一種變體,在搜索過程中維護k個候選序列(稱為束),實現(xiàn)了搜索準確性和計算效率之間的有效平衡。其與大語言模型自回歸生成的契合使其特別適合在解碼過程中指導前向搜索。根據(jù)搜索的粒度,束搜索可分為三個層次:詞元級(token-level)、步驟級(step-level)和解決方案級(solution-level)。
詞元級束搜索在模型生成的最小單位上操作,直接與大語言模型解碼過程對齊。雖然傳統(tǒng)束搜索基于詞元對數(shù)概率對序列進行排序,但這種方法優(yōu)先考慮自然語言流暢性而非推理質(zhì)量。為解決這一局限性,Lee 等[2024c]引入了詞元監(jiān)督價值模型,對詞元進行評分以提高數(shù)學推理的準確性。此外,為緩解生成序列多樣性不足的問題,Vijayakumar 等[2016]提出多樣化束搜索,將束分成多個組,在每個組內(nèi)獨立優(yōu)化,并在組間引入多樣性懲罰,以鼓勵生成更多樣的推理路徑。
步驟級束搜索將多步推理分解為子步驟,對每個子步驟進行評分和驗證,以維持高質(zhì)量的候選路徑。例如,Wang 等[2024i]、Ma 等[2023]使用過程獎勵模型(PRM)對子步驟進行打分,利用這些分數(shù)引導搜索朝有希望的推理路徑發(fā)展。類似地,Chen 等[2024b]、Yu 等[2023a]利用學習的價值模型在步驟級別增強搜索效率,避免了蒙特卡洛樹搜索的計算開銷。Setlur 等[2024]進一步結合過程優(yōu)勢來完善搜索過程。與外部評估方法不同,Xie 等[2023]利用模型本身進行自我驗證,提示它驗證步驟正確性,同時通過溫度調(diào)整的隨機化引入多樣性。
解決方案級束搜索獨立評估整個推理路徑,通過避免中間操作提供更快的推理。例如,Best-of-N(BoN)采樣生成多個完整解決方案,并使用獎勵模型選擇評分最高的解。然而,Wang 等[2024i]強調(diào)了獎勵模型在區(qū)分相似推理過程方面的局限性,提出了一種成對偏好模型以實現(xiàn)更有效的排名。同時,Wang 和 Zhou [2024]觀察到模型可以通過采樣自動生成思維鏈推理,而基于思維鏈得出的答案表現(xiàn)出更高的置信度。利用這一見解,他們引入了思維鏈解碼(CoT-decoding),這是一種通過改變解碼過程隱式執(zhí)行思維鏈推理的方法,通過top-k采樣生成多個序列,并基于答案置信度選擇最佳序列。
A*搜索:A*算法通過使用評估函數(shù)f(n) = g(n) + h(n) 擴展最具潛力的節(jié)點,從而提升搜索效率。其中,g(n) 表示從初始狀態(tài)到當前節(jié)點的累積代價,h(n) 是用于估計從當前節(jié)點到目標狀態(tài)的啟發(fā)式代價函數(shù)。該框架已被改造以增強大語言模型的多步推理能力,在搜索效率方面優(yōu)于傳統(tǒng)的思維樹(ToT)方法。
已有多項研究將 A* 原則整合進大語言模型的推理過程。Zhuang 等 [2023] 提出 ToolChain*,為特定任務維護一套“長期記憶”機制,用于存儲推理經(jīng)驗。該記憶系統(tǒng)初始由示例數(shù)據(jù)預置,并在推理過程中不斷吸收正確的解路徑,從而實現(xiàn)動態(tài)擴展。ToolChain* 通過最長公共子序列(Longest Common Subsequence)將新任務與歷史經(jīng)驗匹配,進而估計累積與未來成本,實現(xiàn)對復雜規(guī)劃與推理任務中最優(yōu)解的高效識別。相比之下,Wang 等 [2024a] 引入了 Q*,該方法采用訓練得到的 Q 值模型為每個狀態(tài)計算啟發(fā)式值 h(x),從而使 A* 算法可擴展至數(shù)學、編程等領域。
進一步的研究利用大語言模型的固有能力對 A* 搜索進行優(yōu)化。Meng 等 [2024a] 提出 LLM-A*,該方法利用大語言模型的全局理解生成中間引導點(waypoints),以引導 A* 搜索方向并減少冗余狀態(tài)的探索。Gupta 和 Li [2024] 訓練大語言模型學習真實代價 h?(n) 與啟發(fā)式估計 h(x) 之間的殘差(差),通過減少迭代次數(shù)加快搜索收斂。Lehnert 等 [2024] 提出 Searchformer,將 A* 的執(zhí)行軌跡轉(zhuǎn)化為標記序列,進而引導 Transformer 模型迭代采樣更短路徑。類似地,Su 等 [2024] 提出 Dualformer,在 A* 搜索過程中引入隨機信息丟棄機制,使模型在搜索過程中實現(xiàn)快思維與慢思維的動態(tài)平衡,從而優(yōu)化搜索策略。
蒙特卡洛樹搜索:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)是一種在探索與利用之間實現(xiàn)平衡的搜索算法,在以馬爾可夫決策過程(Markov Decision Process, MDP)建模的任務中表現(xiàn)出色[Chen 等,2024b; Wu 等,2024a]。這類任務通常要求 MCTS 在龐大的狀態(tài)-行動空間中發(fā)揮其探索與利用平衡的優(yōu)勢,以發(fā)現(xiàn)高價值的行動軌跡。 AlphaGo Zero [Silver 等,2017]是其中代表,該系統(tǒng)基于 MCTS 實現(xiàn),在圍棋任務中搜索高質(zhì)量的落子序列,不斷優(yōu)化策略網(wǎng)絡的性能。受 AlphaGo Zero 啟發(fā),研究者提出了在復雜行動空間中使用 MCTS 搜索高質(zhì)量推理路徑的思路。經(jīng)典MCTS通常包含以下四個步驟[Browne 等,2012]:
選擇(Selection) 從根節(jié)點開始,MCTS 在探索與利用之間進行權衡,并據(jù)此計算各子節(jié)點的權重。常見的權重計算策略包括上置信界(Upper Confidence Bound, UCB)和預測器上置信樹界(Predictor Upper Confidence Tree Bound, PUCT)[Rosin, 2011]。 UCB 公式為:
; PUCT公式為:。其中Q(s,a)表示從狀態(tài) s 采取行動 a 后的累積獎勵,πprior(a|s) 為在狀態(tài) s 下選擇行動 a 的先驗概率, N(s) 是當前上下文中狀態(tài) s 被探索的次數(shù), N(s,a) 是行動 a 在狀態(tài) s 被探索的次數(shù)。權重函數(shù)同時考慮探索(未訪問節(jié)點將獲得更高探索值)與利用(歷史上高回報節(jié)點獲得更高利用值)。每輪選擇會推進到得分最高的子節(jié)點,直至到達葉節(jié)點。擴展 (Expansion) 一旦到達葉節(jié)點,若該節(jié)點不是終止狀態(tài)(例如尚未得出最終答案),MCTS 將基于當前狀態(tài)執(zhí)行新的行動,擴展生成多個子節(jié)點。擴展質(zhì)量主要取決于行動空間的定義。在圍棋中,行動為落子;而在大語言模型推理中,不同任務需定義不同的行動空間。即使在同一任務下,不同粒度的行動空間也可能導致完全不同的搜索行為和結果。
評估(Evaluation) 到達葉節(jié)點后,需對其狀態(tài)值進行評估。常見方法包括: 1)蒙特卡洛采樣估值:將從根到當前節(jié)點的狀態(tài)-行動路徑作為上下文,采樣多個完整軌跡,并基于其統(tǒng)計指標(如成功率)計算狀態(tài)值。該方法無偏但方差高、計算成本大,難以用于采樣代價高的任務; 2)訓練價值模型估值:利用預訓練模型直接估計狀態(tài)值,但訓練價值模型比獎勵模型更具挑戰(zhàn),因為它需預測未來的預期累積獎勵。
反向傳播(Backpropagation) 一旦完成狀態(tài)值評估,MCTS 將從葉節(jié)點向根節(jié)點回傳該值,更新路徑中所有節(jié)點的狀態(tài)估計。隨著模擬次數(shù)的增加,這些估值愈發(fā)精確。該過程重復執(zhí)行,直到達到設定的最大模擬次數(shù),最終形成一棵記錄每個節(jié)點狀態(tài)值與訪問次數(shù)的搜索樹。由于不同任務和方法的設計差異,MCTS 在大語言模型推理中的實現(xiàn)方式也有所不同。
3.2.3 于長思維鏈的隱式試錯搜索
在前一節(jié)中,我們介紹了基于短思維鏈(Short CoT)的方法,其特點是每一步推理均為正確。所有被判定為“無前途”(unpromising)的推理步驟將由算法控制進行剪枝,使搜索聚焦于更有希望的分支,確保最終僅保留通向正確解的推理軌跡。
與此相對,長思維鏈(Long CoT)[DeepSeek-AI 等,2025;Team 等,2025;Hou 等,2025;Xu 等,2025] 并不要求每一步都正確,而是允許模型在推理過程中通過試錯進行探索。我們將長思維鏈定義為模擬人類認知過程的思維鏈。與短思維鏈不同,長思維鏈不僅包含逐步邏輯推理,還在整個推理過程中集成了自我評估和自我糾正等行為。相應地,我們將R1和類似工作用于探索長思維鏈的過程稱為隱式試錯搜索(Implicit Trial-and-Error Search)。在此過程中,不需要外部評估器或精煉器;大語言模型自主觸發(fā)其自我評估機制,并利用自我糾正和回溯能力來調(diào)整推理路徑,這對提高推理性能至關重要。 盡管長思維鏈在表面上呈現(xiàn)為線性結構,但由于糾錯與回溯機制的存在,其本質(zhì)邏輯形態(tài)更接近于樹狀結構。因此,我們將其稱為隱式搜索。
為實現(xiàn) Long CoT 的生成,O1 項目 [Huang 等,2024] 提出了基于蒸餾的訓練方法。然而,該方法僅模仿了試錯行為的模式,未能真正賦予模型深入思考的能力。為此,多個團隊陸續(xù)引入基于強化學習的優(yōu)化策略。DeepSeek-R1 在 PPO [Schulman 等,2017] 的基礎上采用 GRPO [Shao 等,2024] 進行改進;Kimi k1.5 借助在線策略鏡像變體 [Lazic 等,2019];T1 應用了 RLOO 算法 [Ahmadian 等,2024] 進行優(yōu)化。這些優(yōu)化將在 §4 詳細討論。
值得注意的是,這些開源研究普遍選擇以結果獎勵模型(Outcome Reward Model, ORM)替代過程獎勵模型(Process Reward Model, PRM),以指導大語言模型自主探索解空間。這一策略性轉(zhuǎn)變使模型在性能上達到了與 O1 相當甚至超越的水平。放棄 PRM 的決定,主要源于其泛化能力有限以及獎勵欺騙(reward hacking)問題嚴重,相關內(nèi)容已在 §3.2.1 中詳盡討論。 隨著強化學習訓練的不斷推進,模型生成的思維鏈顯著延長,推理準確性與泛化能力持續(xù)提升。在此過程中,模型甚至展現(xiàn)出“頓悟時刻”[DeepSeek-AI 等,2025]:能夠自主完成解的驗證與替代推理路徑的探索,表現(xiàn)出接近人類“靈感式”認知的推理能力。
3.2.4 顯式樹搜索與隱式試錯搜索的差異與統(tǒng)一
顯式樹搜索與隱式試錯搜索的差異
在深入比較之前,我們簡要總結顯式樹搜索用于短思維鏈和試錯搜索用于長思維鏈在程序上的區(qū)別:
圖5:兩種搜索范式的說明。顯式樹搜索通過同時擴展多個步驟并優(yōu)先處理最有希望的步驟來提高搜索效率,從而識別邏輯連貫的短思維鏈。相比之下,隱式試錯搜索通過逐步推理、試錯和回溯到過去的狀態(tài)來探索替代思路,模仿人類思考。
如圖5所示,顯式樹搜索采用啟發(fā)式搜索算法(如蒙特卡洛樹搜索、A*和束搜索)來探索解決方案空間。在每個狀態(tài),都會擴展多個行動以獲得候選狀態(tài),形成樹結構的搜索過程。在此過程中,推理系統(tǒng)被動調(diào)用評估和剪枝等操作。生成的思維鏈中的每個推理步驟都保證是正確的,而評估、剪枝和錯誤糾正等行為不會在短思維鏈(Short CoT)中呈現(xiàn)。
相比之下,隱式試錯搜索不依賴啟發(fā)式算法。相反,大語言模型在推理過程中主動調(diào)用自我評估和自我糾正等能力,并用自然語言表達這些操作。因此,試錯搜索中的長思維鏈不僅包含逐步推理,還融合自我評估、自我糾正與回溯操作,使整體推理過程更加透明且具有動態(tài)調(diào)整能力。
在性能方面,樹搜索也有成功的實現(xiàn),如rStar-Math [Guan 等,2025],它使用蒙特卡洛樹搜索和過程獎勵模型以及自我進化訓練,使小型大語言模型在性能上達到與O1相當?shù)乃健H欢罱拈_源項目,包括DeepSeek R1 [Team, 2024a]和Kimi k1.5 [Team 等,2025],都選擇了試錯搜索路線,獲得了顯著的泛化能力[Yeo 等,2025]。這些開源項目放棄使用短思維鏈的顯式樹搜索,轉(zhuǎn)而采用長思維鏈的試錯搜索的原因可以從其技術報告中推斷:
首先,樹搜索通常依賴獎勵模型或價值模型等驗證器提供評分,以實現(xiàn)細粒度的評估指導。然而,這些驗證器普遍存在泛化能力弱與獎勵欺騙嚴重的問題。這可能導致中間評估不準確,甚至因 LLM 利用捷徑最大化獎勵而引發(fā)訓練崩潰。相比之下,R1、Kimi k1.5和T1在搜索過程中利用自我評估能力,并在訓練過程中采用基于規(guī)則的結果獎勵,顯著減輕了獎勵欺騙并提高了泛化能力。
此外,樹搜索中驗證器的分數(shù)僅反映推理的相對質(zhì)量,未能指出錯誤或原因,導致評估質(zhì)量有限。相比之下,R1和類似項目通過自我評估生成口頭評估反饋,提供更豐富和更有信息的反饋。
最后,雖然樹搜索可以同時探索多條路徑,但這些路徑是獨立的。因此,中間經(jīng)驗無法在它們之間共享,降低了并行推理過程的利用率。這使得樹搜索與人類推理有顯著差異,因為在人類推理中,過去錯誤的見解指導后續(xù)推理,這在長思維鏈(Long CoT)的試錯搜索中可以看到。
雖然上述討論強調(diào)了與試錯搜索相比,顯式樹搜索的弱點,但并不意味著試錯搜索沒有缺點。
在試錯搜索中應用長思維鏈可能在兩個關鍵方面引入效率低下。1) 對于簡單任務,長思維鏈方法往往表現(xiàn)出過度思考。正如[Chen 等,2024f]所指出的,QwQ [Team, 2024b]和R1 [DeepSeek-AI 等,2025]等方法通常會探索多個潛在解決方案,即使初始解決方案通常已經(jīng)足夠。這種過度探索行為會引入顯著的計算資源消耗。2) 對于復雜任務,Wang 等[2025a]觀察到QwQ和R1容易思考不足。這些方法往往在未充分驗證當前推理路徑有效性前即過早放棄,導致策略頻繁切換,導致搜索過程不穩(wěn)定且效率低下,伴隨著不必要的冗長推理鏈。相比之下,基于短思維鏈的方法產(chǎn)生更簡潔的推理路徑,提供明顯的效率優(yōu)勢。[Wu 等,2025b; Xie 等,2025a]進一步論證,更長的思維鏈不一定能改善推理性能;相反,每個模型和任務都存在最佳思維鏈長度。因此,試錯搜索的低效率不僅增加了詞元使用和計算成本,還降低了性能。
此外,隱式試錯搜索嚴重依賴大語言模型的自我評估和自我糾正能力。一方面,這些能力的背景機制仍是需要進一步研究的領域;另一方面,這些能力在大語言模型的學習過程中尚未被特別優(yōu)化。R1 [DeepSeek-AI 等,2025]、kimi k1.5 [Team 等,2025]和T1 [Hou 等,2025]等模型在同一行動空間中僅使用結果級獎勵同時學習推理、評估、反思和錯誤糾正,但缺乏專門的獎勵信號來指導評估、反思和糾正能力的學習。結果,大語言模型中的這些能力沒有得到特別優(yōu)化,一個后果是,即使大語言模型在早期階段進行低質(zhì)量的反思或錯誤糾正,只要最終答案正確,它們?nèi)匀豢梢垣@得積極獎勵。此外,自我評估能力的不足是R1等方法經(jīng)常無法準確評估推理路徑,從而過早放棄有希望路徑的原因之一。
為解決效率低下問題,Kimi k1.5 [Team 等,2025]引入了長度懲罰作為長度獎勵的一部分,用于控制響應長度。Yeo 等[2025]設計了余弦獎勵函數(shù),對于正確響應,獎勵隨著長度縮短而增加,而對于錯誤響應,獎勵隨著長度增加而增加。Luo 等[2025]提出長度協(xié)調(diào)獎勵,抑制過長的響應。除引入新的獎勵函數(shù)外,Chen 等[2024f]采用偏好學習,將最短響應視為正例,最長響應視為負例,從而鼓勵大語言模型生成更短的思維鏈,抑制過長思維鏈的生成。我們在表1中簡要總結了這兩種搜索方法的差異。
表 1:兩種搜索范式的比較。
顯式樹搜索與隱式試錯搜索的統(tǒng)一這兩種搜索策略——樹搜索和試錯搜索——各自提供獨特優(yōu)勢,引發(fā)一個關鍵問題:它們之間的關系是什么,能否統(tǒng)一?我們從兩個角度探討這個問題。首先,我們從行動空間的角度分析這兩種搜索的相關性,重點關注不同元操作符的角色。
最初,兩種策略都包括逐步推理,短思維鏈主要由邏輯連貫的推理步驟組成。
然而,兩種策略在評估機制上有顯著差異。顯式樹搜索通常需要學習過程獎勵模型或價值模型來評估推理質(zhì)量,由于這些模型泛化能力差而引入高偏差。相比之下,試錯搜索依靠大語言模型的內(nèi)在自我評估能力來評估推理狀態(tài)。
關于后處理,我們以"糾正"為例進行分析。樹搜索通常缺乏直接糾正操作,盡管分支間切換可被視為一種形式上的錯誤糾正。然而,這種"糾正"無法利用先前嘗試的內(nèi)容,因為它們僅是在先前擴展階段預先采樣的,不同嘗試彼此獨立。例如,在蒙特卡洛樹搜索的擴展階段,同時采樣多個子候選行動。在隨后的選擇階段,當前狀態(tài)中選擇的行動可能與前一模擬中的不同,這可視為一種"糾正"。然而,此次模擬中選擇的新行動并非基于前一模擬中所選行動的評估反饋生成;相反,兩種行動都是在擴展階段獨立采樣的。
因此,與試錯搜索相比,當前樹搜索方法的主要限制主要在于其受限的行動空間。如果擴展樹搜索的行動空間以納入評估和糾正等行動,理論上它也可以促進長思維鏈的探索[Lin 等,2025]。
從推理能力進化的角度看,長思維鏈是解決新問題的有效方法,而短思維鏈代表通過對長思維鏈的持續(xù)訓練實現(xiàn)的最終目標。具體而言,人類在面對復雜任務時,通常先通過試錯探索,最終歸納出高效的求解路徑。可以學習這些有效途徑以減少不必要的試錯,從而縮短長思維鏈。因此,長思維鏈可視為處理復雜任務的初始和中間解決方案。一旦解決任務,從長思維鏈提煉的知識可用于學習短思維鏈,而短思維鏈又作為先驗知識,在處理更復雜任務時減少長思維鏈的試錯迭代。總之,強大的推理系統(tǒng)應具備動態(tài)切換長思維鏈與短思維鏈的能力,以實現(xiàn)探索性與高效性的自適應平衡。
4. 模型進化
在收集高質(zhì)量推理數(shù)據(jù)后,下一步是提升系統(tǒng)中各模型能力,為后續(xù)數(shù)據(jù)優(yōu)化打下基礎。由于任務創(chuàng)建器研究較少,本文聚焦于推理器、評估器和后處理器的訓練方法,并從強化學習視角總結現(xiàn)有工作,涵蓋行為克隆(Behavior Cloning)、偏好優(yōu)化(Preference Optimization)和強化學習(Reinforcement Learning)。
4.1 強化學習背景知識
為便于正文引用,本節(jié)先介紹幾種典型的強化學習算法。
4.1.1 從人類反饋強化學習(RLHF)出發(fā)
鑒于 ChatGPT [Ouyang 等,2022] 與 Claude OpenAI [2024a] 等產(chǎn)品的成功,本文從大語言模型后訓練中的人類反饋強化學習(Reinforcement Learning with Human Feedback, RLHF)[Ouyang 等,2022] 介紹強化學習方法。RLHF 是一種基于偏好的強化學習框架,包含兩個關鍵階段 [Wang 等,2024h]:
獎勵建模(Rewarding):收集偏好數(shù)據(jù)訓練獎勵模型 rθ。早期方法通過人工標注同一提示下的多個響應,并按質(zhì)量排序以表示人類偏好關系。
訓練目標如下:策略優(yōu)化(Policy Optimization):將大語言模型微調(diào)為策略模型 πref ,目標是最大化其所獲獎勵。過程包括生成內(nèi)容、通過獎勵模型評分,并使用 PPO [Schulman 等,2017] 進行優(yōu)化:
其中參考模型πref通常經(jīng)監(jiān)督微調(diào)(SFT)后凍結參數(shù)。KL散度項 用于限制偏離并保持多樣性,防止策略塌縮。
盡管 RLHF 最初用于對齊任務,該框架也可用于優(yōu)化推理能力。通過構建基于推理正確性的偏好數(shù)據(jù),可引導模型偏向生成正確推理路徑,抑制錯誤路徑,從而提升推理表現(xiàn)。
4.1.2 從 RLHF 到更高細粒度的 PPO
盡管 RLHF 使用 PPO 進行優(yōu)化,但在實際應用中,經(jīng)典 RLHF 通常被視為一種賭博機(bandit)方法,即將整句話視為一個整體動作 [Zhong 等,2024]。這是因為 RLHF 僅依賴結果級獎勵,缺乏細粒度的優(yōu)化信號。
相較于密集獎勵,稀疏獎勵會顯著增加學習難度 [Andrychowicz 等,2017],在復雜推理任務中尤為明顯。例如,在多步推理中,解答失敗并不意味著每一步都出錯,可能前幾步是正確的,僅后續(xù)步驟有誤。而僅使用結果獎勵,會在訓練中抑制那些正確的中間推理。為充分發(fā)揮強化學習潛力,需引入步驟級甚至詞元級獎勵作為更細粒度的優(yōu)化信號。要實現(xiàn)這一點,需要重新審視 PPO 算法的設計。
PPO [Schulman 等,2017] 是一種經(jīng)典的 on-policy 算法,在多個領域表現(xiàn)出良好的穩(wěn)定性與效果。其通用訓練目標為:
其中 y 表示策略模型生成的文本, |y| 表示其字符數(shù)。優(yōu)勢函數(shù)定義為 At = Q(st, yt) - V(st) 是優(yōu)勢函數(shù),即將動作值函數(shù) Q(st, yt) 歸一化至狀態(tài)值基線 V(st) ,以降低方差、提高學習穩(wěn)定性。實際訓練中常用廣義優(yōu)勢估計勢函數(shù)(Generalized Advantage Estimation, GAE)形式,以平衡偏差與方差:
其中 γ 是折扣因子,λ 是位于區(qū)間 [0, 1]的超參數(shù)。當 γ = 0 時,。
盡管 PPO 在 RLHF 中表現(xiàn)良好,但其對訓練資源的高要求限制了其在推理優(yōu)化中的應用。完整 PPO 框架包含四個模塊:策略模型(policy model)、參考模型(reference model)、價值模型(value model)和獎勵模型(reward model)。后兩者的初始化更進一步增加了訓練復雜度,并影響策略模型穩(wěn)定性。為簡化 PPO 框架,已有研究提出多種改進方法,如跳過對價值模型 [Shao 等,2024] 或獎勵模型 [Rafailov 等,2023] 的顯式建模與訓練。下面將介紹若干代表性工作,展示如何簡化 PPO 訓練流程以支持更高效的推理優(yōu)化。
4.1.3 從 PPO 到 REINFORCE
為降低訓練資源開銷,近期研究重新審視了 REINFORCE [Sutton 等,1999] 在大語言模型優(yōu)化中的潛力 [Li 等,2023d;Ahmadian 等,2024]。REINFORCE 是一種經(jīng)典的策略梯度算法,其傳統(tǒng)優(yōu)化目標為:
其中, 為累積獎勵,用于控制策略梯度更新的方向與步長。
然而,REINFORCE存在高方差問題,尤其體現(xiàn)在 R(st,at) 上,導致訓練過程不穩(wěn)定。為降低方差,常通過替換為動作值函數(shù) Q(st,at) 或優(yōu)勢函數(shù) A(st,at)(如 PPO 所采用),或引入基線項實現(xiàn)修正:
基線 b(st) 有多種實現(xiàn)方式。為避免額外訓練價值模型,ReMax [Li 等,2023d] 采用概率最高動作的獎勵作為基線:
Ahmadian 等 [2024] 提出 RLOO(REINFORCE Leave-One-Out)估計器。對于一個任務 qqq,RLOO 采樣多個響應 {r1,r2,...,rK},并使用除當前響應外其余軌跡的平均值作為基線:
在僅有結果級獎勵的 Bandit 場景中,Ahmadian 等 [2024] 發(fā)現(xiàn) RLOO 優(yōu)于 PPO。其原因可能在于,經(jīng)過大規(guī)模預訓練與微調(diào)的大語言模型本身就是強初始化策略,采樣軌跡的句子級方差較小。同時,RLOO 通過采樣估計價值函數(shù),減少了方差,并避免了顯式學習價值函數(shù)所帶來的偏差。
然而,這一優(yōu)勢主要體現(xiàn)在 bandit 設置中。對于多跳推理等需步驟級或詞元級密集獎勵的任務,RLOO 可能因方差過大而表現(xiàn)不佳。雖然 REINFORCE 簡化了結構并降低成本,但其穩(wěn)定性仍受限于獎勵信號的稀疏程度。
表 2:五種強化學習算法對比:PPO、RLOO、GRPO、DPO、PRIME (VM:價值模型;RM:獎勵模型;RefM:參考模型)
4.1.4 從 PPO 到 GRPO
在具備步驟級或詞元級獎勵的場景下,PPO 是微調(diào)策略模型的理想選擇,因其通過優(yōu)勢函數(shù)與裁剪操作保障訓練穩(wěn)定性。但如公式(5)所示,計算優(yōu)勢函數(shù) 需同時依賴獎勵模型與價值模型 V(st) 。通常,價值模型規(guī)模與推理器相當,訓練困難、易不穩(wěn)定,且大幅增加資源負擔。
為此,Shao 等 [2024] 提出 GRPO,利用蒙特卡洛(MC)采樣替代價值模型,對 PPO 進行改造。具體而言,對每個任務 q,GRPO 同時采樣 G 個完整解 y1, y2,…,yG,根據(jù)獎勵函數(shù)對每個解給予獎勵。
兩種獎勵版本:
使用 PRM 時,為每步分配獎勵,構造獎勵集:
其中 ki 表示 yi 中的步驟數(shù), 表示 yi 的第 j 步中結束詞元的索引。此時,優(yōu)勢函數(shù)計算如下:
使用 ORM 時,為每個解分配一個獎勵 ri,優(yōu)勢函數(shù)簡化為:
無論使用哪種模型,GRPO都將組內(nèi)獎勵標準化,以平均值替代價值模型作為基線,從而在訓練中抑制低質(zhì)量行為,強化高質(zhì)量行為。
最終,GRPO的優(yōu)化目標為:
其中是上一輪的參考模型。此外,為提高穩(wěn)定性,GRPO 在 PPO 基礎上加入 KL 散度項,但采用 Schulman [2020] 提出的無偏估計方法:
總結,GRPO 通過 MC 采樣估算優(yōu)勢函數(shù),無需引入價值模型,簡化了訓練架構,僅需策略模型、參考模型和獎勵模型。它繼承了 PPO 的穩(wěn)定性,同時利用 LLM 的強先驗性弱化了方差問題。MC 采樣帶來無偏估計,組內(nèi)標準化強化高質(zhì)量軌跡,顯著提升訓練穩(wěn)定性。GRPO 已在多個類 O1 的開源項目中成功應用,如 [Shao 等,2024;Yang 等,2024a;Wang 等,2024e;DeepSeek-AI 等,2025]。
4.1.5 從PPO到DPO
RLHF 需顯式建模并預訓練獎勵模型,增加了計算資源消耗與訓練復雜度。為此,DPO 首先指出了等式(3)的閉式解:
該結論說明,最優(yōu)策略模型 π*(y|x) 與獎勵模型 r( x, y) 緊密耦合。即設定獎勵模型即可對應一個最優(yōu)策略,最大化其隱含的最優(yōu)軌跡概率。DPO 將等式(14)變換為:
這意味著,獎勵函數(shù) r( x, y) 可由策略模型 π(y|x) 表達。因此,Rafailov 等 [2023] 提出:與其先訓練獎勵模型 r( x, y) 再優(yōu)化策略 π(y|x),不如直接優(yōu)化策略模型 π(y|x) 來的高效。在 RLHF 中,獎勵模型訓練通常基于 Bradley-Terry 偏好建模:
將等式(15)代入等式(16)后,DPO 可直接將該目標轉(zhuǎn)化為策略學習目標:
雖然 DPO 省去了獎勵模型建模,簡化 RLHF,降低了 LLM 優(yōu)化門檻。但后續(xù)研究也揭示了若干問題:
優(yōu)化粒度粗糙 原始 DPO 只在響應級別優(yōu)化偏好,難以精細區(qū)分復雜推理中的正確與錯誤步驟,容易將部分正確的響應也標記為負例。為此,后續(xù)提出了 step-DPO、token-DPO 等細粒度方法(詳見 §4.2.2)。
數(shù)據(jù)分布偏移:DPO 通常在離線場景訓練,先使用參考模型 πref 收集一批固定的偏好數(shù)據(jù)集,再用 DPO 訓練策略模型 πΦ 。該方法雖具有較高的訓練效率,但完全依賴靜態(tài)離線數(shù)據(jù)可能限制模型的持續(xù)學習能力 [Chen 等,2024a]。為緩解此問題,有研究將 DPO 拓展到在線學習框架。具體做法是:每輪先收集一批偏好數(shù)據(jù),使用 DPO 訓練策略模型,然后將新訓練得到的模型 πΦ 替換為下一輪數(shù)據(jù)收集的參考模型 πref,實現(xiàn)策略的持續(xù)迭代優(yōu)化。
正樣本被抑制 DPO 在訓練中不僅會降低負樣本概率,也可能誤傷正樣本,尤其當正負差異不顯著時。為解決該問題,研究者引入正則化項以強化對正負樣本質(zhì)量差異的建模 [Azar 等,2023;Le 等,2024]。
獎勵信號利用不足 DPO 未對偏好程度進行顯式建模,在獎勵數(shù)值可用的情況下,僅通過比較獎勵高低構造偏好對,而未直接利用獎勵信號本身,導致信息利用不足。同時,對偏好對數(shù)據(jù)的依賴也提高了訓練數(shù)據(jù)的構造成本。為解決這一問題,OREO [Wang 等,2024b] 提出一種全新的離線強化學習算法,僅依賴獎勵信號進行優(yōu)化,完全無需偏好對數(shù)據(jù)。
盡管 DPO 簡化了訓練流程,但其泛化能力仍不如 PPO [Li 等,2023c],甚至某些任務中不如直接 SFT [Yuan 等,2024b;Chen 等,2024d]。因此,多項擴展方法被提出:
fDPO:引入散度約束,增強偏好表達能力與魯棒性 [Wang 等,2023a]
cDPO:提升在噪聲反饋環(huán)境下的穩(wěn)定性 [Chowdhury 等,2024]
KTO:基于 Kahneman-Tversky 心理模型結合人類決策偏好 [Ethayarajh 等,2024]
GPO:用凸函數(shù)族參數(shù)化損失函數(shù),統(tǒng)一偏好學習框架 [Tang 等,2024]
ORPO:去除參考模型,僅使用偏好信息優(yōu)化策略,進一步簡化流程 [Hong 等,2024]
4.1.6 從 PPO 到 PRIME
Rafailov 等[2024]進一步分析DPO,并引入隱式獎勵(Implicit Reward)概念,其公式如下:
Rafailov 等[2024]認為,DPO 所訓練的策略模型實質(zhì)上充當了一個詞元級獎勵函數(shù),其中每個詞元的獎勵正是由該公式定義的隱式獎勵。這一機制的有效性已在多項工作中得到驗證 [Zhong 等,2024;Chen 等,2024a]。
Yuan 等 [2024c] 證明,若將結果獎勵函數(shù)定義為,則所得的 ORM 可直接用于計算詞元級獎勵。換句話說,按此格式訓練出的 ORM 本質(zhì)上也可作為過程獎勵模型(PRM)使用。具體而言,PRIME [Cui 等,2025] 包含四個核心組件:策略模型 πΦ、結果獎勵驗證器 ro、過程獎勵模型 πθ 及其對應的參考模型 πref。在生成響應 y 后,PRIME首先獲取結果級獎勵 ro(y) ,并通過交叉熵損失訓練 rθ(y):
其中 rθ(y) 被優(yōu)化以逼近真實的結果獎勵。該訓練過程中,過程獎勵模型 πθ 也同步更新,并可用于為每個詞元 yt 提供詞元級獎勵:
這正是隱式獎勵的計算形式。基于訓練好的 πθ,PRIME 可為策略模型 πΦ 提供精細的詞元級獎勵,從而與如 RLOO 等多種強化學習算法無縫對接(如原論文所示)。
PRIME 的核心思想是將整體結果獎勵分解到每個詞元,借助大規(guī)模采樣過程學習詞元級獎勵。對最終結果貢獻較大的詞元將獲得更高獎勵。該方法無需人工標注,可同時訓練策略模型與獎勵模型,既避免了獎勵欺騙問題,也提升了獎勵模型的泛化能力。
4.2 推理器優(yōu)化
4.2.1 行為克隆
在收集推理過程數(shù)據(jù)后,最直接的優(yōu)化方式是行為克隆(Behavior Cloning, BC),即監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)。然而,從理論上講,BC只能在正確的數(shù)據(jù)上進行。Yuan 等[2023a]和 Tong 等[2024]提出了拒絕微調(diào)(Rejection Fine-Tuning),通過答案標簽過濾錯誤的推理軌跡,僅在正確軌跡上進行微調(diào)。盡管這種方法能保證訓練數(shù)據(jù)的質(zhì)量,但會造成大量數(shù)據(jù)浪費。
為提升正確樣本的數(shù)量,Zelikman 等[2022]提出在錯誤解的基礎上引入“合理化(Rationalization)”步驟來重生成推理過程。Zhang 等[2023a]提出HIR(Hindsight Instruction Relabeling),通過重標指令使錯誤解可用,例如將“生成正確答案”改為“生成錯誤答案”,從而無需引入額...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.