網易首頁 > 網易號 > 正文申請入駐

后訓練時代如何延續Scaling Law？這是你該讀的LLM后訓練綜述

2025-05-01 16:09:12　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

現如今，微調和強化學習等后訓練技術已經成為提升 LLM 能力的重要關鍵。

近日，一份圍繞 LLM 后訓練的綜述報告收獲了不少好評，其整理相關論文和工具的資源庫已經收獲了超過 700 star。

該綜述來自阿聯酋人工智能大學、中佛羅里達大學、谷歌 DeepMind 和牛津大學等多所機構，涵蓋通過強化學習增強 LLM 的技術、監督式微調、測試時擴展以及 LLM 后訓練基準評估等內容。

論文標題：LLM Post-Training: A Deep Dive into Reasoning Large Language Models
論文地址：https://arxiv.org/abs/2502.21321
資源庫：https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

機器之心在下面簡要整理了該綜述報告的內容主干，更多詳情請訪問以上鏈接。

近些年，大型語言模型（LLM）的能力在不斷提升，應用領域也在急速擴展。盡管如此，仍有問題存在。

比如 LLM 可能出現所謂的「幻覺」，即生成誤導性內容或不正確的事實；也可能在較長的會話中難以保持邏輯一致性。此外，LLM 中的推理概念仍然是一個備受爭論的話題。雖然推理模型可以給出看似邏輯連貫的響應，但它們的推理與人類那樣的邏輯推理有著根本的不同。這種區別至關重要，因為這有助于解釋為什么 LLM 雖然可以產生令人信服的輸出，但卻仍然會在相對簡單的邏輯任務上遇到困難。

與操縱顯式規則和事實的符號推理不同，LLM 以隱式和概率的方式運行。在這篇綜述報告中，LLM 的「推理（reasoning）」是指基于數據中的統計模式生成邏輯上連貫的響應，而不是顯式的邏輯推理或符號操作。

此外，僅通過下一 token 預測訓練得到的模型可能無法與用戶的期望或道德標準對齊，尤其是在模糊或惡意場景中。這些問題表明，為了解決 LLM 輸出中的可靠性、偏差和上下文敏感性問題，還需要專門的策略。

LLM 的訓練過程大致可分為兩個階段：預訓練和后訓練。

預訓練階段通常依賴在大規模語料庫上的下一 token 預測目標，后訓練階段通常則包括多輪微調和對齊。后訓練機制的目標是通過優化模型行為來改進模型行為以及實現與人類意圖的對齊（包括減少偏見和不準確度）。

要讓 LLM 適應特定領域的任務，通常涉及到微調等技術。這些技術雖然可以實現針對具體任務的學習，但也存在過擬合的風險，并且還會產生高計算成本。

為了解決這些難題，強化學習（RL）被引入進來；這能讓模型使用動態的反饋和優化序列決策來提升適應能力。此外，包括低秩適應（LoRA）、適配器和檢索增強生成（RAG）在內的 scaling 技術也可提高計算效率和事實準確性。

這些策略加上分布式訓練框架，促進了大規模部署，并進一步提高了 LLM 在不同應用中的可用性，見下圖 1。通過這些目標明確的后訓練技術，LLM 可以更好地與人類意圖和道德倫理要求對齊，最終提高其在現實世界中的適用性。下面總結了關鍵的后訓練階段。

微調

微調（Fine-Tuning）是讓已經預訓練的 LLM 適應具體的任務或領域，具體做法是基于精選數據集來更新參數。

盡管經過大規模預訓練的 LLM 通常具有很好的泛化能力，但微調也確實可以增強其在具體任務上的能力，包括情緒分析、問答和醫療診斷。這個過程通常是監督式的，可以使模型與任務要求對齊，但也會帶來過擬合、高計算成本和對數據偏差的敏感性等難題。

為此，LoRA 和適配器等參數高效型技術可通過更新顯式參數來學習特定于任務的適應，從而顯著減少計算開銷。隨著模型的專業化，它們可能會在領域外泛化方面遇到困難，為此需要權衡考慮模型的專業性或多功能性。

強化學習

在傳統的強化學習（Reinforcement Learning）設置中，智能體需要與結構化環境交互，采取離散的動作在狀態之間轉換，同時最大化累積獎勵。適用強化學習的領域都應具有定義良好的狀態 - 動作空間和明晰的目標，比如機器人、棋盤游戲和控制系統。

而 LLM 領域的強化學習有很大不同。LLM 并不是從一個有限的動作集中進行選取，而是從一個巨大詞匯表中選取 token，而它們不斷演進的狀態則是由不斷增長的文本序列構成。這樣一來，規劃和 credit 分配就會變得非常復雜，因為 token 選取的效果通常要到后面才會顯現。

另外，基于語言的強化學習中的反饋存在稀疏、主觀和延遲的特點，因此通常依賴于啟發式評估和用戶偏好，而不是明確的性能指標。

不同于通常針對單個目標進行優化的傳統強化學習，LLM 還必須平衡多個有時相互沖突的目標。將基于過程的獎勵（例如，思維鏈推理）與基于結果的評估（例如，響應質量）相結合的混合方法有助于改進學習效果。因此，LLM 的強化學習需要專門的優化技術來處理高維輸出、非穩態目標和復雜的獎勵結構，確保響應保持上下文相關性并與用戶期望對齊。

規模擴展

規模擴展（Scaling）對于提高 LLM 的性能和效率至關重要。這能幫助提升模型在任務上的泛化性能，但同時也會帶來顯著的計算挑戰。為了平衡性能和資源效率，需要在推理時采取有針對性的策略。

思維鏈（CoT）推理和思維樹（ToT）框架等技術通過將復雜問題分解為順序或樹狀結構的步驟來增強多步驟推理。此外，基于搜索的技術可以迭代探索可能的輸出，幫助改進響應并確保更高的事實準確性。這些方法與 LoRA、適配器和 RAG 等方法相結合，可以提升模型處理復雜、特定領域大規模任務的能力。

RAG 可通過動態檢索外部知識來提高事實準確性，從而緩解靜態訓練數據的局限性。
分布式訓練框架可利用并行處理來管理大規模模型的高計算需求。
測試時擴展可根據任務復雜性動態調整參數來優化推理。
修改深度、寬度或活動層可以平衡計算效率和輸出質量，使其適應資源有限或多變的條件。

盡管擴展方面進步頗多，但挑戰仍在，例如收益遞減、推理時間更長以及環境影響，尤其是在測試時而不是訓練期間執行搜索技術時。為了高質量、高效地部署 LLM，確保可訪問性和可行性是至關重要的。

背景信息

該綜述報告的第二部分介紹了 LLM 后訓練相關的背景信息，其中包括基礎的形式化描述、基于強化學習的序列推理、以及用于語言建模的早期強化學習方法。但這里我們就略過了，詳見原報告。

表 1 概述了近期的模型，包括它們的參數、架構類型和所采用的蒸餾 RL 方法。

圖 2 則總結了 LLM 的推理方法，其中展示了通過思維鏈（CoT）提示、自我反饋和情景記憶等方法增強推理能力的途徑。同時也突出展示了多種基于強化學習的優化技術，包括 GRPO、RLHF、DPO 和 RLAIF。

強化 LLM

從方法論的角度來看，為了將強化學習集成到 LLM 推理中，通常要遵循以下核心步驟：

1、監督式微調（SFT）：從預訓練語言模型開始，在包含高質量、人工制作的示例樣本的監督數據集上，對模型進行微調。此階段可確保模型獲得符合格式和樣式的基線。

2、獎勵模型（RM）訓練：收集微調模型生成的輸出并進行人工偏好標注。然后對獎勵模型進行訓練以復現這些基于標簽的分數或排名，從而有效地學習將響應文本映射到標量值的連續獎勵函數。

3、強化學習微調：最后，通過策略梯度算法（例如 PPO）優化主語言模型，以最大化獎勵模型的輸出。通過迭代此循環，LLM 可學習在準確性、有用性和風格連貫性等關鍵維度上生成人類更偏好的響應。

4、獎勵建模和對齊：開發復雜的獎勵函數（借鑒人類偏好、對抗性反饋或自動化指標）以引導模型獲得連貫、安全且適配上下文的輸出。為了在多步推理過程中有效分配 credit，這些獎勵至關重要。

在早期，將 LLM 與人類偏好對齊的強化學習算法是經典算法，例如 PPO 和信任域策略優化（TRPO），這些算法優化策略的方式是最大化預期累積獎勵，同時通過智能體目標函數和 KL 散度正則化對策略更新施加約束。

針對可擴展的基于偏好的優化，已經出現了這些方法的改進版替代方案，例如直接偏好優化（DPO）和組相對策略優化（GRPO）。這些方法是將對齊目標重新表述為基于人類標注的偏好數據的排名式對比損失函數。

不同于依賴顯式獎勵模型和評價網絡的 PPO 和 TRPO，DPO 和 GRPO 分別利用對數似然比和組獎勵比較來直接優化策略，從而無需顯式價值函數近似，同時還能保留偏好一致的學習動態。

這一節涉及的具體內容如下：

獎勵建模

顯示顯式獎勵建模
隱式獎勵建模
結果獎勵建模
過程獎勵建模
使用自適應獎勵模型的迭代式強化學習

策略優化

勝算比偏好優化（ORPO）
LLM 中的近端策略優化（PPO）
基于人類反饋的強化學習（RLHF）
基于 AI 反饋的強化學習（RLAIF）
信任區域策略優化（TRPO）
直接偏好優化（DPO）
離線推理優化（OREO）
組相對策略優化（GRPO）
多樣本比較優化

圖 3 給出了 PPO、GRPO 和 DPO 的比較。

基于純強化學習的 LLM 微調

冷啟動強化學習階段
拒絕采樣和微調
面向推理的強化學習
用于人類對齊的第二個強化學習階段
蒸餾以獲得較小模型

圖 4 的維恩圖說明了在實現高效的微調和部署時，系統、數據和模型之間的相互作用。它涵蓋了用以提升性能和可擴展性的加速器（Groq、vLLM）、適應器（LoRA、PEFT）、共同優化架構（FlashAttention）、數據壓縮（TokenMerging）、Scaling Law（Chinchilla）和模型壓縮（GPTQ）等策略。

LLM 中的監督微調

如圖 2 所示，微調是 LLM 后訓練配方的基本組成部分。這一節總結了不同類型的 LLM 微調機制，具體包括：

指令微調
對話（多輪）微調
CoT 推理微調
特定于具體領域的（專業）微調
基于蒸餾的微調
偏好和對齊 SFT
高效微調

下表概括性地總結了現代的 LLM 框架和方法。

測試時擴展方法

強化學習微調的是模型的策略，而測試時擴展（TTS）通常是在推理過程中增強模型的能力，這個過程無需更新模型。圖 5 給出了 TTS 方法的分類情況 —— 基于其底層技術進行了分類。

具體來說，包含以下技術：

集束搜索
Best-of-N 搜索（拒絕抽樣）
計算最優擴展
思維鏈提示
自我一致性解碼
思維樹（Tree-of-thoughts）
思維圖譜（Graph of Thoughts）
基于置信度的采樣
針對驗證者進行搜索
通過優化實現自我改進
蒙特卡洛樹搜索（MCTS）
行動-思維鏈推理
預訓練與測試時擴展

圖 6 則比較了 LLM 的推理策略，從直接提示法（不使用推理地將輸入映射到輸出）到更結構化的方法。

思維鏈（CoT）引入了逐步推理，而自我一致性（CoT-SC）則是生成多個 CoT 路徑并選擇最常出現的答案。Mutiple CoT 會獨立探索不同的推理路徑。思維樹（ToT）則是將推理構造為樹，從而實現回溯和細化，而思維圖譜（GoT）則是通過對思維進行動態聚合和連接來實現這一點。

LLM 后訓練評估基準

為了評估 LLM 后訓練階段的表現，人們已經提出了很多涉及多個領域的基準：

推理
強化學習對齊
多語言評估
通用理解
對話和搜索

結構良好的評估框架可確保全面了解 LLM 在各種任務中的優勢和局限性。

這些基準在 LLM 后處理階段起著至關重要的作用，模型在此階段經過微調、校準、對齊和優化，可以提高響應準確性、穩健性和道德合規性。本節分組介紹了主流的基準。表 3 概述了這些基準分組下的關鍵數據集。

未來方向

最后，作者團隊還收集了與 LLM 后訓練方法相關的論文并分析了它們的趨勢，如圖 7 所示。

可以看到，自 2020 年以來，強化學習在優化 LLM 方面的地位有了顯著提升（圖 7a），其中還突出了對交互式方法的需求，例如人機交互強化和可擴展性。

與此同時，由于自我獎勵語言模型的出現，人們對獎勵建模（圖 7b）的興趣也在穩步上升，但該領域仍在努力應對獎勵 hacking 問題，以及設計解決獎勵 hacking 的穩健型、可感知問題的獎勵函數。

解碼和搜索（圖 7c）方法包括思維和蒙特卡洛策略，其目標是通過迭代自我批評來增強模型推理能力，但這些技術也需要可靠的不確定性估計器，以防止計算開銷過高。

安全性、穩健性和可解釋性同樣已成為核心關注點（圖 7d），這個方向的研究者推動了偏見感知型和不確定性感知型強化學習方法的發展，這些方法超越了與人類不確定性的相關性，可以維護用戶信任并防止對抗性攻擊。

個性化和適應性（圖 7e）也是關鍵領域 —— 在為特定領域定制 LLM 時，必須權衡考慮隱私風險，特別是涉及企業數據或敏感個人信息時。

與此同時，過程與結果獎勵優化（圖 7f）仍然是一個懸而未決的問題：雖然基于過程的獎勵有助于指導漸進式改進，但以結果為中心的指標更簡單，但可能無法捕捉關鍵的中間決策步驟。

除了獎勵結構之外，針對新任務微調 LLM 時仍然會遇到災難性遺忘和潛在的數據泄露等問題，這就凸顯了對參數高效型方法和隱私保護策略（如差分隱私和聯邦學習）的需求。

人工反饋雖然是對齊的核心，但其成本高昂且范圍有限；Constitutional AI 和 RLAIF 等方法希望實現部分監督的自動化，盡管它們也引發了人們對偏差校準和模型自洽性的新擔憂。

最后，測試時擴展和動態推理框架也帶來了進一步的挑戰：模型必須學習何時為復雜查詢分配更多計算，如何有效地調整驗證模塊，以及如何在面對對抗性輸入時保持穩健的性能。這些融合的研究方向（涵蓋獎勵建模、解碼策略、可解釋性、個性化和安全微調）凸顯了強化學習在 LLM 中作用的多樣性，并共同塑造了大規模語言模型開發的未來軌跡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.