網易首頁 > 網易號 > 正文申請入駐

AReaL:?推理大模型的訓練解耦，可中斷的數據生成和配套的解耦PPO目標函數

2025-06-10 12:49:55　來源: 平凡AI

海外舉報

分享至

距離ChatGPT發布已經過去兩年多了，現在的主流大模型已經很不同了，最大的區別就是推理Reasoning能力的發掘和應用。

什么是推理？舉一個很簡單的例子。比如有一道很簡單的數學題，27+62=？，傳統大模型（LLM，Large Language Model）碰到這種題會調用自己的記憶和檢索能力，從海量的數據庫里找到27+62 = 89 或者62+27 = 89這種結果，然后輸出正確答案。

而推理大模型（LRM，Large Reasoning Model）處理這種問題的思路不一樣，它是真正的在模仿人類的思考方式，首先個位數相加 7+ 2 = 9，不需要進位，然后十位數相加 2+ 6 = 8，最后組合成89這個正確答案。

你看出區別沒，LRM學到的是真正的通用知識，而LLM更多的是靠腦子硬記，而一旦碰到沒背過的題，很容易就捉瞎了。

但實際上對于大多數的問題，從結果出發這兩種大模型可能并沒有太多的不同。但是一旦涉及到稍微復雜點的問題，比如高等數學、復雜推理等，那LLM幾乎無從下手。

其實大家對于LRM應該不陌生，因為幾乎人人都用過LRM，大名鼎鼎的DeepSeek-R1就是典型的LRM，它就是靠火速追趕上OpenAI發布的一個推理模型而聞名于世的。而從LLM->LRM，最重要的一個步驟就叫強化學習RL（Reinforcement Learning），你來看DeepSeek-R1的論文標題，直接就點明了，LLM的推理能力就是靠RL激活的。

RL是一個好東西，它的訓練邏輯很簡單：先把一堆題目（prompts）一次性“跑完一遍”得到所有的思考鏈和答案，然后把這些完整的數據一次性拿去更新模型。等模型更新好了，再用新模型去下一批題目，重復同樣的流程。

原理很簡單，但是它麻煩就麻煩在需要大規模訓練的時候，每一批的思考鏈和答案的長度可能相差很大，也就是說，有的回答早就生成好了，但有些距離結束還早，這樣結束了的都在等還在生成的。

這就正好對應了現在LRM的主流訓練方式，它叫同步（Synchronous）訓練，與之相對的是異步（Asynchronous），同樣的四個工作，同步需要的時間=所有工作的總和，而異步方式就要快很多。

這就是現在LRM訓練時候的尷尬之處，特別是模型越來越大之后，訓練時間也到了嚴重拖慢進度的程度，更重要的，同步訓練方式會造成大量的資源在等，在AI大模型發展階段，這種行為無異于是浪費最寶貴的算力資源。

那么總結一下：同步訓練會主要帶來了三個問題：

（1）GPU 利用率低
（2）訓練周期長
（3）難以擴展到更復雜的任務和更長的思考過程

而清華和螞蟻近期開源的AReaL-boba2就是一項前瞻性的全異步強化學習工作，他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》，簡稱AReaL（這里其實指的是AReaLv0.3版，研究小組給它命名為AReaL-boba2，以下同）恰恰就是為了解決LRM同步訓練的幾個痛點的，它的解決方案就是利用異步訓練方式，最終實現大規模異步強化學習系統。

開源地址：

https://github.com/inclusionAI/AReaL

論文：

https://arxiv.org/pdf/2505.24298

模型：

https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5

論文中圖一??里面提到了，現有的兩種訓練方式本質上都是同步模式，可以看到每一塊的處理都得等最長的（用時最長）的那個生成任務（藍色條）。

而實際上第二和第六個任務早就完成了，同步的思路會讓GPU只能處于等待狀態，而改良后的one-step overlap方式其實也差不太多，都得等最長的任務結束。

而AReaL-boba2最大的貢獻就是把GPU等算力資源用到了極限了，達到了下面的這種效果，幾乎所有算力資源都被用的滿滿當當，這就是LRM訓練的理想狀態。

而實現AReaL-boba2如此高效的主要原因有兩個：

架構創新
算法創新

架構創新的主要點就在于下面這個圖，它實現了一個關鍵功能，AReaL-boba2徹底解耦了數據生成與模型訓練過程。這意味著生成工作節點（rollout workers）可以持續不斷地產生新的推理序列，而無需等待其他節點或模型更新；同時，訓練工作節點（trainer workers）一旦收集到足夠的數據批次，即可進行模型參數更新。

原來的訓練是需要等同一批次的數據生成，然后一次性全部送入下一次訓練，這種固定模式的改變主要歸功于AReaL-boba2提出的Interruptible Rollout Worker，其中interruptible是關鍵，它的意思是可中斷，簡單來說：可中斷生成就是當模型還在“邊想邊寫”某個回答時，如果訓練那邊出了新版本，就會立刻讓它停下來，換上新版本后繼續接著寫。

這種方式可以把長流程拆成幾段，讓生成和訓練同時進行，彼此不必等對方都結束才開始。

這就是「異步」實現的架構基礎，這就是徹底的異步，你生成你的，我訓練我的，兩者互不干涉，并且都能以全速開動。

在論文提供的Github官方代碼庫中的，realhf/system/rollout_worker.py中可以看到這部分的實現邏輯，當模型需要更新權重的時候，rollout會用新的權重來生成數據。

你也能從partial_rollout文件中看到部分rollout的實現邏輯。

同時還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個非常靈活的架構，大家通過一個共享的池子來實現信息共享和互換。

你可以看到這種靈活架構的優勢，算力資源的利用率達到了最大，同時在處理很長的生成回答（長序列）文本也有巨大的優勢。

當然了這種異步思想并不是第一次出現，在游戲 AI 領域有一些經典異步工作，如 A3C, IMPALA, SEED RL等，他們也有類似的數據生成和模型訓練“隔離”的操作，但是區別也很大，因為大型語言模型推理面臨著兩個獨特的挑戰：

極長的序列長度： LLM 推理（思維鏈）可以產生非常長的 token 序列，這與游戲中通常較短的動作序列不同。
巨大的模型參數： LLM 的參數量遠大于傳統 RL 任務中的模型。

前兩個挑戰相信大家也都有所了解，那就是現在的LRM動不動就需要消耗1，2萬的token，因為LRM在推理的時候需要花費大量的資源進行思考，特別是在Agent AI的時代，有一些任務單步操作就需要用幾十萬-上百萬的token進行閱讀和思考。另外一個就是模型大小非常大，訓練的時候需要循序漸進，步子太大容易扯著，這樣很容易把大模型搞崩。

AReaL-boba2在架構層次上的創新也帶來了算法層面的挑戰，有兩個主要的問題：數據陳舊性和解耦PPO算法。

第一個問題很好理解，以前的同步訓練，生成一批，訓練一批，所有的生成數據都是最新的，AReaL-boba2的異步不同，有些數據是新的，有些數據還是以前的老模型生成的，這就造成了一個問題，那就是如何處理這些老數據。

實際上，模型每一次的更新幅度并不大，特別是對于LRM來說，動不動訓練幾天，甚至幾個月，每一次的更新幅度帶來的生成數據差別并不大，舊的生成數據價值并不低。AReaL-boba2引入了最大允許陳舊度參數 η。這意味著，如果當前模型版本為 i，則訓練時僅使用由版本i-η 至i-1 的策略生成的數據。系統會優先消耗經驗池中相對較舊但仍在η 范圍內的軌跡，以此確保訓練數據的整體新鮮度在一個可控的滯后范圍內，避免因數據過度陳舊導致學習性能下降，同時最大化異步生成帶來的數據吞吐量。

第二個問題也是由于異步帶來的，那就是模型會中途更新，所以一個模型的更新可能會受到很多批數據的影響，那到底是新的數據帶來的影響大還是舊的數據，傳統的PPO算法需要這個信息，而AReaL-boba2的創新是承認這條數據是“集體智慧”的產物，它的好壞（優勢）還是看實際效果。在進行PPO學習時，不直接比較當前策略與那條可能由多個舊策略混合生成的復雜數據，而是將當前策略與一個固定的、較新的舊策略版本進行比較和調整，以此來穩定學習過程。

同樣做了算法消融實驗，標準 PPO 對數據陳舊性非常敏感，即使是很小的陳舊度也會導致性能大幅下降 (下a圖），AReaL 提出的解耦 PPO 目標函數能夠在允許一定程度數據陳舊性（η ≤ 4 甚至 η=8）的情況下，依然保持甚至提升最終的模型性能 (下b圖)。

可以看到AReal做的算法創新并不是孤立的，而是與異步系統架構是相輔相成的，因為引入了新的結構必定會擾動原有的穩定性，AReal修正了這些變化。

這也是是AReaL-boba2這個工作的核心價值，它在效率和性能上的突破很明顯，模型大小不變，在AReaL-boba2訓練后，性能得到了明顯的提升，同時訓練時間只有其他方法的一半左右。

可以說，這個工作在LRM大行其道，并且越來越被Agent AI需要的時代，它未來的工作方向如同論文中所說，會集中在動態資源調配、多輪交互、智能體等）。特別是它對于降低頂尖LRM研發門檻有非常重要的作用，最終實現加速AGI實現的終極愿景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.