距離ChatGPT發布已經過去兩年多了,現在的主流大模型已經很不同了,最大的區別就是推理Reasoning能力的發掘和應用。
什么是推理?舉一個很簡單的例子。比如有一道很簡單的數學題,27+62=?,傳統大模型(LLM,Large Language Model)碰到這種題會調用自己的記憶和檢索能力,從海量的數據庫里找到27+62 = 89 或者62+27 = 89這種結果,然后輸出正確答案。
而推理大模型(LRM,Large Reasoning Model)處理這種問題的思路不一樣,它是真正的在模仿人類的思考方式,首先個位數相加 7+ 2 = 9,不需要進位,然后十位數相加 2+ 6 = 8,最后組合成89這個正確答案。
你看出區別沒,LRM學到的是真正的通用知識,而LLM更多的是靠腦子硬記,而一旦碰到沒背過的題,很容易就捉瞎了。
但實際上對于大多數的問題,從結果出發這兩種大模型可能并沒有太多的不同。但是一旦涉及到稍微復雜點的問題,比如高等數學、復雜推理等,那LLM幾乎無從下手。
其實大家對于LRM應該不陌生,因為幾乎人人都用過LRM,大名鼎鼎的DeepSeek-R1就是典型的LRM,它就是靠火速追趕上OpenAI發布的一個推理模型而聞名于世的。而從LLM->LRM,最重要的一個步驟就叫強化學習RL(Reinforcement Learning),你來看DeepSeek-R1的論文標題,直接就點明了,LLM的推理能力就是靠RL激活的。
RL是一個好東西,它的訓練邏輯很簡單:先把一堆題目(prompts)一次性“跑完一遍”得到所有的思考鏈和答案,然后把這些完整的數據一次性拿去更新模型。等模型更新好了,再用新模型去下一批題目,重復同樣的流程。
原理很簡單,但是它麻煩就麻煩在需要大規模訓練的時候,每一批的思考鏈和答案的長度可能相差很大,也就是說,有的回答早就生成好了,但有些距離結束還早,這樣結束了的都在等還在生成的。
這就正好對應了現在LRM的主流訓練方式,它叫同步(Synchronous)訓練,與之相對的是異步(Asynchronous),同樣的四個工作,同步需要的時間=所有工作的總和,而異步方式就要快很多。
這就是現在LRM訓練時候的尷尬之處,特別是模型越來越大之后,訓練時間也到了嚴重拖慢進度的程度,更重要的,同步訓練方式會造成大量的資源在等,在AI大模型發展階段,這種行為無異于是浪費最寶貴的算力資源。
那么總結一下:同步訓練會主要帶來了三個問題:
(1)GPU 利用率低
(2)訓練周期長
(3)難以擴展到更復雜的任務和更長的思考過程
而清華和螞蟻近期開源的AReaL-boba2就是一項前瞻性的全異步強化學習工作,他們的論文《AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning》,簡稱AReaL(這里其實指的是AReaLv0.3版,研究小組給它命名為AReaL-boba2,以下同)恰恰就是為了解決LRM同步訓練的幾個痛點的,它的解決方案就是利用異步訓練方式,最終實現大規模異步強化學習系統。
開源地址:
https://github.com/inclusionAI/AReaL
論文:
https://arxiv.org/pdf/2505.24298
模型:
https://huggingface.co/collections/inclusionAI/areal-boba-2-683f0e819ccb7bb2e1b2f2d5
論文中圖一??里面提到了,現有的兩種訓練方式本質上都是同步模式,可以看到每一塊的處理都得等最長的(用時最長)的那個生成任務(藍色條)。
而實際上第二和第六個任務早就完成了,同步的思路會讓GPU只能處于等待狀態,而改良后的one-step overlap方式其實也差不太多,都得等最長的任務結束。
而AReaL-boba2最大的貢獻就是把GPU等算力資源用到了極限了,達到了下面的這種效果,幾乎所有算力資源都被用的滿滿當當,這就是LRM訓練的理想狀態。
而實現AReaL-boba2如此高效的主要原因有兩個:
架構創新
算法創新
架構創新的主要點就在于下面這個圖,它實現了一個關鍵功能,AReaL-boba2徹底解耦了數據生成與模型訓練過程。這意味著生成工作節點(rollout workers)可以持續不斷地產生新的推理序列,而無需等待其他節點或模型更新;同時,訓練工作節點(trainer workers)一旦收集到足夠的數據批次,即可進行模型參數更新。
原來的訓練是需要等同一批次的數據生成,然后一次性全部送入下一次訓練,這種固定模式的改變主要歸功于AReaL-boba2提出的Interruptible Rollout Worker,其中interruptible是關鍵,它的意思是可中斷,簡單來說:可中斷生成就是當模型還在“邊想邊寫”某個回答時,如果訓練那邊出了新版本,就會立刻讓它停下來,換上新版本后繼續接著寫。
這種方式可以把長流程拆成幾段,讓生成和訓練同時進行,彼此不必等對方都結束才開始。
這就是「異步」實現的架構基礎,這就是徹底的異步,你生成你的,我訓練我的,兩者互不干涉,并且都能以全速開動。
在論文提供的Github官方代碼庫中的,realhf/system/rollout_worker.py中可以看到這部分的實現邏輯,當模型需要更新權重的時候,rollout會用新的權重來生成數據。
你也能從partial_rollout文件中看到部分rollout的實現邏輯。
同時還有配套的Trainer Worker、Rollout Controller 和 Reward Service與可中斷Rollout Worker形成了一個非常靈活的架構,大家通過一個共享的池子來實現信息共享和互換。
你可以看到這種靈活架構的優勢,算力資源的利用率達到了最大,同時在處理很長的生成回答(長序列)文本也有巨大的優勢。
當然了這種異步思想并不是第一次出現,在游戲 AI 領域有一些經典異步工作,如 A3C, IMPALA, SEED RL等,他們也有類似的數據生成和模型訓練“隔離”的操作,但是區別也很大,因為大型語言模型推理面臨著兩個獨特的挑戰:
極長的序列長度: LLM 推理(思維鏈)可以產生非常長的 token 序列,這與游戲中通常較短的動作序列不同。
巨大的模型參數: LLM 的參數量遠大于傳統 RL 任務中的模型。
前兩個挑戰相信大家也都有所了解,那就是現在的LRM動不動就需要消耗1,2萬的token,因為LRM在推理的時候需要花費大量的資源進行思考,特別是在Agent AI的時代,有一些任務單步操作就需要用幾十萬-上百萬的token進行閱讀和思考。另外一個就是模型大小非常大,訓練的時候需要循序漸進,步子太大容易扯著,這樣很容易把大模型搞崩。
AReaL-boba2在架構層次上的創新也帶來了算法層面的挑戰,有兩個主要的問題:數據陳舊性和解耦PPO算法。
第一個問題很好理解,以前的同步訓練,生成一批,訓練一批,所有的生成數據都是最新的,AReaL-boba2的異步不同,有些數據是新的,有些數據還是以前的老模型生成的,這就造成了一個問題,那就是如何處理這些老數據。
實際上,模型每一次的更新幅度并不大,特別是對于LRM來說,動不動訓練幾天,甚至幾個月,每一次的更新幅度帶來的生成數據差別并不大,舊的生成數據價值并不低。AReaL-boba2引入了最大允許陳舊度參數 η。這意味著,如果當前模型版本為 i,則訓練時僅使用由版本i-η 至i-1 的策略生成的數據。系統會優先消耗經驗池中相對較舊但仍在η 范圍內的軌跡,以此確保訓練數據的整體新鮮度在一個可控的滯后范圍內,避免因數據過度陳舊導致學習性能下降,同時最大化異步生成帶來的數據吞吐量。
第二個問題也是由于異步帶來的,那就是模型會中途更新,所以一個模型的更新可能會受到很多批數據的影響,那到底是新的數據帶來的影響大還是舊的數據,傳統的PPO算法需要這個信息,而AReaL-boba2的創新是承認這條數據是“集體智慧”的產物,它的好壞(優勢)還是看實際效果。在進行PPO學習時,不直接比較當前策略與那條可能由多個舊策略混合生成的復雜數據,而是將當前策略與一個固定的、較新的舊策略版本進行比較和調整,以此來穩定學習過程。
同樣做了算法消融實驗,標準 PPO 對數據陳舊性非常敏感,即使是很小的陳舊度也會導致性能大幅下降 (下a圖),AReaL 提出的解耦 PPO 目標函數能夠在允許一定程度數據陳舊性(η ≤ 4 甚至 η=8)的情況下,依然保持甚至提升最終的模型性能 (下b圖)。
可以看到AReal做的算法創新并不是孤立的,而是與異步系統架構是相輔相成的,因為引入了新的結構必定會擾動原有的穩定性,AReal修正了這些變化。
這也是是AReaL-boba2這個工作的核心價值,它在效率和性能上的突破很明顯,模型大小不變,在AReaL-boba2訓練后,性能得到了明顯的提升,同時訓練時間只有其他方法的一半左右。
可以說,這個工作在LRM大行其道,并且越來越被Agent AI需要的時代,它未來的工作方向如同論文中所說,會集中在動態資源調配、多輪交互、智能體等)。特別是它對于降低頂尖LRM研發門檻有非常重要的作用,最終實現加速AGI實現的終極愿景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.