網易首頁 > 網易號 > 正文申請入駐

萬字長文帶你讀懂強化學習，去中心化強化學習又能否實現？

2025-05-07 16:26:52　來源: 機器之心Pro

北京舉報

分享至

選自 Symbolic Capital

作者：Sam Lehman

機器之心編譯

強化學習（RL）是當今 AI 領域最熱門的詞匯之一。近日，一篇長文梳理了新時代的強化學習范式對于模型提升的作用，同時還探索了強化學習對去中心化的意義。

原文地址：https://www.symbolic.capital/writing/the-worlds-rl-gym

「有時候幾十年什么也不會發生；有時候幾周時間仿佛過了幾十年。」這句話形容當今的現代 AI 領域最為貼切。似乎每天都有新的突破性模型、訓練方法或公司涌現，迫使我們重新思考 AI 世界的可能性。今年早些時候是 DeepSeek，接下來是星際之門項目，現在還有 Qwen、Manus、MCP 等。誰知道接下來會發生什么？

目前，在打造更好的模型方面，通過預訓練以及最近的測試時間計算進行 scaling 是引領性方法。但最近，隨著 DeepSeek-R1 和 R1-Zero 的發布，人們開始更加親睞一種不同的模型 scaling 方法 —— 強化學習（RL）。本文的目標是探索基于 RL 的模型改進的含義，并會特別關注 RL 過程是否適合去中心化。

本文希望給讀者帶去三點收獲：

了解 AI 模型改進技術的大致時間表以及不同方法如何隨著時間的推移而發展。
通過強調用于后訓練 DeepSeek-R1 和 R1-Zero 的技術，理解勢頭正盛的「RL 復興」浪潮。
為什么強化學習后訓練中的一些（但可能不是全部）組件可以受益于去中心化。

在深入探討 DeepSeek 如何利用強化學習訓練 R1 的細節之前，我們將先瀏覽一個（非常精簡的）事件時間線，以了解我們如何走到了今天。

AI / 機器學習 scaling 簡史

（極簡版）

2020 年 - 2023 年初：預訓練 Scaling Law，理解數據在訓練中的重要性

2020 年，OpenAI 的研究者發表了《Scaling Laws for Neural Language Models》。這篇論文意義重大，因為它明確闡述了在 scaling LLM 時模型大小、數據和計算的權衡。后來到 2022 年時，DeepMind 的研究者通過《Training Compute-Optimal Large Language Models》對 Scaling Law 進行了擴展。

這篇論文明確了現在所稱的「Chinchilla Scaling Law」，該定律表明：當時許多模型相對于其參數數量而言訓練不足。也就是說，相對于用于訓練模型的數據量，它們的參數太多。這項工作幫助研究者了解了數據與參數的最佳比率（每個參數大約 20 個 token）。之后，人們開始使用遠遠更多數據來訓練模型。

最初的 Scaling Law 論文

隨著 2022-23 年左右預訓練 Scaling Law 的明確，「更多數據 + 更多計算 = 更好的模型」時代到來了。

只要我們能將足夠的數據和計算投入到模型的預訓練中，我們最終就會得到性能更高的模型。

OpenAI、Meta 和 Anthropics 等各路 AI 逐鹿者都高度關注如何確保大量數據和計算，以滿足訓練越來越大的前沿模型的需求。這樣一來，他們就能不斷發布越來越好的突破性模型。但隨后，在 2024 年末，OpenAI 的推理模型引入了一種 scaling 模型性能的新方法。

2024 年：推理模型和測試時間計算 scaling

2024 年 9 月初，OpenAI 發布了 o1 模型。當時，它們是第一批向公眾展示系統性思維鏈推理的模型之一。這些模型能使用刻意的逐步推理方法，在得出最終答案之前評估多種潛在解決方案。推理模型在抽象推理任務上的能力大幅提升 —— 在 ARC-AGI 推理任務得分的驚人提升就是明證：

Riley Goodside 制作的這張圖展示了 OpenAI 推理模型發布后 ARC-AGI 得分的突破。

此外，隨著這一模型的發布，人們認識到，通過增加測試時間計算（TTC，模型解決問題時使用的計算量），可以在模型訓練后使模型表現更好。

具體來說，谷歌 DeepMind 的研究者在論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》中表明，如果在推理時獲得足夠的計算，較小的模型可以可靠地勝過在預訓練時獲得更多計算的較大模型。想要一個模型給你一個更好的答案？給它更多的時間去思考問題就行，它就能推理出最好的解答。這標志著開發 scaling 測試時間計算的方法成為了新的重點。

2024 年末 - 2025 年初：預訓練裝甲的裂縫

通過 TTC scaling，我們現在有兩個杠桿可以改善我們的模型。一個是在最初訓練模型時，另一個是在模型訓練之后。第二種方法來得正是時候 —— 隨著 TTC Scaling Law 的形成，人們越來越擔心我們即將耗盡繼續推動預訓練所需的數據……

2024 年 12 月，Ilya Sutskever 在 NeurIPS 2024 發表了一個主題演講。他的 20 分鐘演講概述了過去十年的 AI 研究，并分享了他對該領域未來發展的看法。然而，他也給出了一個震驚 AI 行業的斷言。在演講開始后不久，Ilya 宣稱：「我們所知的預訓練無疑會終結。」

Ilya 認為，我們很快就耗盡了我們一直用作預訓練「燃料」的互聯網數據。「我們只有一個互聯網，」他說。需要大量數據的模型已經消耗了所有可用的 token。

2025 年：對強化學習的全新認識和 DeepSeek 時刻

除非你過去幾個月一直與世隔絕，否則你很可能在新聞中聽說過一家名為 DeepSeek 的中國 AI 公司。隨著他們發布 R1 模型，DeepSeek 證明了一種訓練更好模型的新方法的可行性，并激發了人們通過強化學習探索模型改進的極大熱情。

DeepSeek-R1 論文，其中一大貢獻是帶來了對基于強化學習改進 LLM 的全新認識。

我們大多數人可能都聽說過 AlphaGo 使用的強化學習 —— 該 AI 模型掌握了復雜的圍棋，并最終擊敗了世界頂級人類玩家。

AlphaGo 最初在一個包含 3000 萬個人類棋盤下法的游戲數據庫上進行訓練，然后通過使用自我對弈強化學習，使性能更加出色。它被允許模擬成千上萬場游戲，當它的落子可以導致勝利時，就能獲得獎勵。這個過程就被稱為「強化」，可以讓模型實現自我提升。

現在，LLM 使用強化學習已不鮮見。基于人類反饋的強化學習（RLHF）早已被 Anthropic 和 OpenAI 等領先公司廣泛使用。DeepSeek 的新穎之處在于：他們的 R1-Zero 模型表明，可以在極其有限的人為干預下使用強化學習，并最終得到一個高性能的推理模型。

隨著 DeepSeek 的出現，我們現在可能有三種可重疊使用的方式來改進模型：scaling 預訓練、scaling TTC、在微調中 scaling RL。這些方法能讓我們的模型變得更好。然而，第三種方法，即基于 RL 的微調，可能不僅僅是另一個旋鈕，因為它可以解鎖強大的自我改進反饋循環。

DeepSeek 的創新之處在于它能夠使用模型生成自己的推理軌跡，使用輕量級 RL 對其進行改進，然后將這些改進的輸出放回訓練中。升級后的模型會生成更好的軌跡，并進一步完善，依此類推。循環的每一次轉變都會增強模型在各個領域的推理能力。這種遞歸改進過程（合成數據不斷改進生成它的模型）打破了對新的人類數據的傳統依賴，推動了模型性能提升。

一份突出 LLM scaling 新方法誕生的關鍵時刻的粗略時間表

DeepSeek 系列模型

DeepSeek 發布的一系列模型推動了 LLM 世界的發展進步，而其中最激動人心的莫過于他們使用強化學習創造了 DeepSeek-R1-Zero。

下面將基于 DeepSeek R1 論文來深挖可以如何使用 RL 來訓練模型，但在此之前，先要區分與本節內容相關的三個不同的 DeepSeek 模型：

DeepSeek-V3：V3 是一個 671B 參數的稀疏混合專家（MoE）模型，于 2024 年 12 月發布。與密集模型不同，MoE 模型的一部分參數（專家）會在處理不同類型的輸入時激活。憑借低廉的訓練成本，這個模型震驚了 AI 行業。
DeepSeek-R1-Zero：R1-Zero 是 DeepSeek 使用 V3 作為基礎模型訓練的推理模型。重要的是，他們使用了 RL 對其進行微調，沒有 SFT 或任何人類數據（這一概念后面將詳細介紹）。它性能出色，但不適合日常使用，因為它在生成人類可讀的輸出方面存在問題，并且經常在輸出中混用多種語言。盡管如此，它還是很有價值，展示了可以如何通過使用硬編碼驗證器的 RL 生成性能卓越的推理模型。
DeepSeek-R1：R1 是 R1-Zero 的「清潔版」。它采用了與 R1-Zero 類似的訓練過程，但還使用了有限的 SFT 來完善其輸出并使其更適合日常使用。

V3、R1 和 R1-Zero 之間的關系圖示

下面我們再來看看 DeepSeek 團隊是如何使用 RL 創建 R1-Zero 的，然后再了解它可以如何轉化為去中心化設置。

R1-Zero 是如何煉成的？

常見的 RL 后訓練設置如下：

監督微調（SFT）——SFT 是在精心整編的高質量輸入輸出對數據集上訓練模型，其中輸出展示所需的行為，例如逐步推理或遵循特定指令。包括問題的穩健答案、指令集或要遵守的規則，和 / 或提示詞和思維鏈示例。使用 SFT 的理念是：通過向模型提供一組極高質量的數據，它可以學習模仿這種類型的行為。
基于人類反饋的強化學習（RLHF）——RLHF 通常是在少量 SFT 之后。由于 SFT 需要高質量的人類數據，RLHF 能補充這個過程，方法是使用人類偏好來訓練獎勵模型，這反過來又能為模型創建一個框架，使其能夠根據自己的響應進行自我訓練。

但 DeepSeek-R1-Zero 在幾個關鍵方面偏離了這個過程。

丟棄 SFT

DeepSeek 的研究團隊沒有采用先 SFT 然后 RL 的兩步流程，而是完全放棄了 SFT 流程。本質上，DeepSeek 采用了 V3，并在有限的護欄設置下，為其盡可能地提供了足夠的時間和計算能力，助其學習如何推理。

移除 SFT 步驟有幾個有趣的好處，但也有一些缺點。

優點

通過移除一整個訓練過程，減少了訓練的計算需求。
由于模型之前沒有受到基于人類的微調數據的影響，因此讓模型在 RL 期間有更廣泛的探索窗口。

缺點

R1-Zero 的可讀性較差，并且經常在答案中混合多種語言。它具有很強的推理能力，但本質上不適合與人類交互。也因此，DeepSeek 在訓練 R1 時重新引入以人為中心的數據。

用 GRPO 代替 PPO

DeepSeek 訓練方法的另一個主要區別是使用組相對策略優化（GRPO）作為其 RL 框架，而不是更常見的近端策略優化（PPO）。同樣，這讓 RL 更簡單且計算密集度更低了。下面簡單介紹一下 GRPO 和 PPO 之間的區別：

近端策略優化（PPO）

使用 PPO 的 RL 有三個組件：

策略模型- 「策略模型」是核心模型，是最終想要訓練的模型。
獎勵模型- 獎勵模型是根據人類偏好進行訓練的模型，用于評估策略模型的輸出。在實踐中，人類會對 LLM 輸出的一小部分進行評分，然后這些評分會被用于訓練獎勵模型以反映人類的偏好。獎勵模型的作用是評估策略模型，以便策略模型可以學習優化以獲得更好的響應。
價值模型- 價值模型（或 critic）是一個神經網絡，它的作用是估計給定狀態下未來獎勵的預期總和，通過提供部分完成的價值估計來幫助引導策略模型。

下面用一個比喻來說明這些組件協同工作的方式。想象一下你正在寫一篇文章。價值模型就像有一個導師在監督你，他可以根據你到目前為止寫的內容預測你的最終成績。這很有用，因為你不想等到整篇文章完成后才知道你是否走在正確的軌道上。可以類比成這樣的過程：

此示例說明了策略、價值和獎勵模型協同工作的方式以分析和改進 LLM 的行為。

下面給出該過程的更清晰說明：

策略模型收到提示詞后開始推理答案。
價值模型評估每一步的當前狀態并預測預期的未來獎勵，幫助指導策略在生成響應時的決策。
獎勵模型評估完整響應，為最終結果分配分數，以便策略可以學習給出更好的輸出。
對于給定的響應，將對價值模型的預測分數和獎勵模型的實際分數進行比較。然后使用此信息來改進策略模型。

解釋 PPO 過程的簡版流程圖

這里有個值得記住的要點。在 PPO 中，在獎勵模型之外還使用價值模型曾被認為是很關鍵的，因為研究者認為需要能夠評估中間模型推理才能訓練最佳模型。由于 LLM 的核心能力是按順序選擇最佳的下一個 token（單詞），因此如果能夠理解響應的每個部分對最終結果的影響，就會很有意義。例如，句子「the cat ran」涉及三個決策（the、cat 和 ran）。如果獎勵模型要給這個句子打高分，價值模型將使我們能夠了解哪些特定單詞是最優的，以及三個單詞中是否有次優的。也許「the」和「cat」很棒，但選擇「sat」會讓整個響應獲得更高的分數。它允許訓練期間的反饋更加細粒度。這似乎合乎邏輯，對吧？確實如此，但 DeepSeek 對 GRPO 的表明情況可能并非如此。

GRPO

GRPO（Group Relative Policy Optimization）是一種與 PPO（Proximal Policy Optimization）不同的強化學習后訓練方法。GRPO 的核心區別在于完全摒棄了價值模型。它主要包含兩個組成部分：1）策略模型；2）獎勵模型。

為了進一步簡化強化學習過程，DeepSeek 的獎勵模型并不是基于人類偏好的神經網絡。相反，它采用了一個非常簡單的獎勵框架，專注于可驗證的獎勵（即某件事是對還是錯，用 1 或 0 表示）。

GRPO 流程大致如下：

對于給定的單個提示，策略模型生成多個輸出；
獎勵模型對所有的響應進行打分；
GRPO 會計算輸出組的歸一化平均分數，并根據每個單獨響應的分數與平均值的比較來評估每個響應；
該模型使用得分最高的完整輸出來了解哪種總體響應模式效果更好。

下圖對比了 PPO 和 GRPO 方法：

GRPO 通過大幅簡化獎勵過程并完全去除評判模型（critic model），大幅減少了內存和計算開銷。評判模型通常與策略模型大小相當，并且需要在整個強化學習（RL）過程中不斷更新。DeepSeek 估計，僅此一項改進就使開銷減少了大約 50%。

現在，我們已經了解了監督微調（SFT）以及 PPO 和 GRPO 之間的區別，可以更清晰地看到 DeepSeek 的 R1-Zero 訓練過程實際上是多么簡單。他們從一個性能良好的混合專家（MoE）基礎模型（DeepSeek-V3）開始，實現了一個輕量級、硬編碼的 GRPO 框架，然后基本上讓模型通過試錯來學習。

下圖表明，隨著時間的推移，R1-Zero 學會了思考更長時間，并得出更準確的答案。這一進步并非源自人工標注數據或精選數據集，而是通過一個閉環學習過程實現的：生成推理路徑→評估效果→強化最優路徑→循環迭代。這種自我反饋機制推動模型持續進化，無需依賴外部新增數據，恰好規避了 Ilya 所指出的預訓練數據收集難題。

DeepSeek-R1 論文圖表顯示：隨著訓練推進，模型學會了進行更長時間的思考（左圖），同時回答準確率也不斷提升（右圖）。

盡管這一方法看似簡化，卻最終造就了一個強大的推理模型。更重要的是，它指明了一條全新的能力擴展路徑：模型可以通過自我輸出的學習、自主生成合成數據來實現自我提升。這才是最關鍵的突破 —— 它正在開啟模型進化的全新范式。

一張極其簡明的示意圖，展示了 GRPO 式強化學習開啟的模型自我提升良性循環。

盡管這一成果意義重大，但必須指出：R1-Zero 并非適合日常使用的成熟模型 —— 其輸出常混雜多種語言，導致人類難以閱讀。為解決這些問題，DeepSeek 團隊通過更精細的調優流程，最終開發出實用性更強的推理模型 R1。

對于 R1， DeepSeek 沒有在 V3 上直接進行 GRPO RL，而是將微調分為四個階段：

階段 1：冷啟動 SFT

為確保最終獲得人類可讀的模型， DeepSeek 團隊采用了冷啟動監督微調（SFT）方案。其核心是為模型提供定向數據集，以引導其形成預期的推理模式。雖然該數據的完整細節尚未公開，但研究人員透露：他們收集了數千條冷啟動數據，形式包括：附帶長思維鏈（CoT）的小樣本提示、經過 DeepSeek-R1-Zero 的可讀輸出。同時團隊還引入了人工標注員進行后期處理。

這一過程至少明確揭示：人類干預在關鍵階段仍不可或缺。

階段 2：使用 GRPO

這與訓練 R1-Zero 的 GRPO RL 步驟相同。

階段 3：拒絕采樣 SFT

在此場景下，拒絕采樣是指通過獎勵模型的篩選機制對模型輸出進行評分排序，僅選取最高分的樣本用于后續微調。 DeepSeek 團隊采用兩輪篩選機制處理了 80 萬條數據樣本，其構成包含：60 萬條推理相關樣本（涵蓋數學、邏輯等任務），20 萬條非推理樣本（如文本創作、自我認知等）。

階段 4：RL

在這輪強化學習中，重點在于提示和學習，以使模型更具人類一致性。具體來說，DeepSeek 的目標是增加模型的有用性和無害性。DeepSeek 報告稱，他們使用了多個獎勵模型來鼓勵他們所期望的全面的人類一致性行為。

R1-Zero 與 R1

如果你把所有這些放在一起，并將其與 R1-Zero 方法進行對比，你會得到一個看起來像這樣的過程：

這張圖對比了 DeepSeek 如何使用 V3 作為他們的初始模型，然后使用不同的微調方法來到達 R1- zero（左）和 R1（右）。

DeepSeek 的幾個關鍵要點：

極其簡單的強化學習可以激發標準 LLM 中的復雜且高效的推理行為；
這種強化學習過程在很大程度上依賴于推理時間計算來生成推理痕跡；
該強化學習過程得益于為給定提示并行生成許多推理跟蹤；
這種強化學習風格嚴重依賴于可靠且穩健地驗證輸出以塑造模型的行為。

構建去中心化強化學習網絡

DeepSeek 不僅通過 GRPO 驗證了純強化學習的價值，更揭示了兩個關鍵需求：海量推理數據，以及生成這些數據所需的訓練環境。這一觀點隨后得到兩位 AI 大佬的證明 —— 就在 R1 發布后不久，Andrej Karpathy 在推文中直言：

其次，Yann LeCun 進一步強調了 Andrej Karpathy 的觀點：

去中心化 RL 組成部分

這里提供了三個主要組件，并把各干組件用俏皮的名字命名。

A) 基礎 — 基礎模型 + 用于訓練它們的去中心化網絡；

B) 訓練場 — 用于生成多樣化、高質量推理數據的環境 + 協調貢獻的去中心化網絡；

C) 優化器 — 執行微調的去中心化網絡。

基本組件如下所示：

A) 基礎：預訓練基礎模型

關于 DeepSeek 生成 R1 模型的過程，關鍵點在于他們需要從一個高性能基礎模型（V3）起步，才能使其精妙的強化學習流程發揮作用。正是基于這個擁有 6730 億參數的 MoE 模型，他們才能充分受益于 GRPO 的簡潔性。如果從 V3 的蒸餾版本或更差的模型開始，將無法獲得同等效果。因此，盡管 DeepSeek 讓更多人關注到通過精簡強化學習實現擴展的可行性，但這不應掩蓋一個關鍵事實：預訓練出越來越好的模型仍然至關重要。正如 Anthropic 團隊討論中 Dario 所言，他們必須將模型擴展到足夠規模，因為早期較小的模型還不夠智能，無法在其基礎上進行 RLHF。

需要強調的是，以去中心化方式預訓練頂尖基礎模型，無疑是整個體系中最困難的環節。預訓練過程中巨大的通信開銷，以及應對計算力或內存受限節點的技術方案，都極為稀缺。

最簡易的實現路徑，是采用中心化訓練的基礎模型（如 DeepSeek-V3、最新 LLaMa 或 Qwen 模型等），僅在微調階段引入去中心化。這雖能大幅降低難度，卻違背了構建端到端去信任化流程以產出前沿模型的初衷。

這看似哲學層面的討論，但若仍依賴中心化機構提供基礎模型，去中心化強化學習的意義將大打折扣。因此，我們必須建立去中心化的預訓練網絡。

B) 訓練場：生成推理數據

微調 R1 需要海量數據 —— 既需要冷啟動數據開啟微調流程，又需要超過 80 萬條中間階段數據點來提升模型泛化能力。現在的問題是：我們能否去中心化地生成這些數據？答案是肯定的。事實上，分布式環境非常適合這類任務。

環境與軌跡

回顧 Karpathy 的推文，開放分布式是實現海量數據目標的理想方式。為此我們需要構建一個框架，允許任何人為多樣化任務貢獻推理樣本（稱為軌跡）。貢獻者不僅能夠提交軌跡，還能創建標準化環境來生成不同類型的數據。也就是說，我們需要標準化的環境來生成數學推理、物理、醫學、工程、寫作等各領域的軌跡。構建這樣一個能生成和收集軌跡的多樣化環境體系，將形成龐大的數據庫供所有人用于模型微調。

這種方法本身并不一定新穎，但隨著 DeepSeek 展示了其方法的有效性，它現在獲得了新的重要性。早在 OpenAI 的早期，該公司發布了一個名為 OpenAI Gym 的平臺，為開發者提供了一個環境，用于測試不同的強化學習算法以完成基本任務。類似地，SWE-Gym 是測試智能體軟件工程能力的流行環境，CARLA 用于自動駕駛車輛，Pybullet 用于物理仿真。

當然，還需要有可靠的方法來評估這種推理數據的正確性。在 DeepSeek 中，當無法通過程序化方式驗證輸出（例如數學問題）時，他們采用了基于 LLM（大語言模型）的評估方法，即將樣本輸入 DeepSeek-V3，讓其進行評判（例如評估寫作樣本的質量）。對于我們的訓練場，不僅要有環境，還需要為許多不同類型的數據配備驗證器 —— 如果不能可靠且一致地驗證正確答案，推理數據又有什么用呢？強化學習擴展所需的穩健驗證如此重要，以至于 AI/ML 領域的先驅、《苦澀的教訓》的作者 Rich Sutton 早在 2001 年就寫過這一概念。

推理數據示例：

來自開源項目 General Reasoning 的完整推理數據示例。

為了進一步探討開發穩健驗證器的需求，我們需要在 DeepSeek R1 和 R1-Zero 所實現的基礎上進行創新。他們的 GRPO（Group Relative Policy Optimization）設置之所以效果顯著，是因為許多問題都有簡單的二元驗證（例如，數學問題的正確答案為 1 或 0）。但如何處理更復雜、更微妙的場景呢？如何處理跨領域的請求獎勵？在編碼任務中，我們如何為不完美的輸出分配分數，例如獎勵正確的語法？如果領域本身含糊不清，我們沒有一個適合它的獎勵策略，該怎么辦？模型在數學和編碼等更客觀領域的熟練程度，能否推廣到寫作和語言等主觀領域？

展望未來，隨著對設計最佳推理環境的進一步探索，一定會有很多創新。去中心化網絡所固有的協作和開放實驗精神將是推動這一領域進步的關鍵。

總結

如果你以懷疑的眼光來看待去中心化 AI，也沒有關系 —— 這個領域正需要更多質疑的聲音。

但即便你持懷疑態度，也請特別關注訓練場模塊 —— 在整個強化學習體系中，這是最明確、最直接受益于去中心化的環節。與預訓練或微調過程不同，去中心化在此不會引發相同的性能挑戰。

不過，正如 Karpathy 所說，創建多種經過驗證的環境以生成強化學習策略的任務是高度可并行化的。

從高層次來看，基于 GRPO 的去中心化強化學習應該比去中心化預訓練更容易實現。

最后，去中心化 RL 的一些注意事項包括：

通信量：在預訓練場景中，整個訓練過程中需要計算和通信的信息量遠遠高于微調階段。對于預訓練，基于每個 token，你需要為每一個可能的下一個 token 計算分數，并計算梯度。而在強化學習（RL）中，你只需要更簡單地為一組完整的字符串響應計算優勢分數 —— 不需要在每個 token 步驟上都進行評分。這使得整個過程對內存的需求大大減少。

GRPO 的效率：隨著 DeepSeek 展示了 GRPO 的可行性，我們擁有一種比 PPO（Proximal Policy Optimization，近端策略優化）更適合去中心化的強化學習方法。我們不僅看到 GRPO 大幅減少了強化學習中所需的計算能力，還應記住 DeepSeek 也摒棄了評判模型（critic model），轉而使用一個非常輕量級的獎勵系統。這使得強化學習過程在去中心化過程中需要的協調工作大大減少。沒有評判模型意味著我們不需要一個去中心化網絡在運行過程中同時更新策略和評判模型。而輕量級的獎勵模型也意味著我們在訓練該模型時需要投入的計算資源更少。

量化：量化是一種用于減小模型大小以便于部署的過程。鑒于這一部分比前面的內容稍顯技術性和復雜，本文把它分成三個小節來幫助解釋。

概述：量化通過使用較低精度的數據類型（如 8 位整數或 16 位浮點數）來表示模型的權重和激活值，而不是使用 32 位浮點數。

為了借助一個比喻來解釋量化，如果你把模型想象成畫作，那么全精度模型就像是用藝術家完整的顏料系列（每一種色調和色相）創作的畫作。而量化模型就像是試圖用更受限的顏色集合來創作同一幅畫，比如說，僅用黑白兩色。你仍然可以得到一幅能夠清晰代表原作的作品，但最終結果的保真度較低，且丟失了一些細節。

一張簡單的圖像展示了量化的效果

這個比喻指出了量化中存在的一種權衡。雖然量化可以使模型變得更輕量級，但你最終得到的模型可能會不夠準確。如果模型的每個參數包含的信息較少，那么它執行的數學計算自然會不夠精確。

當前創新現狀：量化在推理中被廣泛使用，通常被認為不適合預訓練場景，并且在強化學習（RL）中的應用還相對較少。然而，哈佛大學和谷歌 DeepMind 的研究人員進行的一項合作研究表明，在基于 PPO（近端策略優化）的強化學習中，使用 8 位量化能夠顯著加快訓練時間。他們的基本設置是讓量化的 actor 模型生成輸出，而全精度的 learner 模型負責更新。通過這種設置，他們報告的訓練速度比全精度訓練快 1.5 到 2.5 倍。

QuaRL 中的學習器、量化器、參與者的設置。

除此之外，DeepSeek 實際上在 FP8 精度上訓練了 V3 的大部分內容，表明并非所有預訓練操作都需要完全精度。要討論他們如何做到這一點可以寫成一大篇文章，但本質上，DeepSeek 隔離了預訓練的組件，其中 FP32 或 BF16 至關重要，而 FP8 的準確度下降則沒問題。

雖然有一些令人興奮的研究正在更好地將量化納入完整的 AI/ML 堆棧，但當前的硬件限制仍然是進步的障礙。目前，只有 4000 系列和更新的英偉達 AI 卡原生支持 FP8 量化。這意味著只有更高端的消費卡才能利用量化。不過，隨著時間的推移和消費卡中量化支持的普及，我們可以預期量化將得到更常規的利用。

要點：雖然需要在該領域進行更多研究，但早期的進展跡象預示著去中心化將取得良好進展。為什么？將計算分散到多樣化、異構的計算網絡中通常意味著并非計算網絡中的每個參與者都會擁有多個 GPU 集群，也不必是最先進的單個 GPU。在這里，內存限制會發揮作用，那些硬件有限的人可能會被排除在網絡參與之外。然而，有了量化的能力，我們可以實現更快的性能，同時還可以將模型縮小到更小的尺寸，更好地促進內存受限硬件的個體參與研究。

分布式通信技術

與預訓練相比，RL 具有更輕量的特性，因此分散微調過程應該是完全有可能的。

在非常高的層次上，在分散的 RL 訓練網絡中，你可以擁有非常輕量級的「推理節點」，然后與更強大的「工作節點」進行協作。如果實施模型并行方法，推理節點可以是在本地下載小型量化模型的單個參與者，甚至可以下載模型的片段。這些節點可以運行推理并計算獎勵，然后以不頻繁的間隔將結果發送回訓練模型，然后訓練模型將進行更多計算密集型梯度更新。在處理跨龐大的并行工作器網絡的部署時，大部分工作將集中在隔離如何以及何時協調策略更新。

為了實現這一點，一個有效的路由方案對于將請求路由到全球各地的推理節點至關重要。一種現有的方法是 Ryabinin 等人提出的 SWARM 并行框架，在預訓練環境中，該框架能夠在為地理分散的 GPU 提供訓練工作時考慮地理距離和特定節點的計算效率。

同樣，關鍵是設計一種極其高效的路由算法，該算法可以確保不會使特定工作者超載，調整以平衡工作者完成時間，處理容錯，當然還有一種同步算法，可以大大減少優勢和梯度同步的頻率。這絕不是一個簡單的挑戰，但它比預訓練更容易解決。

以下是針對微調設置量身定制的三種方法：

PETALS

PETALS 提出了一種有趣的方法，通過協作推理和微調使大型語言模型的訪問變得平民化。該系統的開發是為了解決 LLM 領域的一個關鍵挑戰：雖然已有高性能的開源模型可供下載，但通常推理內存（以及用于微調的內存）使大多數研究人員和從業者望而卻步。

PETALS 通過將計算分布在多個參與者之間來實現大型模型的協作使用。在這個系統中，有兩個主要參與者：服務器和客戶端。每個服務器存儲模型層的子集（通常是連續的轉換器塊）并處理來自客戶端的請求。

PETALS 中的圖表顯示了模型在各個服務器上的拆分情況。

客戶端可以調用管道并行服務器鏈來對整個模型進行推理，每個服務器僅保存其可用 GPU 內存允許的塊數。

來自客戶端的請求通過一系列服務器進行路由。

該系統的架構在處理推理和訓練方面特別巧妙。在推理過程中，客戶端僅在本地存儲模型的標記嵌入（占總參數的一小部分），并依靠服務器來處理轉換器塊。當客戶端啟動推理會話時，它首先建立一個服務器鏈，這些服務器共同保存所有模型層。然后，客戶端使用其本地嵌入層來處理輸入標記，通過服務器鏈發送結果向量，并接收最終輸出表示以計算下一個標記概率。

PETALS 的一項關鍵創新是其微調方法。PETALS 不需要完整的模型實現，而是支持分布式參數高效訓練，其中客戶端「擁有」其訓練過的參數，而服務器托管原始的預訓練層。服務器可以通過其層執行反向傳播并返回與激活相關的梯度，但它們不會更新服務器端參數。這樣，多個客戶端就可以在同一組服務器上同時運行不同的訓練任務，而不會相互干擾。

為了提高效率，PETALS 采用了多項優化措施。它使用動態分塊量化將管道階段之間的通信緩沖區壓縮為 8 位，從而降低帶寬要求，而不會明顯影響生成質量。該系統還采用了復雜的路由算法，幫助客戶端找到最佳服務器鏈，同時考慮了網絡延遲和服務器負載等因素。

在實踐中，PETALS 在交互式使用方面取得了令人印象深刻的性能 - 在消費者 GPU 上以每秒約 1 步（前向傳遞）的速度運行 176B 模型的推理。這使得它適用于許多交互式應用程序，同時保持了研究人員訪問模型內部和試驗微調方法所需的靈活性。

DiPaCo

另一種與 MoE 模型特別相關的有前途的方法是 Google DeepMind 研究人員提出的分布式路徑組合 DiPaCo。它引入了一種分發和微調 MoE 模型的新方法，這對去中心化網絡尤其有價值。傳統的 MoE 訓練要求每個節點將整個模型存儲在內存中 - 對于參與者資源有限的去中心化網絡來說，這是一個重大障礙。DiPaCo 采取了不同的方法，將模型分解為 “路徑”。每條路徑代表一條精心構建的網絡路線，其中包括來自每個 MoE 層的專家模塊子集，以及相應的路由組件和必要的層規范化組件。

DiPaCo 的關鍵創新在于它如何處理訓練和推理。在訓練期間，數據會按路徑預先分片和分發，這意味著每個工作者只需要通過其特定的路徑配置處理數據。這是通過在文檔級別而不是每個標記上做出路由決策來實現的，允許對序列的所有標記進行批處理計算，而無需交換模塊。每條路徑都設計得足夠小（大約 150M 個參數），以適應中等規模的 GPU 硬件，從而可以更廣泛地參與去中心化網絡。

DiPaCo 的圖表顯示了數據分片通過地理上分散的 GPU 上托管的相關路徑進行路由。

在 DeepMind 的實驗中，DiPaCo 表現出了卓越的效率 - 一個由 256 條路徑和 1.5 億參數組成的網絡能夠匹配密集的 13 億參數模型的性能，同時所需的訓練時間減少了 45%。然而，另一方面，這種方法被證明是極其低效的 FLOP；DiPaCo 需要更多的計算才能實現與相同密集模型相似的困惑度分數。

不過，DiPaCo 對分散實施有著有趣的影響。在 DiPaCo 中，無論是在訓練期間還是在評估時，整個網絡都不需要在一個地方實現。完整模型僅作為分散硬件上路徑的虛擬組合而存在，每條路徑都可以獨立提供服務。此外，DiPaCo 的架構自然支持異構硬件（實驗中使用了美國、日本和英國的 A100 和 TPU 的混合體），允許彈性資源利用，并通過路徑冗余提供內置容錯能力。按路徑分配計算的基本原理對于分散式網絡可能很有價值，因為在分散式網絡中，以有限的硬件資源和最小的通信開銷參與的能力至關重要。

Gensyn AI 團隊開發的 RL Swarm

RL Swarm 由領先的去中心化 AI 公司 Gensyn 的研究人員開發，是一種分布式強化學習的協作方法，直接建立在 DeepSeek 的 R1 GRPO 流程之上，目前已在 Gensyn 的測試網上上線。我們已經強調 DeepSeek 展示了模型可以在沒有 SFT 或批評模型的情況下通過強化學習進行自我改進，但 RL Swarm 通過使多個策略模型能夠在分布式環境中協作學習，進一步推進了這一概念。

RL Swarm 的關鍵創新在于其點對點學習結構，其中模型不僅可以自我評估，還可以評估和學習彼此的推理過程。這使 RL 動態從一項單獨的努力轉變為一項協作努力，其中模型受益于同行的探索和見解。

Gensyn 為 RL Swarm 設置的實驗利用了較小的 Qwen-2.5b-1.5B 模型，并在數學推理數據集 (GMS8K) 上進行了訓練。其遵循一個三步流程，正如 Gensyn 團隊所強調的那樣，該流程反映了一個協作研究小組：

回答階段：將多個策略模型加載到單獨的硬件中，然后這些模型獨立生成對給定提示的多個響應（通常每個問題有八個答案），計算獎勵，確定優勢，計算損失，并按照 GRPO 方法執行梯度更新。完成這些單獨的工作后，每個模型都會與群中的其他模型分享其最佳答案。
批評階段：模型檢查同行提供的答案并提供結構化反饋。這創造了一種動態，激勵模型既能提供高質量的答案，又能培養評估他人回答的技能。
解決階段：每個模型都會投票選出最佳答案。然后基于這種集體評估，模型會針對原始提示生成最終的修訂答案。

RL Swarm 的三步流程。

與單獨訓練的模型相比，RL Swarm 方法展示了幾項改進。首先，實驗表明，在 RL Swarm 中訓練的模型通常比單獨訓練的模型獲得更高的獎勵（例如，它們始終產生更優的輸出）。其次，同行評審過程始終產生更多人性化的輸出，正如 swarm 訓練的模型所證明的那樣，它們產生的響應更具人性化，推理更深入。具體而言，Swarm 模型產生了更長、更結構化的響應，格式更好，包括正確使用項目符號、間距和 LaTeX 進行數學符號表示。這表明協作評審過程創造了一種新行為，其中模型不僅針對正確性進行優化，還針對清晰度和可理解性進行優化。

RL Swarm 論文中的一張圖表顯示了 RL Swarm 訓練模型和單獨訓練模型之間的響應長度差距。

鑒于模型之間所需的通信輕量級特性以及消除復雜的批評網絡，RL Swarm 代表了一種有前途的方法，可以在保持訓練效率的同時擴展分布式強化學習。同伴學習框架是開源的并且已經上線，利用 Ryabinin 等人的 Hivemind 庫來處理跨節點通信。雖然 RL Swarm 還處于發展初期，但它對于領域內來說已相當令人興奮 —— 它是我們今天擁有的最具體的分布式 RL 框架。

未來的探索領域

在最近一次 Dwarkesh Patel 播客中，谷歌傳奇程序員 Jeff Dean 和 Noam Shazeer 推測了未來構建高度模塊化模型的方法。他們的一些想法對于分散訓練和微調的應用非常有吸引力。而且由于分散訓練領域還很年輕，我想將其中一些推測納入本報告，它或許可以作為我們想構建哪種類型的網絡的有用指南。

在談話的最后，Dean 和 Shazeer 討論了 AI/ML 發展的未來狀態。似乎受到他們在 Pathways 上工作的影響，他們想象了一個世界，其中稀疏的 MoE LLM 可以分成專家的模塊化細分，每個部分都可以單獨進行訓練和改進。然后可以將這些部分交換到更大的模型中以擴展其功能。

雖然這在今天絕對不可能實現，但它描繪了一個令人興奮的未來，你可以將一個模型拆分成更小的專家部分，使用強化學習使這些專家塊更好地完成一項任務，然后將它們重新組合成一個更大的模型。這個過程將是高度可并行的，因為世界各地的人們可以同時致力于改進和更新模塊。這顯然可以很好地轉化為大規模的分散強化學習。

Gensyn 朝著實現這一未來邁出了一步。在他們最近的論文《HDEE: Heterogeneous Domain Expert Ensemble》中，他們展示了你可以并行訓練小型、異構和模塊化專家模型，然后通過一種名為 ELMForest 的技術將它們連接到一個集成中。研究人員表明，這些集成雖然推理效率較低，但優于用較少異構性訓練的模型。

這并不是 Dean 和 Shazeer 夢想的實現 —— 最終的集成不是一個單一的模型，而是產生獨立輸出的獨立網絡，這些輸出在推理后組合成統一的答案。雖然全面深入探討差異和未來方向超出了本文的范圍，但這是一個相當令人興奮的發展，并且引出了一個問題，即它是否可以與 RL Swarm 合并以創建更高效的領域專家。我非常期待想看到這項研究隨著時間的推移將如何發展。

展望未來

雖然圍繞去中心化強化學習的某些工作似乎有些牽強，但令人興奮的探索已經開始。Hugging Face 正在開發 Open R1，這是一個旨在構建完全開源版本 R1、數據集、訓練程序等的項目。Prime Intellect 已經在努力通過他們的 SYNTHETIC-1 運行以半分布式方式復制 DeepSeek-R1 的訓練。他們已經完成了分布式數據收集并正在進入訓練階段。

本文的開頭討論了 DeepSeek 如何引起人們對基于 GRPO 的強化學習中一種新的擴展方法的關注。雖然有一些開創性的論文為訓練和 TTC 的特定、普遍認可的擴展原則奠定了基礎，但我們仍不知道擴展強化學習的局限性。需要多少數據和什么類型的數據才能獲得最有效的 SFT？可以將基于 GRPO 的強化學習擴展到多大規模以將模型性能推向極限？基礎模型的性能必須有多好才能獲得強化學習的好處？我們尚不確定這些問題的答案，但我們已在進入人工智能創新的新階段，這將在 LLM 擴展中對 RL 進行測試。

而去中心化、眾包激勵的網絡將在其中發揮作用。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.