網易首頁 > 網易號 > 正文申請入駐

DeepSeek-R1百天：推理語言模型（RLM）的復現與創新（萬字長文）

2025-05-06 13:33:04　來源: 開源中國

廣東舉報

分享至

“推理語言模型（RLM）正以其強大的推理能力引領著自然語言處理的新潮流。從數學解題到代碼生成，從邏輯推理到多模態任務，RLM 正在不斷拓展其應用邊界，為復雜任務的解決提供了全新的思路和方法。本文將了解 RLM 的最新研究進展。”

還記得年初隨著 Deepseek-R1 發布的那個 Open-R1 的復刻項目嗎？它是用于復現 R1 能力的開源社區項目。

隨著 R1 發布滿百天，來自 MiroMind、復旦大學、新加坡國立大學、新加坡科技設計大學、南洋理工大學的研究者，發布了一份關于 R1 復現的報告——《100 DAYS AFTER DEEPSEEK-R1: A SURVEY ON REPLICATION STUDIES AND MORE DIRECTIONS FOR REASONING LANGUAGE MODELS》。

今天，我們從這份報告來看看推理語言模型（Reasoning Language Models, RLM）的最新進展。特別關注圍繞 DeepSeek-R1 的復現研究，以及這些研究為我們帶來的深刻見解和未來方向。本文將從監督微調（SFT）和基于可驗證獎勵的強化學習（RLVR）兩個主要方向展開，一起了解下。

背景介紹

DeepSeek-R1 的發布，無疑是推理語言模型領域的一個重要里程碑。它通過創新的訓練技術，如監督微調（SFT）和基于可驗證獎勵的強化學習（RLVR），實現了強大的推理能力。DeepSeek-R1 在數學、編程和邏輯推理等任務上表現出色，其性能甚至可以與一些需要大量監督數據的模型相媲美。然而，DeepSeek 的實現細節并未完全開源，這激發了研究社區對其訓練方法和數據集設計的濃厚興趣。許多研究團隊試圖通過復現研究，探索 DeepSeek-R1 的成功秘訣。

關于 R1 的復現，我曾發過一篇關于 Open-R1 的核心關鍵進展，我自己受益匪淺，有興趣的伙伴可以擴展閱讀（點擊閱讀）《》

本文目的是梳理和總結圍繞 DeepSeek-R1 的復現研究工作。通過深入分析這些研究，我們可以更好地理解推理語言模型的工作原理，以及如何通過不同的訓練方法和數據集設計提升模型的性能。這些復現研究不僅驗證了 DeepSeek-R1 的有效性，還為推理語言模型的進一步發展提供了寶貴的經驗和啟示。例如，研究者們通過精心設計的數據集和優化的訓練流程，成功復現了 DeepSeek-R1 的性能，這表明高質量的數據和合理的訓練策略對于模型的推理能力至關重要。

一、監督微調（SFT）在推理語言模型中的應用 SFT 數據集：構建高質量的推理數據數據收集與整理流程

在構建 SFT 數據集時，研究者們通常會從多個領域收集問題，包括數學、科學、編程和謎題等。這些數據來源廣泛，既有現有的基準測試數據集，也有通過網絡爬取的數據。例如，Light-R1 數據集通過收集來自多個來源的 100 萬個數學問題，并使用 DeepScaleR-1.5B-Preview 模型生成初始響應。然后，研究者們通過多輪過濾來確保數據的質量。具體點，他們會使用基于嵌入相似度或 n-gram 的去重方法，去除重復的問題和答案；通過拒絕采樣，篩選出低質量或錯誤的回答；以及通過規則驗證，確保數據的正確性。對于數學問題，通常會使用 Math Verify 進行驗證；對于編程問題，會通過執行或單元測試來驗證代碼的正確性；而對于一般任務，則會使用 LLM 作為評判工具。

在數據選擇過程中，研究者們特別重視數據的難度和多樣性。例如，Light-R1 數據集通過設置一個通過率閾值 α，篩選出難度適中的問題。只有那些通過率低于 α 的問題才會被保留，從而構建出一個具有挑戰性的數據集。這種數據篩選方法不僅能夠提高模型的推理能力，還能確保模型在面對復雜問題時能夠表現出色。此外，Bespoke-Stratos 數據集通過使用 GPT-4o-mini 模型作為評判工具，過濾掉數學問題中不正確的答案，從而提高數據集的質量。

現有數據集詳情

目前，已經有許多高質量的 SFT 數據集被構建出來，用于訓練和評估推理語言模型。例如，DeepSeek-R1 數據集包含 800k 訓練樣本，涵蓋了 600k 推理示例和 200k 非推理示例，如寫作、角色扮演等一般任務。這些數據集不僅規模龐大，而且經過了嚴格的篩選和驗證，能夠為模型提供高質量的訓練數據。OpenThoughts 數據集則包含了 114k 個樣本，覆蓋了數學、科學、編程和謎題等多個領域。這些樣本由 DeepSeek-R1 生成，并通過 LLM 評判來確保答案的正確性。

下表為近期項目總結，包括SFT數據及其相應類別。其他推理包括科學、謎題等。

項目名稱

數據集規模

數學問題

編程問題

其他推理問題

非推理問題

DeepSeek-R1

800k

OpenThoughts

114k

Open-R1-Math-220k

220k

Light-R1

76k

分析與討論

不同數據集在token長度分布上存在顯著差異。例如，AM 和 Synthetic-1 數據集的token長度分布較為集中，而 Light-R1 和 Open-R1 數據集則呈現出更長的尾部，這表明它們包含更多復雜的推理問題。這種差異可能與數據集的構建目標和篩選方法有關。例如，Light-R1 數據集通過篩選出長度較長的推理鏈，確保模型能夠學習到更復雜的推理過程。

上述SFT數據集的token長度分布。x軸在20,000個token處截斷，因為超過這一長度的示例較為罕見

數據去重和跨數據集依賴關系對模型訓練和評估至關重要。例如，Light-R1 數據集在構建過程中特別強調了對流行推理基準的去重，如 AIME24/25、MATH500 和 GPQA Diamond。Wen 等人指出，MATH500 在多個開源數據集中部分受損，包括 OpenThoughts、Open-R1、Bespoke-Stratos 等。這種去重操作可以有效避免數據污染，提高模型的泛化能力。

流行數學推理數據集的交叉引用數據源示意圖。箭頭從源數據集指向整合了其部分數據的目標數據集。該圖并未反映數據集的大小，也不意味著目標數據集包含其源數據集的所有數據，或者僅包含箭頭所指示的源數據集的數據。以淡紫色突出顯示的數據集包含從DeepSeek-R1提取的“Chainof-Thought”軌跡。

盡管目前的數據集在數學和編程領域有較好的覆蓋，但在其他推理任務（如科學、邏輯謎題和開放式問題）上的覆蓋相對有限。例如，DeepSeek-R1 和 AM 數據集在數據收集和蒸餾過程中涵蓋了更廣泛的領域，目的是培養更通用的推理能力。未來的研究可以進一步拓展數據集的領域覆蓋，以提升模型的通用推理能力。

訓練與性能對比：SFT 的實踐與效果監督微調的形式化描述

監督微調（SFT）的目標是通過最小化負對數似然損失來更新模型參數，使模型能夠模仿監督示范，最大化參考完成的概率。給定一個數據集，其中每個樣本包含一個問題和一個對應的推理鏈。SFT 的目標函數可以表示為：

其中，表示模型在給定問題的條件下生成推理鏈的概率。通過最小化這個損失函數，模型能夠學習到高質量的推理鏈，從而提升推理能力。

復現研究的訓練配置與性能結果

在當前的復現研究中，研究者們采用了多種訓練配置來優化 SFT 階段的性能。例如，學習率通常設置為或，批量大小一般為 96 或 128。此外，為了處理長文本任務，模型的上下文長度也會進行調整。例如，Open-R1 將上下文長度設置為 32,768 個token，以支持更長的推理鏈。

通過對比不同項目在常見數學推理基準測試（如 AIME24/25 和 MATH500）上的性能結果，我們可以發現數據集選擇和初始檢查點對性能有顯著影響。例如，LIMO 和 S1k-1.1 等小規模、精心策劃的數據集也能取得強結果，這表明數據質量的重要性。此外，使用強大的指令模型（如 Qwen2.5-Instruct）相較于基礎模型（如 Qwen2.5-Base）在推理任務上具有明顯優勢。

下表是近期項目總結，包括初步檢查點及其對應的基準測試結果。結果取自相應論文。破折號（–）表示結果不可用。請注意，報告的Open-R1性能數據來自該數據集的“默認”劃分。

項目名稱

初始檢查點

AIME24

AIME25

MATH500

DeepSeek-R1

Qwen2.5-Math-7B / Qwen2.5-32B-Base

55.5 / 72.6

92.8 / 94.3

Qwen2.5-32 / 72B-Base

72.7 / 76.5

96.2 / 97.0

Light-R1

Qwen2.5-32B-Instruct

73.0

64.3

S1k-1.1

Qwen2.5-32B-Instruct

56.7

50.0

94.4

Bespoke-Stratos

Qwen2.5-7 / 32B-Instruct

20.0 / 63.3

82.0 / 93.0

OpenThoughts

Qwen2.5-7 / 32B-Instruct

31.3 / 68.0

23.3 / 49.3

83.2 / 90.6

Open-R1

Qwen2.5-Math-7B-Instruct

36.7

40.0

90.6

Synthetic-1

Qwen-2.5-7B-Instruct

30.0

26.6

85.6

LIMO

Qwen2.5-32B-Instruct

57.1

44.5

94.8

二、基于可驗證獎勵的強化學習（RLVR）在推理語言模型中的應用 RL 數據集：構建高質量的訓練數據數據集的組織與構建

在 RLVR 過程中，高質量的數據集是成功的關鍵。這些數據集通常涵蓋數學和編程問題解決等可驗證任務。例如，DeepScaleR 數據集收集了 40k 獨特的競賽級數學問題，并通過嚴格的驗證過程確保數據的質量。DeepScaleR 使用 gemini-1.5-pro-002 提取每個問題的答案，并去除重復的問題和無法驗證的樣本。Skywork-OR1 數據集則結合了數學和編程任務，通過多輪驗證和去重操作，構建了一個包含 105k 數學樣本和 13.7k 編程樣本的數據集。在預處理過程中，Skywork-OR1 移除了所有包含外部 URL 或潛在圖片的問題，并通過 Math-Verify 驗證數學樣本，通過完整的單元測試驗證編程樣本。

下表是經過驗證的開源現成數據集，專為強化學習（RL）訓練整理，并附有其相應類別。其中，“SYNTHETIC-1”的統計數據表示其算法編碼問題子集的規模。

數據集名稱

組織機構

規模

類別

DeepScaleR

Agentica Project

40k

數學

Skywork-OR1

Skywork

105k 數學，13.7k 編程

數學、編程

Open-Reasoner-Zero

StepFun

129k

數學、推理

RL 組件：算法、獎勵和采樣策略算法

在 RLMs 的微調中，PPO 和 GRPO 是兩種廣泛使用的 RL 算法。PPO 是一種經典的策略梯度方法，通過最小化策略之間的 KL 散度來穩定訓練。PPO 的目標函數可以表示為：

其中，是通過 GAE（Generalized Advantage Estimation）計算的優勢函數，用于估計每個響應生成狀態的質量。GRPO 是 PPO 的一種變體，通過組相對獎勵來減少獎勵采樣方差，并引入 KL 散度懲罰來約束策略的更新。GRPO 的目標函數可以表示為：

其中，是組相對獎勵，是 KL 散度懲罰項。

下表是關于在RLVR上進行的DeepSeek-R1開源復現研究的算法選擇與獎勵設計的概述。DeepSeek-R1系列的模型被單獨列出以供比較。破折號（–）表示數據不可用。

模型名稱

初始檢查點

數據集規模

RL 算法

獎勵設計

DeepSeek-R1

DeepSeek-V3-Base

GRPO

Accuracy, Format

DeepSeek-R1-Zero

DeepSeek-V3-Base

GRPO

Accuracy, Format

VAPO

Qwen2.5-32B-Base

VAPO

Accuracy

VC-PPO

Qwen2.5-32B-Base

VC-PPO

Accuracy

Open-Reasoner-Zero-32B

Qwen2.5-32B-Base

129k

PPO

Accuracy

SRPO

Qwen2.5-32B-Base

SRPO

Accuracy, Format

DAPO

Qwen2.5-32B-Base

17k

DAPO

Accuracy, Length

Skywork-OR1-32B-Preview

DeepSeek-R1-Distill-Qwen-32B

105k

GRPO

Accuracy, Format

Light-R1-14B-DS

Light-R1-14B-DS-SFT

GRPO

Accuracy, Length

Logic-RL

Qwen2.5-7B-Instruct-1M

REINFORCE++

Accuracy, Format

Oat-Zero-7B

Qwen2.5-Math-7B

Dr. GRPO

Accuracy

MiMo-7B-RL-Zero

MiMo-7B-Base

130k

GRPO

Accuracy

獎勵機制

獎勵在 RL 訓練中起著核心作用。常見的獎勵設計方法包括準確性獎勵、格式獎勵和長度獎勵。準確性獎勵用于評估模型生成的答案是否正確，通常以二元形式（正確或錯誤）給出。格式獎勵用于確保模型生成的推理鏈符合特定格式，例如，要求模型在每個推理步驟后明確標注中間結果。長度獎勵則用于控制模型生成的推理鏈長度，以確保模型在生成詳細推理過程的同時，不會因過長的輸出而降低效率。

下表是在RLVR上進行的競爭性開源DeepSeek-R1復制研究中，數學推理任務的表現，其中從基礎模型和其他模型訓練的模型分別列出以便更好地進行比較。流行的專有RLVR模型（標有*）和R1蒸餾模型（標有?）的表現也列出以便更好地進行比較。破折號（–）表示結果不可用。

模型名稱

初始檢查點

AIME24

AIME25

MATH500

DeepSeek-R1

DeepSeek-V3-Base

79.8*

97.3*

DeepSeek-R1-Zero

DeepSeek-V3-Base

71.0*

95.9*

OpenAI o4 mini

93.4*

92.7*

Seed-Thinking-v1.5

86.7*

74.0*

Qwen3-235B

85.7*

81.5*

VAPO

Qwen2.5-32B-Base

60.4

SRPO

Qwen2.5-32B-Base

50.0

DAPO

Qwen2.5-32B-Base

50.0

VC-PPO

Qwen2.5-32B-Base

48.8

Open-Reasoner-Zero-32B

Qwen2.5-32B-Base

48.1

36.0

92.2

Skywork-OR1-32B-Preview

DeepSeek-R1-Distill-Qwen-32B

79.7

69.0

Light-R1-14B-DS

Light-R1-14B-DS-SFT

74.0

60.2

Skywork-OR1-Math-7B

DeepSeek-R1-Distill-Qwen-7B

69.8

52.3

Skywork-OR1-7B-Preview

DeepSeek-R1-Distill-Qwen-7B

63.6

45.8

Light-R1-7B-DS

DeepSeek-R1-Distill-Qwen-7B

59.1

44.3

DeepScaleR-1.5B-Preview

Deepseek-R1-Distilled-Qwen-1.5B

43.1

87.8

GPG-1.5B

Deepseek-R1-Distilled-Qwen-1.5B

33.3

87.6

采樣策略

采樣策略在 RL 訓練中也非常重要。課程學習方法通過逐步增加任務難度來提高模型的性能。例如，Open-Reasoner-Zero 采用兩步課程學習過程，先訓練基礎數據集，然后在訓練后期加入更具挑戰性的子集。拒絕采樣技術通過過濾低質量樣本提高樣本效率。例如，Light-R1 實施了更廣泛的權重裁剪機制，限制極端值的影響，從而穩定訓練過程。動態采樣則根據樣本的獎勵動態調整采樣策略。例如，DAPO 和 Skywork-OR1 通過動態采樣過濾掉零優勢樣本組，從而提高樣本效率和訓練穩定性。

分析與討論：RLVR 的關鍵要素訓練數據的配方

數據的數量、多樣性和難度對 RL 訓練至關重要。研究者們通過數據篩選、合成和自蒸餾等方法構建具有挑戰性的訓練數據集。例如，Open-Reasoner-Zero 通過數據合成和自蒸餾擴展了訓練數據集，從而提高了模型的性能。Open-Reasoner-Zero 收集了 129k 訓練數據，其中 72k 主要從 OpenR1-Math-220k 數據集清理而來，其余數據則從 AIME、MATH、Numina-Math 集合和 Tulu3 MATH 等多個來源收集，并通過程序化方法生成額外的合成數據以覆蓋其他推理領域。這種方法不僅增加了數據集的多樣性，還確保了數據的高質量和相關性。

此外，研究者們還通過難度篩選來構建具有挑戰性的數據集。例如，Light-R1 和 Skywork-OR1 通過設置通過率閾值 α，篩選出難度適中的問題。這種方法確保了模型在訓練過程中能夠接觸到既不太簡單也不太困難的問題，從而在推理能力上取得最佳平衡。DeepScaleR 進一步指出，通過率過高或過低的樣本分別過于簡單或難以驗證，因此應予以過濾。Open-Reasoner-Zero 則在此基礎上，使用中間模型檢查站從完整數據集中選擇具有挑戰性的子集，以支持難度導向的課程學習，從而解決模型在復雜場景中的不足并提升其性能。

RL 算法設計

PPO 和 GRPO 是 RL 訓練中常用的算法。PPO 通過策略梯度和 KL 散度懲罰穩定訓練，而 GRPO 通過組相對獎勵減少方差，并引入 KL 散度懲罰約束策略更新。這些算法在不同模型和任務中的表現有所不同，研究者需要根據具體任務選擇合適的算法。例如，Open-Reasoner-Zero 采用 vanilla PPO 而不是 GRPO，并通過設置 GAE 參數和，實現了穩定且魯棒的訓練過程。相比之下，Logic-RL 發現 PPO 在準確性和獎勵方面顯著優于 GRPO 和 REINFORCE++。

模型大小和類型

不同模型大小（從 1.5B 到 32B 參數）對 RL 訓練的有效性也有所不同。研究表明，較小的模型（如 1.5B）也可以通過 RL 訓練取得良好的性能，但較大的模型（如 32B）通常能夠實現更高的推理能力。此外，基礎模型和長 CoT 模型在 RL 訓練中的表現也有所不同，研究者需要根據具體任務選擇合適的模型類型。例如，Light-R1 通過在 DeepSeek-R1-Distill-Qwen-14B 上應用 GRPO，顯著提高了模型的性能。

上下文長度

上下文長度對模型的推理能力有著顯著影響。較長的上下文長度能夠支持更復雜的推理過程，但也可能導致訓練效率的降低。研究者們通過漸進式增加最大響應長度來平衡這一矛盾。例如，DeepScaleR 將最大響應長度從 8k 逐步增加到 24k，實現了性能的持續提升。Skywork-OR1 采用多階段訓練，逐步擴展最大響應長度至 32k，從而在保持訓練效率的同時，提升了模型的推理能力。此外，Light-R1 通過設置 24k 的最大響應長度，并在訓練中使響應長度收斂至約 9k，確保了模型能夠處理較長的推理鏈。

獎勵建模

在獎勵建模方面，研究者們不僅關注基于準確性的獎勵設計，還探索了如何通過 LLMs 來評估更廣泛的場景。例如，Seed-Thinking-v1.5 引入了兩種獎勵組件：Seed-Verifier 用于簡單的答案驗證，Seed-ThinkingVerifier 用于需要深入分析推理的復雜情況。這種設計使得模型能夠更好地處理多樣化的推理任務。此外，MiMo 提出了基于樣本難度的獎勵機制，通過 LLM 預估樣本難度，并在獎勵中加入難度權重，從而提高了模型在具有挑戰性樣本上的性能。

KL 損失

KL 損失在 RL 訓練中用于約束策略的更新，防止模型偏離初始的 SFT 行為。然而，過度使用 KL 損失可能會限制模型的探索能力。研究者們通過消融研究發現，某些情況下，KL 正則化可能顯著限制響應長度的增加。例如，Open-Reasoner-Zero 的消融研究表明，去除 KL 正則化后，模型的響應長度顯著增加，從而提高了推理能力。DAPO、Dr. GRPO、SRPO 和 MiMo 等研究在訓練中省略了 KL 損失，但仍取得了強大的性能。這些研究表明，在某些情況下，適度減少 KL 損失的約束可以提高模型的探索能力和推理性能。

RLVR 在其他任務上的應用

RLVR 不僅在數學和編程任務上表現出色，還在邏輯推理、應用導向任務（如代碼修復、機器翻譯、多跳問答等）以及知識發現等領域展現了巨大的潛力。例如，RL-Poet 通過格式獎勵將小型語言模型訓練成詩人，展示了模型在創造性寫作方面的潛力。Dalal 的研究通過 RL 訓練模型發現更高效的排序算法，展示了模型在知識發現方面的潛力。

三、推理語言模型的更多發展方向推理增強的替代方法過程獎勵建模方法（PRM）

過程級獎勵建模（Process Reward Modeling, PRM）通過在推理過程的每個中間步驟提供反饋，提高了模型的適應性和魯棒性。這種方法與傳統的僅關注最終結果的獎勵機制不同，PRM 能夠在推理的每一步給予模型具體的指導，從而更好地引導模型進行復雜的推理任務。例如，rStar-Math 中的 Process Preference Model（PPM）和 PRIME 框架通過在推理過程的每個步驟提供反饋，使模型能夠更好地處理復雜任務。rStar-Math 進一步引入了自進化策略，通過迭代優化推理路徑，顯著提高了模型的性能。

在 PRM 的設計中，研究者們通常會定義一個獎勵函數，該函數不僅依賴于最終結果的正確性，還會考慮推理過程中的中間步驟。例如，PRIME 框架通過隱式地從最終結果中推斷出中間步驟的獎勵，從而避免了對顯式標注的中間步驟的依賴。這種方法不僅提高了模型的推理能力，還降低了標注成本。此外，PRM 還可以通過引入探索機制，鼓勵模型嘗試不同的推理路徑，從而提高模型的泛化能力。

偏好優化策略

直接偏好優化（Direct Preference Optimization, DPO）是一種高效的訓練方法，通過構建選擇和拒絕樣本對來訓練模型。與在線 RL 方法（如 PPO 和 GRPO）相比，DPO 需要的計算資源更少，訓練效率更高。例如，EXAONE Deep 和 LightR1 等研究通過 DPO 提高了模型的推理能力。盡管 DPO 在某些情況下略遜于 PPO，但它在訓練效率和資源消耗方面的優勢使其成為一種有吸引力的選擇。

DPO 的核心思想是通過直接優化模型的輸出，使其更符合人類的偏好。在實際應用中，研究者們通常會收集大量的正負樣本對，其中正樣本是模型生成的高質量輸出，而負樣本則是低質量的輸出。通過優化這些樣本對，模型能夠學習到更符合人類偏好的輸出模式。此外，DPO 還可以通過引入正則化項，進一步提高模型的穩定性和泛化能力。

在 EXAONE Deep 的研究中，研究者們通過構建高質量的偏好樣本對，使模型能夠更高效地學習推理過程。他們使用了 1.6M 數據樣本進行監督微調（SFT），20K 實例進行偏好優化，以及 10K 樣本進行在線強化學習訓練。這種方法不僅提高了模型的推理能力，還顯著降低了訓練成本。此外，Iterative DPO 通過多輪偏好優化訓練，進一步提升了模型的性能，使其能夠與在線強化學習方法相媲美。

泛化能力持續預訓練

在數學推理任務上進行持續預訓練可以顯著提升語言模型的推理能力和泛化能力。例如，DeepSeekMath-Base 7B 在 MMLU 和 BBH 等基準測試中的表現優于其前身，這表明持續預訓練對模型的泛化能力有積極影響。DeepSeekMath-Base 7B 在 MMLU 上的得分從 49.1% 提升到 54.9%，在 BBH 上的得分從 55.2% 提升到 59.5%。

持續預訓練的核心在于通過不斷地在特定任務上進行訓練，使模型能夠更好地適應這些任務的特性。在推理任務中，持續預訓練可以幫助模型學習到更復雜的推理模式，從而提高其在未見任務上的表現。此外，持續預訓練還可以通過引入多任務學習，進一步提高模型的泛化能力。通過在多個相關任務上進行預訓練，模型能夠學習到更通用的特征表示，從而更好地適應新的任務。

監督微調

監督微調（SFT）通過為模型提供結構化、高質量的推理示例，顯著提升了模型的泛化能力。例如，LIMO 等研究通過精心策劃的訓練樣本，提高了模型在未見任務上的表現。LIMO 數據集通過收集數十億個問題，并應用基線難度過濾器，移除能夠快速解決的問題，從而構建了一個高質量的訓練集。

監督微調的核心在于通過高質量的標注數據，引導模型學習到更準確的推理模式。在實際應用中，研究者們通常會收集大量的標注數據，并通過優化損失函數，使模型能夠更好地擬合這些數據。此外，監督微調還可以通過引入正則化項，進一步提高模型的穩定性和泛化能力。例如，LIMO 數據集通過精心設計的正則化項，使模型在訓練過程中能夠更好地避免過擬合，從而提高其在未見任務上的表現。

在 LIMO 的研究中，研究者們通過多輪篩選和驗證，確保訓練數據的質量和多樣性。他們首先從多個數據源收集了大量問題，然后通過深度學習模型生成高質量的推理鏈，并通過嚴格的驗證過程確保每個樣本的正確性。這種方法不僅提高了模型在特定任務上的表現，還顯著增強了其在未見過的任務上的泛化能力。通過這種方式，模型能夠在面對復雜的推理任務時，更好地利用已有的知識和策略。

強化學習

基于結果獎勵的強化學習（RL）在推理語言模型的泛化能力方面展現了巨大的潛力。例如，Llama3-SWE-RL 和 RL-Poet 等研究展示了模型在跨領域、跨語言、跨模態任務中的表現。然而，RL 在推理語言模型泛化中也存在一些局限性，例如在某些情況下可能會限制模型的探索能力。

強化學習的核心在于通過獎勵信號，引導模型學習到最優的策略。在推理任務中，強化學習可以幫助模型學習到更復雜的推理路徑，從而提高其在未見任務上的表現。然而，強化學習也存在一些挑戰，例如獎勵信號的稀疏性和探索-利用平衡問題。為了解決這些問題，研究者們通常會引入多種策略，例如通過引入輔助任務，提高獎勵信號的密度；通過引入探索機制，鼓勵模型嘗試不同的策略。

在 Llama3-SWE-RL 的研究中，研究者們通過強化學習訓練模型，使其能夠在多種未見過的任務中表現出色。他們通過設計多樣化的獎勵函數，引導模型在推理過程中生成高質量的推理鏈。這種方法不僅提高了模型在特定任務上的表現，還顯著增強了其在未見過的任務上的泛化能力。此外，研究者們還通過引入多任務學習和多語言預訓練，進一步提升了模型的泛化能力。

安全性自我進化與獎勵黑客攻擊

推理語言模型的自我進化過程中可能會出現安全問題，如獎勵黑客攻擊。這種現象通常發生在模型利用獎勵函數的漏洞來獲得高獎勵，而不是真正解決問題。為緩解這一問題，研究者采取了多種算法設計和訓練策略，如獎勵對齊和解碼策略優化。例如，Guan 等人引入了推理對齊策略，通過安全策略增強模型的魯棒性。

在 Guan 的研究中，研究者們通過設計一種新的獎勵函數，使模型在推理過程中更加注重推理的正確性和合理性。他們引入了一種基于邏輯一致性的獎勵函數，確保模型在生成推理鏈時能夠遵循邏輯規則。這種方法不僅能夠有效防止獎勵黑客攻擊，還能顯著提升模型的推理能力。

對推理語言模型的越獄攻擊

針對推理語言模型的越獄攻擊方法已經取得了一定的成功率，這對模型的安全性構成了威脅。例如，Sabbaghi 等人提出了一種對抗推理方法，成功實現了對 OpenAI-o1 和 Deepseek-R1 的越獄攻擊，成功率分別為 56% 和 100%。研究者通過安全對齊的監督微調和強化學習來增強模型的抗攻擊能力。

越獄攻擊是針對模型的對抗性攻擊，其目的是使模型產生錯誤的輸出。為了解決這一問題，研究者們通常會引入多種策略，例如通過設計更復雜的防御機制，減少模型被攻擊的可能性；通過引入對抗訓練，提高模型的魯棒性。此外，研究者們還可以通過引入安全對齊機制，使模型的行為更符合人類的預期。

在 Sabbaghi 的研究中，研究者們通過設計一種新的攻擊方法，能夠有效地繞過模型的防御機制。他們通過構造復雜的輸入樣本，使模型在推理過程中產生錯誤的輸出。這種方法不僅能夠揭示模型的潛在漏洞，還能為研究者提供改進模型安全性的方向。通過引入安全對齊策略，研究者能夠顯著提升模型的抗攻擊能力。

過度思考問題

推理語言模型在推理過程中可能會出現過度思考現象，這不僅增加了成本，還可能降低性能。例如，Kumar 等人提出了 OverThink 攻擊，通過觸發模型的過度思考來增加操作和環境成本。研究者通過優化模型設計和訓練策略來減少過度思考的發生。

過度思考是推理語言模型中的一個常見問題，它可能導致模型在推理過程中花費過多的時間和資源。為了解決這一問題，研究者們通常會引入多種策略，例如通過優化模型的架構，減少模型的計算復雜度；通過引入早停機制，避免模型在不必要的推理步驟上浪費時間。此外，研究者們還可以通過引入資源限制，使模型在有限的資源內完成推理任務。

在 Kumar 的研究中，研究者們通過設計一種新的訓練策略，使模型在推理過程中能夠更高效地生成推理鏈。他們引入了一種基于時間限制的訓練機制，確保模型在有限的時間內生成高質量的推理鏈。這種方法不僅能夠減少過度思考的發生，還能顯著提升模型的推理效率。

多模態和多語言多模態推理語言模型

多模態推理語言模型的開發方法包括后對齊和混合模態預訓練。然而，這些方法在推理能力上存在不足。研究者通過改進測試時擴展方法來提升多模態推理語言模型的性能，并探索將單模態推理能力遷移到多模態場景的潛力。例如，Du 等人提出了一種多模態鏈式推理方法，通過增強模型對視覺和文本信息的聯合理解，提升了多模態推理能力。

多模態推理語言模型的核心在于通過整合多種模態的信息，提高模型的推理能力。在實際應用中，研究者們通常會引入多種策略，例如通過設計多模態特征提取器，提取不同模態的信息；通過引入多模態融合機制，整合不同模態的信息。此外，研究者們還可以通過引入多模態預訓練，使模型能夠更好地適應多模態任務。

在 Du 的研究中，研究者們通過設計一種新的多模態推理框架，使模型能夠更好地處理視覺和文本信息。他們引入了一種基于注意力機制的多模態融合方法，確保模型在推理過程中能夠充分利用視覺和文本信息。這種方法不僅能夠提升模型在多模態任務上的表現，還能顯著增強其在未見過的任務上的泛化能力。

多語言推理語言模型

多語言推理語言模型面臨資源有限、性能較弱等問題。研究者通過多語言 SFT 和 RL 算法等方法提升多語言推理語言模型的性能，并探索推理能力在不同語言之間的遷移和一致性問題。例如，Xuan 等人提出了一個跨語言推理框架，通過對比學習和多語言預訓練，提高了模型在低資源語言上的推理能力。

多語言推理語言模型的核心在于通過整合多種語言的信息，提高模型的推理能力。在實際應用中，研究者們通常會引入多種策略，例如通過設計多語言特征提取器，提取不同語言的信息；通過引入多語言融合機制，整合不同語言的信息。此外，研究者們還可以通過引入多語言預訓練，使模型能夠更好地適應多語言任務。

在 Xuan 的研究中，研究者們通過設計一種新的跨語言推理框架，使模型能夠更好地處理多語言任務。他們引入了一種基于對比學習的多語言預訓練方法，確保模型在推理過程中能夠充分利用多語言信息。這種方法不僅能夠提升模型在多語言任務上的表現，還能顯著增強其在未見過的任務上的泛化能力。

總結

本文梳理了圍繞 DeepSeek-R1 的復現研究工作，總結了監督微調（SFT）和基于可驗證獎勵的強化學習（RLVR）在推理語言模型中的應用及其關鍵發現。通過深入分析這些研究，我們可以發現高質量的數據集和合理的訓練策略對于提升模型的推理能力至關重要。例如，LIMO 和 S1k-1.1 等小規模、精心策劃的數據集也能取得強結果，這表明數據質量的重要性。此外，使用強大的指令模型（如 Qwen2.5-Instruct）相較于基礎模型（如 Qwen2.5-Base）在推理任務上具有明顯優勢。

推理模型訓練方法的分類

推理語言模型的未來發展將更加注重推理技能的應用范圍、模型的安全性和可解釋性以及獎勵機制的優化。例如，我們可以進一步拓展推理技能的應用范圍，使其能夠處理更多類型的復雜任務。同時，提升模型的安全性和可解釋性將有助于模型在實際應用中的廣泛部署。優化獎勵機制將使模型能夠更好地學習復雜的推理過程。

通過對 DeepSeek-R1 及其復現的了解，我們能看到推理語言模型在人工智能領域的巨大潛力。從監督微調到強化學習，從數學解題到多模態任務，這些模型不僅能夠生成高質量的推理鏈，還能在多種復雜任務中表現出色。然而，這些模型仍面臨諸多挑戰，如數據污染、獎勵黑客攻擊和過度思考等問題。本文所涉及的一些核心數據集，我已轉載至 modelscope 以便使用，請見參考資料。各位，看過此文有什么感想？如有其他想法可以在評論區留言，我們聊聊。

參考資料

? 100 DAYS AFTER DEEPSEEK-R1: A SURVEY ON REPLICATION STUDIES AND MORE DIRECTIONS FOR REASONING LANGUAGE MODELS
https://arxiv.org/pdf/2505.00551
? Open-R1Open-source dataset
https://www.modelscope.cn/collections/Open-R1-003d33e0335b4f

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.