網易首頁 > 網易號 > 正文申請入駐

完全開源的7B模型，性能比肩主流LLM，訓練成本僅16萬美元，復現DeepSeek的強化學習！

2025-05-14 17:52:59　來源: AI科技大本營

北京舉報

分享至

責編 |夢依丹

出品丨AI 科技大本營（ID：rgznai100）

自從 GPT-3 橫空出世，生成式 AI 徹底點燃了全球科技圈：

GPT-4、Claude 3、Gemini、DeepSeek，不斷刷新智能上限
生成文字、代碼、圖像，跨模態進步一日千里
各行各業爭相擁抱大語言模型（LLMs），新的創業潮洶涌而來

盡管 LLMs 如 GPT-4、Claude 等展現了驚人的能力，但閉源模型的閉源特性讓研究者難以深入理解其運作機制，同時開源模型的開放程度有限：

絕大多數頂尖模型閉源，僅限 API 調用
商業化受限，API 費用高昂，且隨時可能漲價
數據隱私、合規性問題難以把控
對于開源模型，往往只公開模型權重，而關鍵的訓練代碼、數據集和配置卻被隱藏，這嚴重阻礙了學術研究和商業化應用

Moxin-7B：從預訓練到強化學習，全面透明的 AI 革新

Moxin-7B 的誕生，正是為了解決這一問題！它由來自東北大學、哈佛、康奈爾等機構的研究團隊聯合開發，完全遵循“開源科學”原則，公開了從數據清洗到強化學習的全流程細節，從預訓練到 DeepSeek 同款強化學習，成為目前透明度最高的開源 LLM 之一。

Moxin-7B 的開源貢獻

Moxin-7B-Base 權重、預訓練數據與代碼
Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼
Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

Moxin-7B 的三大核心突破

1. 真正的“開源科學”：從數據到模型的全透明

完整公開：包括預訓練代碼、超參數配置、數據處理腳本、SFT/RLHF 訓練框架，權重等等。
數據集透明：

預訓練數據：基于高質量語料庫 SlimPajama（627B tokens）和 DCLM-BASELINE，經過嚴格去重和過濾。

指令微調數據：使用 Tulu 3 和 Infinity Instruct，涵蓋數學、代碼、科學文獻等多領域任務。

強化學習數據：采用 OpenThoughts 和 OpenR1-Math-220k，通過 DeepSeek R1 生成的高質量數學推理數據。

2. 高性能低成本：小模型的大能量

訓練成本僅 16 萬美元（對比：GPT-3 訓練成本約 460 萬美元）。
評測表現亮眼：

零樣本任務：在 ARC-C（AI2推理挑戰）上達到 58.64%，超越 LLaMA 3.1-8B（53.67%）和 Qwen2-7B（50.09%）。

數學推理：經過 RL 微調后，在 MATH-500 上準確率 68%，超越 70B 參數的Llama-3-Instruct 模型（64.6%）。

長上下文支持：通過滑動窗口注意力（SWA）和分組查詢注意力（GQA），高效處理 32K 長文本。

3. 技術創新：從架構到訓練策略

模型架構：基于 Mistral-7B 改進，深度擴展至 36 層，采用預層歸一化和混合精度訓練，提升穩定性。
后訓練優化：

指令微調（SFT）：使用 Tulu 3 框架，在 939K 指令數據上訓練，增強多任務能力。

偏好優化（DPO）：通過 LLM-as-a-judge 標注的偏好數據，讓模型輸出更符合人類價值觀。

強化學習（RL）：

采用 GRPO 算法（類似 DeepSeek R1），僅用 7B 參數即可實現高效推理。

訓練框架 DeepScaleR 和 AReal 均開源，支持社區復現。

體現出強化學習對 7B 規模的小模型也有效果。

技術細節大揭秘：打造強力 7B 模型的秘密

1. 基礎架構：在 Mistral-7B 上全面增強

36層 Transformer（比原版 Mistral-7B 的32層更深）
4096維隱藏層，32個Attention頭
GQA（Grouped Query Attention）+ SWA（Sliding Window Attention），支持32K上下文處理，且推理速度更快、內存占用更低
混合精度訓練（FP16）+ 激活檢查點（Activation Checkpointing），顯著減少訓練顯存開銷
采用“滾動緩存機制”，在超長文本推理時，將注意力存儲限制在固定窗口，既保持推理質量，又避免顯存爆炸

2. 數據策略：質量遠勝普通爬蟲數據

Moxin-7B 使用了極為精細的數據篩選流程：

文本數據：SlimPajama + DCLM-Baseline

去除短文本、低質量、重復網頁，提升語料干凈度

基于 MinHash-LSH 技術做跨域去重，相似度閾值控制在 0.8 以內

清洗后僅保留約 627B Token（RedPajama 原版的 49% 大小），但信息密度更高

代碼數據：The Stack-dedup

6TB 開源許可代碼，涵蓋 358 種語言

進一步近似去重，避免重復訓練，移除 40% 以上重復或近重復代碼片段

助力模型在編碼理解、代碼生成任務上有優異表現，提升推理能力

推理/數學增強數據：

采用高質量公開數據

集中提升推理、數學、常識問答等方面能力

3. 訓練過程：高效且可控

三階段預訓練策略：

1.基礎階段（2K context）

2.長上下文階段（4K context）

3.能力強化階段

使用 Colossal-AI 進行訓練加速：

1.混合并行（Data Parallelism + Model Parallelism）

2.ZeRO 優化（減少冗余存儲）

3.混合精度訓練

4.動態調度、異步通信加速

訓練成本僅約 16 萬美元！

1.為小型研究團隊/企業提供了現實范例

4. 微調與強化學習：能力全面拉滿！

預訓練結束后，Moxin 團隊采用雙路線后期優化：

指令微調（SFT+DPO）

采用 open-instruct 開源框架

基于Tülu 3和Infinity Instruct數據集，采用多源指令數據（如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等）

使用 DPO（Direct Preference Optimization）進一步對齊人類偏好

結果：生成回答更流暢、理解指令更準確

推理強化（CoT + GRPO）

使用高質量鏈式推理數據（OpenThoughts、OpenR1-Math等）進行微調

引入 GRPO 強化學習，提升復雜推理/數學答題能力

采用開源訓練框架 DeepScaleR，支持社區復現

結果：Moxin Reasoning 模型，在數學推理能力上表現卓越

5.Moxin vs. 主流模型：實測對比

Base 模型

Zero-shot 測試

表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型，可以觀察到，相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等，Moxin-7B-Base 表現出強勁性能。

Few-shot 測試

表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型，可以觀察到，相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等，Moxin-7B-Base 表現出強勁性能。

Instruct 模型

表中Moxin-7B-DPO即為Moxin-7B-Instrcut模型，可以觀察到，相比于其他Instruct模型如Qwen2.5-7B-Instruct，Moxin-7B-Instruct表現亮眼。

Reasoning 模型

相比于其他baselines如Qwen2.7-Math-7B-Base，Moxin-7B-Reasoning表現突出，體現出強化學習對7B規模的小模型也有效果。

結語：開源的力量

Moxin-7B 證明了一點：高性能 LLM 不必是黑箱。它的全透明策略不僅降低了研究門檻，還為中小企業提供了可控的AI解決方案。Moxin-7B 的開源貢獻：

Moxin-7B-Base 權重、預訓練數據與代碼
Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼
Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

立即體驗：

GitHub：github.com/moxin-org/Moxin-LLM
HuggingFace：huggingface.co/moxin-org

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.