責編 |夢依丹
出品丨AI 科技大本營(ID:rgznai100)
自從 GPT-3 橫空出世,生成式 AI 徹底點燃了全球科技圈:
GPT-4、Claude 3、Gemini、DeepSeek,不斷刷新智能上限
生成文字、代碼、圖像,跨模態進步一日千里
各行各業爭相擁抱大語言模型(LLMs),新的創業潮洶涌而來
盡管 LLMs 如 GPT-4、Claude 等展現了驚人的能力,但閉源模型的閉源特性讓研究者難以深入理解其運作機制,同時開源模型的開放程度有限:
絕大多數頂尖模型閉源,僅限 API 調用
商業化受限,API 費用高昂,且隨時可能漲價
數據隱私、合規性問題難以把控
對于開源模型,往往只公開模型權重,而關鍵的訓練代碼、數據集和配置卻被隱藏,這嚴重阻礙了學術研究和商業化應用
Moxin-7B:從預訓練到強化學習,全面透明的 AI 革新
Moxin-7B 的誕生,正是為了解決這一問題! 它由來自東北大學、哈佛、康奈爾等機構的研究團隊聯合開發,完全遵循“開源科學”原則,公開了從數據清洗到強化學習的全流程細節,從預訓練到 DeepSeek 同款強化學習,成為目前透明度最高的開源 LLM 之一。
Moxin-7B 的開源貢獻
Moxin-7B-Base 權重、預訓練數據與代碼
Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼
Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼
Moxin-7B 的三大核心突破
1. 真正的“開源科學”:從數據到模型的全透明
完整公開:包括預訓練代碼、超參數配置、數據處理腳本、SFT/RLHF 訓練框架,權重等等。
數據集透明:
預訓練數據:基于高質量語料庫 SlimPajama(627B tokens)和 DCLM-BASELINE,經過嚴格去重和過濾。
指令微調數據:使用 Tulu 3 和 Infinity Instruct,涵蓋數學、代碼、科學文獻等多領域任務。
強化學習數據:采用 OpenThoughts 和 OpenR1-Math-220k,通過 DeepSeek R1 生成的高質量數學推理數據。
2. 高性能低成本:小模型的大能量
訓練成本僅 16 萬美元(對比:GPT-3 訓練成本約 460 萬美元)。
評測表現亮眼:
零樣本任務:在 ARC-C(AI2推理挑戰)上達到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。
數學推理:經過 RL 微調后,在 MATH-500 上準確率 68%,超越 70B 參數的Llama-3-Instruct 模型(64.6%)。
長上下文支持:通過滑動窗口注意力(SWA)和分組查詢注意力(GQA),高效處理 32K 長文本。
3. 技術創新:從架構到訓練策略
模型架構:基于 Mistral-7B 改進,深度擴展至 36 層,采用預層歸一化和混合精度訓練,提升穩定性。
后訓練優化:
指令微調(SFT):使用 Tulu 3 框架,在 939K 指令數據上訓練,增強多任務能力。
偏好優化(DPO):通過 LLM-as-a-judge 標注的偏好數據,讓模型輸出更符合人類價值觀。
強化學習(RL):
采用 GRPO 算法(類似 DeepSeek R1),僅用 7B 參數即可實現高效推理。
訓練框架 DeepScaleR 和 AReal 均開源,支持社區復現。
體現出強化學習對 7B 規模的小模型也有效果。
技術細節大揭秘:打造強力 7B 模型的秘密
1. 基礎架構:在 Mistral-7B 上全面增強
36層 Transformer(比原版 Mistral-7B 的32層更深)
4096維隱藏層,32個Attention頭
GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文處理,且推理速度更快、內存占用更低
混合精度訓練(FP16)+ 激活檢查點(Activation Checkpointing),顯著減少訓練顯存開銷
采用“滾動緩存機制”,在超長文本推理時,將注意力存儲限制在固定窗口,既保持推理質量,又避免顯存爆炸
2. 數據策略:質量遠勝普通爬蟲數據
Moxin-7B 使用了極為精細的數據篩選流程:
文本數據:SlimPajama + DCLM-Baseline
去除短文本、低質量、重復網頁,提升語料干凈度
基于 MinHash-LSH 技術做跨域去重,相似度閾值控制在 0.8 以內
清洗后僅保留約 627B Token(RedPajama 原版的 49% 大小),但信息密度更高
代碼數據:The Stack-dedup
6TB 開源許可代碼,涵蓋 358 種語言
進一步近似去重,避免重復訓練,移除 40% 以上重復或近重復代碼片段
助力模型在編碼理解、代碼生成任務上有優異表現,提升推理能力
推理/數學增強數據:
采用高質量公開數據
集中提升推理、數學、常識問答等方面能力
3. 訓練過程:高效且可控
三階段預訓練策略:
1.基礎階段(2K context)
2.長上下文階段(4K context)
3.能力強化階段
使用 Colossal-AI 進行訓練加速:
1.混合并行(Data Parallelism + Model Parallelism)
2.ZeRO 優化(減少冗余存儲)
3.混合精度訓練
4.動態調度、異步通信加速
訓練成本僅約 16 萬美元!
1.為小型研究團隊/企業提供了現實范例
4. 微調與強化學習:能力全面拉滿!
預訓練結束后,Moxin 團隊采用雙路線后期優化:
指令微調(SFT+DPO)
采用 open-instruct 開源框架
基于Tülu 3和Infinity Instruct數據集,采用多源指令數據(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)
使用 DPO(Direct Preference Optimization)進一步對齊人類偏好
結果:生成回答更流暢、理解指令更準確
推理強化(CoT + GRPO)
使用高質量鏈式推理數據(OpenThoughts、OpenR1-Math等)進行微調
引入 GRPO 強化學習,提升復雜推理/數學答題能力
采用開源訓練框架 DeepScaleR,支持社區復現
結果:Moxin Reasoning 模型,在數學推理能力上表現卓越
5.Moxin vs. 主流模型:實測對比
Base 模型
Zero-shot 測試
表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。
Few-shot 測試
表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。
Instruct 模型
表中Moxin-7B-DPO即為Moxin-7B-Instrcut模型,可以觀察到,相比于其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表現亮眼。
Reasoning 模型
相比于其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表現突出,體現出強化學習對7B規模的小模型也有效果。
結語:開源的力量
Moxin-7B 證明了一點:高性能 LLM 不必是黑箱。它的全透明策略不僅降低了研究門檻,還為中小企業提供了可控的AI解決方案。Moxin-7B 的開源貢獻:
Moxin-7B-Base 權重、預訓練數據與代碼
Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼
Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼
立即體驗:
GitHub:github.com/moxin-org/Moxin-LLM
HuggingFace:huggingface.co/moxin-org
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.