99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

完全開源的7B模型,性能比肩主流LLM,訓練成本僅16萬美元,復現DeepSeek的強化學習!

0
分享至


責編 |夢依丹

出品丨AI 科技大本營(ID:rgznai100)

自從 GPT-3 橫空出世,生成式 AI 徹底點燃了全球科技圈:

  • GPT-4、Claude 3、Gemini、DeepSeek,不斷刷新智能上限

  • 生成文字、代碼、圖像,跨模態進步一日千里

  • 各行各業爭相擁抱大語言模型(LLMs),新的創業潮洶涌而來

盡管 LLMs 如 GPT-4、Claude 等展現了驚人的能力,但閉源模型的閉源特性讓研究者難以深入理解其運作機制,同時開源模型的開放程度有限:

  • 絕大多數頂尖模型閉源,僅限 API 調用

  • 商業化受限,API 費用高昂,且隨時可能漲價

  • 數據隱私、合規性問題難以把控

  • 對于開源模型,往往只公開模型權重,而關鍵的訓練代碼、數據集和配置卻被隱藏,這嚴重阻礙了學術研究和商業化應用


Moxin-7B:從預訓練到強化學習,全面透明的 AI 革新

Moxin-7B 的誕生,正是為了解決這一問題! 它由來自東北大學、哈佛、康奈爾等機構的研究團隊聯合開發,完全遵循“開源科學”原則,公開了從數據清洗到強化學習的全流程細節,從預訓練到 DeepSeek 同款強化學習,成為目前透明度最高的開源 LLM 之一。


Moxin-7B 的開源貢獻

  • Moxin-7B-Base 權重、預訓練數據與代碼

  • Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼

  • Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

Moxin-7B 的三大核心突破

1. 真正的“開源科學”:從數據到模型的全透明

  • 完整公開:包括預訓練代碼、超參數配置、數據處理腳本、SFT/RLHF 訓練框架,權重等等。

  • 數據集透明:

預訓練數據:基于高質量語料庫 SlimPajama(627B tokens)和 DCLM-BASELINE,經過嚴格去重和過濾。

指令微調數據:使用 Tulu 3 和 Infinity Instruct,涵蓋數學、代碼、科學文獻等多領域任務。

強化學習數據:采用 OpenThoughts 和 OpenR1-Math-220k,通過 DeepSeek R1 生成的高質量數學推理數據。

2. 高性能低成本:小模型的大能量

  • 訓練成本僅 16 萬美元(對比:GPT-3 訓練成本約 460 萬美元)。

  • 評測表現亮眼:

零樣本任務:在 ARC-C(AI2推理挑戰)上達到 58.64%,超越 LLaMA 3.1-8B(53.67%)和 Qwen2-7B(50.09%)。

數學推理:經過 RL 微調后,在 MATH-500 上準確率 68%,超越 70B 參數的Llama-3-Instruct 模型(64.6%)。

長上下文支持:通過滑動窗口注意力(SWA)和分組查詢注意力(GQA),高效處理 32K 長文本。

3. 技術創新:從架構到訓練策略

  • 模型架構:基于 Mistral-7B 改進,深度擴展至 36 層,采用預層歸一化和混合精度訓練,提升穩定性。

  • 后訓練優化:

指令微調(SFT):使用 Tulu 3 框架,在 939K 指令數據上訓練,增強多任務能力。

偏好優化(DPO):通過 LLM-as-a-judge 標注的偏好數據,讓模型輸出更符合人類價值觀。

  • 強化學習(RL):

采用 GRPO 算法(類似 DeepSeek R1),僅用 7B 參數即可實現高效推理。

訓練框架 DeepScaleR 和 AReal 均開源,支持社區復現。

體現出強化學習對 7B 規模的小模型也有效果。


技術細節大揭秘:打造強力 7B 模型的秘密

1. 基礎架構:在 Mistral-7B 上全面增強

  • 36層 Transformer(比原版 Mistral-7B 的32層更深)

  • 4096維隱藏層,32個Attention頭

  • GQA(Grouped Query Attention)+ SWA(Sliding Window Attention),支持32K上下文處理,且推理速度更快、內存占用更低

  • 混合精度訓練(FP16)+ 激活檢查點(Activation Checkpointing),顯著減少訓練顯存開銷

  • 采用“滾動緩存機制”,在超長文本推理時,將注意力存儲限制在固定窗口,既保持推理質量,又避免顯存爆炸

2. 數據策略:質量遠勝普通爬蟲數據

Moxin-7B 使用了極為精細的數據篩選流程:

  • 文本數據:SlimPajama + DCLM-Baseline

去除短文本、低質量、重復網頁,提升語料干凈度

基于 MinHash-LSH 技術做跨域去重,相似度閾值控制在 0.8 以內

清洗后僅保留約 627B Token(RedPajama 原版的 49% 大小),但信息密度更高

  • 代碼數據:The Stack-dedup

6TB 開源許可代碼,涵蓋 358 種語言

進一步近似去重,避免重復訓練,移除 40% 以上重復或近重復代碼片段

助力模型在編碼理解、代碼生成任務上有優異表現,提升推理能力

  • 推理/數學增強數據:

采用高質量公開數據

集中提升推理、數學、常識問答等方面能力

3. 訓練過程:高效且可控

  • 三階段預訓練策略:

1.基礎階段(2K context)

2.長上下文階段(4K context)

3.能力強化階段

  • 使用 Colossal-AI 進行訓練加速:

1.混合并行(Data Parallelism + Model Parallelism)

2.ZeRO 優化(減少冗余存儲)

3.混合精度訓練

4.動態調度、異步通信加速

  • 訓練成本僅約 16 萬美元!

1.為小型研究團隊/企業提供了現實范例

4. 微調與強化學習:能力全面拉滿!

預訓練結束后,Moxin 團隊采用雙路線后期優化:

  • 指令微調(SFT+DPO)

采用 open-instruct 開源框架

基于Tülu 3和Infinity Instruct數據集,采用多源指令數據(如CoCoNot, OpenMathInstruct, Evol-CodeAlpaca等)

使用 DPO(Direct Preference Optimization)進一步對齊人類偏好

結果:生成回答更流暢、理解指令更準確

  • 推理強化(CoT + GRPO)

使用高質量鏈式推理數據(OpenThoughts、OpenR1-Math等)進行微調

引入 GRPO 強化學習,提升復雜推理/數學答題能力

采用開源訓練框架 DeepScaleR,支持社區復現

結果:Moxin Reasoning 模型,在數學推理能力上表現卓越

5.Moxin vs. 主流模型:實測對比

  • Base 模型

Zero-shot 測試


表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。

  • Few-shot 測試


表中 Moxin-7B-Enhanced 即為 Moxin-7B-Base 模型,可以觀察到,相比于其他 Base 模型如 Qwen2-7B、Llama3.1-8B 等,Moxin-7B-Base 表現出強勁性能。

  • Instruct 模型


表中Moxin-7B-DPO即為Moxin-7B-Instrcut模型,可以觀察到,相比于其他Instruct模型如Qwen2.5-7B-Instruct,Moxin-7B-Instruct表現亮眼。

  • Reasoning 模型


相比于其他baselines如Qwen2.7-Math-7B-Base,Moxin-7B-Reasoning表現突出,體現出強化學習對7B規模的小模型也有效果。


結語:開源的力量

Moxin-7B 證明了一點:高性能 LLM 不必是黑箱。它的全透明策略不僅降低了研究門檻,還為中小企業提供了可控的AI解決方案。Moxin-7B 的開源貢獻:

  • Moxin-7B-Base 權重、預訓練數據與代碼

  • Moxin-7B-Instruct 權重、SFT 與 DPO 的訓練數據與代碼

  • Moxin-7B-Reasoning 權重、GRPO 的訓練數據與代碼

立即體驗:

  • GitHub:github.com/moxin-org/Moxin-LLM

  • HuggingFace:huggingface.co/moxin-org


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宮魯鳴:張子宇體重300斤和姚明差不多重,潛力大但容易受傷

宮魯鳴:張子宇體重300斤和姚明差不多重,潛力大但容易受傷

林小湜體育頻道
2025-06-14 00:51:18
警察與住持聯手強奸女高中生:這是什么噩夢組合?

警察與住持聯手強奸女高中生:這是什么噩夢組合?

17譚
2025-06-13 17:32:36
德黑蘭行動:現實比美劇更殘酷

德黑蘭行動:現實比美劇更殘酷

Wilsonhe8
2025-06-14 01:37:50
在她身上看到的全是波瀾

在她身上看到的全是波瀾

貴圈真亂
2025-06-14 11:43:13
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
鄭欽文今晚10點與阿尼西莫娃對決!贏球=96萬+冠軍NO

鄭欽文今晚10點與阿尼西莫娃對決!贏球=96萬+冠軍NO

徐徐解說
2025-06-14 07:28:10
小米發了個199的新品,把所有網友都整不會了

小米發了個199的新品,把所有網友都整不會了

鋒潮評測
2025-06-13 16:24:07
荔枝再次成為關注對象!醫生提醒:吃荔枝時,要多注意這7點!

荔枝再次成為關注對象!醫生提醒:吃荔枝時,要多注意這7點!

男女那點事兒兒
2025-06-13 18:56:38
開掛了!40歲男子在印度客機墜毀前跳機逃生,僥幸撿回一命

開掛了!40歲男子在印度客機墜毀前跳機逃生,僥幸撿回一命

奪命書生
2025-06-13 03:43:04
到手3:1被逆轉!天王山!差點死在邊線球!

到手3:1被逆轉!天王山!差點死在邊線球!

柚子說球
2025-06-14 12:33:37
經濟什么時候能夠復蘇呢?如果把真相說出來,可能有點扎心!

經濟什么時候能夠復蘇呢?如果把真相說出來,可能有點扎心!

流蘇晚晴
2025-06-13 19:27:26
臉都不要了!伊朗被美伊兩國連番羞辱后,才想起中伊25年之約?

臉都不要了!伊朗被美伊兩國連番羞辱后,才想起中伊25年之約?

阿纂看事
2025-06-13 21:18:56
6月13日,養老金調整通知公布了?定額標準提高,企退更受益嗎?

6月13日,養老金調整通知公布了?定額標準提高,企退更受益嗎?

曉風說
2025-06-13 12:35:09
到底誰菜?正式下課,伊萬被哄搶,下家4選1,或比新帥早上任

到底誰菜?正式下課,伊萬被哄搶,下家4選1,或比新帥早上任

東球弟
2025-06-14 10:00:38
以色列沒有打醒阿拉伯人。卻打醒了中國人!

以色列沒有打醒阿拉伯人。卻打醒了中國人!

boss外傳
2025-05-24 18:15:06
李媛媛墓地現狀曝光:雜草叢生太難找到,墓碑上的照片仍鮮亮!

李媛媛墓地現狀曝光:雜草叢生太難找到,墓碑上的照片仍鮮亮!

古希臘掌管月桂的神
2025-06-13 13:27:47
南京小伙自駕兩萬多公里往返英國留學,異國他鄉看到很多國產新能源車

南京小伙自駕兩萬多公里往返英國留學,異國他鄉看到很多國產新能源車

揚子晚報
2025-06-14 09:45:53
兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

兒子出國后16年沒聯系,我癌癥住院時,主治醫生摘下口罩:媽

五元講堂
2025-06-12 15:16:01
伊朗——戰略誤判的代價!

伊朗——戰略誤判的代價!

華山穹劍
2025-06-13 20:29:13
伊朗:擊落以色列F-35戰機,俘獲飛行員

伊朗:擊落以色列F-35戰機,俘獲飛行員

每日經濟新聞
2025-06-14 09:53:10
2025-06-14 12:55:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

頭條要聞

牛彈琴:中東大戰開啟 以色列遭受幾十年來最猛烈攻擊

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

房產
游戲
健康
旅游
時尚

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

SIE總裁稱PS+訂閱價格還會上漲 玩家更喜歡高級檔會員

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

在時尚中國之夜,共赴榮耀東方時刻

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 西和县| 婺源县| 应城市| 南开区| 鹿泉市| 张北县| 邯郸市| 林州市| 滕州市| 仙游县| 南川市| 青铜峡市| 布尔津县| 洛扎县| 建始县| 木兰县| 通化市| 安徽省| 东阳市| 报价| 家居| 武鸣县| 灵山县| 襄城县| 平湖市| 平顺县| 腾冲县| 苍梧县| 达拉特旗| 荃湾区| 德保县| 调兵山市| 西贡区| 马鞍山市| 晋城| 沾化县| 中阳县| 永顺县| 巴林右旗| 巫山县| 龙海市|