媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數(shù)據(jù)集大公開

2025-04-09 17:43:50　來源: RPA中國

北京舉報

分享至

今天凌晨4點，著名大模型訓練平臺Together AI和智能體平臺Agentica，聯(lián)合開源了新模型DeepCoder-14B-Preview。

該模型只有140億參數(shù)，但在知名代碼測試平臺LiveCodeBench的測試分為60.6%，高于OpenAI的o1模型（59.5%），略低于o3-mini（60.9%）。在Codeforces、AIME2024上的評測數(shù)據(jù)同樣非常出色，幾乎與o1、o3-mini差不多。

值得一提的是，Together AI不僅開源了DeepCoder-14B模型權(quán)重，還把訓練數(shù)據(jù)集、訓練方法、訓練日志和優(yōu)化方法全部公開，幫助開發(fā)者更深度的了解這個模型所有開發(fā)流程。

開源地址：https://huggingface.co/agentica-org/DeepCoder-14B-Preview

github：https://github.com/agentica-project/rllm

DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上，通過分布式強化學習（RL）進行了微調(diào)。

在開發(fā)過程中，研究人員首先構(gòu)建了一個高質(zhì)量訓練數(shù)據(jù)集，包含24K個可驗證的編程問題：涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數(shù)據(jù)集中的驗證問題等。

為了確保數(shù)據(jù)質(zhì)量，通過程序驗證、測試過濾和去重等步驟。程序化驗證，每個問題都會使用外部官方解決方案自動進行驗證。會過濾數(shù)據(jù)集，只包含官方解決方案通過所有單元測試的問題。

測試過濾，每個問題必須至少包含5個單元測試。重復數(shù)據(jù)刪除，刪除了數(shù)據(jù)集中的重復問題，以避免污染。

在代碼強化學習訓練中，DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。Together Code Interpreter 是一個快速高效的環(huán)境，與RL訓練直接兼容，成本低且可擴展性強，能夠支持100多個并發(fā)沙盒和每分鐘1000多個沙盒執(zhí)行。

本地代碼沙盒則是一個獨立的、受保護的 Python子進程，遵循官方 LiveCodeBench倉庫中的相同評估代碼，確保了結(jié)果與現(xiàn)有排行榜的一致性。

在獎勵函數(shù)設計方面，DeepCoder采用了稀疏結(jié)果獎勵模型（ORM），避免分配部分獎勵，從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。

獎勵函數(shù)簡單而明確：如果生成的代碼通過所有采樣單元測試，則獎勵為 1；否則為 0。這種設計確保了模型能夠?qū)Ｗ⒂谏筛哔|(zhì)量的代碼，而不是通過記憶測試用例來獲取獎勵。

為了實現(xiàn)更穩(wěn)定的訓練過程，DeepCoder的訓練采用了GRPO+，這是對原始GRPO算法的改進版本。

通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術，GRPO+ 使得模型在訓練過程中能夠保持穩(wěn)定的熵值，避免訓練崩潰，并且能夠更自然地生成較長的輸出，從而提高了模型的推理能力。

此外，DeepCoder-14B-Preview 采用了迭代上下文擴展技術，使模型能夠從較短的上下文長度開始學習，然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K，最終在 64K上下文中評估時達到了60.6%的準確率。

為了加速端到端的RL訓練，DeepCoder 團隊引入并開源了 verl-pipeline，這是 verl 的一個優(yōu)化擴展。通過一次性流水線技術，DeepCoder 實現(xiàn)了訓練、獎勵計算和采樣的完全流水線化。

同時，獎勵計算與采樣交錯進行，減少了獎勵評估的開銷。這些優(yōu)化使得訓練時間減少了 2 倍，特別是在需要運行數(shù)千個測試用例的編碼任務中，顯著提高了訓練效率。

雖然DeepCoder剛開源但評價非常高，網(wǎng)友表示，這相當令人驚訝。它不僅是真正意義上的開源，而且他們還對廣義信賴域策略優(yōu)化算法（GRPO）進行了多項改進，并且在訓練過程中為采樣流水線增添了額外的效率提升。

太厲害了！等不及這款模型在 Ollama 平臺上體驗了。

圣誕節(jié)提前到來了。

傳奇！開源就應該這樣。

關于Together AI

Together AI成立于2022年，主打云大模型平臺支持超過200種開源AI模型，包括Llama系列、DeepSeek-R1等，并優(yōu)化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。

此外，Together AI還提供模型微調(diào)、Agent智能自動化工作流和合成數(shù)據(jù)生成等，為大企業(yè)提供底層服務。

前不久，Together AI剛獲得3.05億美元的B輪融資，其估值也從去年的12.5億美元翻倍至33億美元。

本文素材來源Together AI，如有侵權(quán)請聯(lián)系刪除

報告下載

大佬觀點分享

關于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點擊文字即可閱讀)

| |

| | |

| |

行業(yè)知識交流分享，結(jié)識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2
所有AI工具共享記憶！MCP協(xié)議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
56 跟貼 56

知識儲備≠模型能力！DeepMind強化學習微調(diào)：大幅縮小「知行差距」

新智元 2025-06-21 17:34:06
0 跟貼 0

為什么說AI“有用”才最重要？

新周刊 2025-03-25 22:43:55
0 跟貼 0
Sam Altman提醒創(chuàng)業(yè)者：ChatGPT將來要做的，大家就繞開吧

機器之心Pro 2025-06-23 10:55:04
2 跟貼 2

AI也會鬧情緒了！Gemini代碼調(diào)試不成功直接擺爛，馬斯克都來圍觀

量子位 2025-06-22 13:50:35
15 跟貼 15

舍棄CUDA編程!CMU等用代碼將LLM編譯成巨型內(nèi)核,推理延遲降6.7倍

機器之心Pro 2025-06-23 10:41:12
10 跟貼 10
AI輔助編碼帶來思維方式轉(zhuǎn)變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0

OpenAI CEO深度訪談：吐槽Meta1億美金挖墻角，透露造“AI伴侶”

智東西 2025-06-22 18:45:53
6 跟貼 6
細節(jié)厘米級還原、實時渲染，MTGS方法突破自動駕駛場景重建瓶頸

機器之心Pro 2025-04-02 14:22:12
0 跟貼 0
挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
0 跟貼 0
比你還像你的AI，來了！

華商韜略 2025-04-29 10:31:57
0 跟貼 0
CVPR 2025 多模態(tài)大一統(tǒng)：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
華為云發(fā)布盤古大模型5.5，現(xiàn)場揭秘底層技術

量子位 2025-06-21 16:36:55
0 跟貼 0
室內(nèi)移動抓取多模態(tài)智能體亮相，真實環(huán)境零樣本動作準確率達 90%

機器之心Pro 2025-06-21 10:55:56
1 跟貼 1
16款大模型為自保竟泄露機密，Anthropic緊急報告AI自主暗藏風險

DeepTech深科技 2025-06-22 23:05:32
1 跟貼 1
推理正確率下降65.5%！斯坦福、MIT等用「不等式」拷問AI邏輯極限

新智元 2025-06-23 13:17:43
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
超級Agent，鳴槍起跑

機器之心Pro 2025-03-17 10:30:11
0 跟貼 0
人人都能做開發(fā)者！連小學生都能輕松上手的0代碼開發(fā)平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯(lián)社 2025-02-25 23:59:43
0 跟貼 0
最新戰(zhàn)略發(fā)布！長飛如何筑牢AI時代“高速公路”

通信世界 2025-06-23 14:53:19
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創(chuàng)新與風險合規(guī)

每日經(jīng)濟新聞 2025-05-19 23:01:58
0 跟貼 0
無損減少80%激活值內(nèi)存，提升5倍訓練序列長度，僅需兩行代碼

機器之心Pro 2025-06-23 15:55:45
0 跟貼 0
研究人員打造知識圖譜補全新框架，可用于推薦系統(tǒng)和信息檢索

DeepTech深科技 2025-04-16 11:11:03
0 跟貼 0
元廷轉(zhuǎn)變剿匪策略，朱元璋抓住機會迅速發(fā)展壯大

天浩電影V 2025-06-20 09:56:16
1 跟貼 1
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
244 跟貼 244
英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

新智元 2025-06-22 12:16:12
84 跟貼 84
重構(gòu)訓練框架，開源新方法：拋棄替代損失函數(shù)，僅需優(yōu)化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
從技術大牛到團隊老大，我踩過的那些坑

熱點研究 2025-06-21 07:16:44
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發(fā)A-SWE能寫代碼、測試質(zhì)量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
差分注意力機制引領變革，DIFF Transformer攻克長序列建模難題

機器之心Pro 2025-04-29 11:03:19
0 跟貼 0
常州五連敗被“剃光頭”，一景區(qū)推出“光頭免票”：沒頭發(fā)就行，性別無限制

極目新聞 2025-06-22 18:26:28
1444 跟貼 1444
奧特曼YC硬核訪談：走ChatGPT之路必死，世界差點沒有OpenAI！

新智元 2025-06-23 14:47:51
1 跟貼 1
二代星艦接連爆炸，這回連測試場都毀了，快速迭代不靈了嗎？

最后的蘇霍伊視頻 2025-06-20 23:48:18
132 跟貼 132
高考填志愿避坑指南：人工智能專業(yè)，別一頭熱！

平凡AI 2025-06-23 06:39:14
4 跟貼 4
當接過一個新業(yè)務/需求時，底層的思考框架都有什么

人人都是產(chǎn)品經(jīng)理社區(qū) 2025-06-23 07:51:09
0 跟貼 0
夢幻西游：武神壇驚現(xiàn)超級武僧，群秒暴擊1萬4，算不算法系一哥？

浩仔說夢 2025-06-22 08:00:00
0 跟貼 0
梅德韋杰夫稱有國家準備直接向伊提供核彈頭萬斯回應

環(huán)球網(wǎng)資訊 2025-06-23 11:56:50
328 跟貼 328
第15波導彈！以工業(yè)區(qū)燃起大火，伊朗實戰(zhàn)幫中國驗證應對強敵策略

瑩瑩觀點 2025-06-20 17:37:40
1 跟貼 1

手機 / 數(shù)碼

房產(chǎn) / 家居

媲美OpenAI-o3，剛剛開源模型DeepCoder，訓練方法、數(shù)據(jù)集大公開

售出千萬臺！他卻說"只想做下一代AI終端"

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

比起雷霆三少，他才是真正隊魂

魏大勛和秦嵐沒分手！

關稅重磅！美國宣布，今起加征

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態(tài)度原創(chuàng)

熱聞|清明假期將至，熱門目的地有哪些?

洗碗機要成“剛需”了 618銷量暴增

角逐MMO巔峰？《劍靈》巔峰服上線；《冒險島》開啟首個賽季服

呼吸科專家破解呼吸道九大謠言！

奔襲萬里的美B-2轟炸機內(nèi)部披露返航通話錄音被截獲

奔襲萬里的美B-2轟炸機內(nèi)部披露返航通話錄音被截獲