99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數(shù)據(jù)集大公開

0
分享至

今天凌晨4點,著名大模型訓練平臺Together AI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。

該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的評測數(shù)據(jù)同樣非常出色,幾乎與o1、o3-mini差不多。

值得一提的是,Together AI不僅開源了DeepCoder-14B模型權(quán)重,還把訓練數(shù)據(jù)集、訓練方法、訓練日志和優(yōu)化方法全部公開,幫助開發(fā)者更深度的了解這個模型所有開發(fā)流程。


開源地址:https://huggingface.co/agentica-org/DeepCoder-14B-Preview

github:https://github.com/agentica-project/rllm

DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上,通過分布式強化學習(RL)進行了微調(diào)。

在開發(fā)過程中,研究人員首先構(gòu)建了一個高質(zhì)量訓練數(shù)據(jù)集,包含24K個可驗證的編程問題:涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數(shù)據(jù)集中的驗證問題等。

為了確保數(shù)據(jù)質(zhì)量,通過程序驗證、測試過濾和去重等步驟。程序化驗證,每個問題都會使用外部官方解決方案自動進行驗證。會過濾數(shù)據(jù)集,只包含官方解決方案通過所有單元測試的問題。


測試過濾,每個問題必須至少包含5個單元測試。重復數(shù)據(jù)刪除,刪除了數(shù)據(jù)集中的重復問題,以避免污染。

在代碼強化學習訓練中,DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。Together Code Interpreter 是一個快速高效的環(huán)境,與RL訓練直接兼容,成本低且可擴展性強,能夠支持100多個并發(fā)沙盒和每分鐘1000多個沙盒執(zhí)行。

本地代碼沙盒則是一個獨立的、受保護的 Python子進程,遵循官方 LiveCodeBench倉庫中的相同評估代碼,確保了結(jié)果與現(xiàn)有排行榜的一致性。

在獎勵函數(shù)設計方面,DeepCoder采用了稀疏結(jié)果獎勵模型(ORM),避免分配部分獎勵,從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。

獎勵函數(shù)簡單而明確:如果生成的代碼通過所有采樣單元測試,則獎勵為 1;否則為 0。這種設計確保了模型能夠?qū)W⒂谏筛哔|(zhì)量的代碼,而不是通過記憶測試用例來獲取獎勵。


為了實現(xiàn)更穩(wěn)定的訓練過程,DeepCoder的訓練采用了GRPO+,這是對原始GRPO算法的改進版本

通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術,GRPO+ 使得模型在訓練過程中能夠保持穩(wěn)定的熵值,避免訓練崩潰,并且能夠更自然地生成較長的輸出,從而提高了模型的推理能力。

此外,DeepCoder-14B-Preview 采用了迭代上下文擴展技術,使模型能夠從較短的上下文長度開始學習,然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K,最終在 64K上下文中評估時達到了60.6%的準確率。


為了加速端到端的RL訓練,DeepCoder 團隊引入并開源了 verl-pipeline,這是 verl 的一個優(yōu)化擴展。通過一次性流水線技術,DeepCoder 實現(xiàn)了訓練、獎勵計算和采樣的完全流水線化。

同時,獎勵計算與采樣交錯進行,減少了獎勵評估的開銷。這些優(yōu)化使得訓練時間減少了 2 倍,特別是在需要運行數(shù)千個測試用例的編碼任務中,顯著提高了訓練效率。

雖然DeepCoder剛開源但評價非常高,網(wǎng)友表示,這相當令人驚訝。它不僅是真正意義上的開源,而且他們還對廣義信賴域策略優(yōu)化算法(GRPO)進行了多項改進,并且在訓練過程中為采樣流水線增添了額外的效率提升。


太厲害了!等不及這款模型在 Ollama 平臺上體驗了。


圣誕節(jié)提前到來了。


傳奇!開源就應該這樣。


關于Together AI

Together AI成立于2022年,主打云大模型平臺支持超過200種開源AI模型,包括Llama系列、DeepSeek-R1等,并優(yōu)化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。

此外,Together AI還提供模型微調(diào)、Agent智能自動化工作流和合成數(shù)據(jù)生成等,為大企業(yè)提供底層服務。


前不久,Together AI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

本文素材來源Together AI,如有侵權(quán)請聯(lián)系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業(yè)知識交流分享,結(jié)識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《撈女游戲》刺痛了誰的神經(jīng)?游戲爆火的背后,本質(zhì)又是什么?

《撈女游戲》刺痛了誰的神經(jīng)?游戲爆火的背后,本質(zhì)又是什么?

星河四次元
2025-06-21 11:57:42
俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

俞敏洪:當孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

詩詞中國
2025-06-17 13:12:55
男演員宗峰巖兒子大婚,網(wǎng)友:52歲喜公公比新郎還帥

男演員宗峰巖兒子大婚,網(wǎng)友:52歲喜公公比新郎還帥

魯中晨報
2025-06-23 09:24:10
老年人打麻將有沒有好處?我國學者發(fā)現(xiàn)打麻將的老人抑郁率更低

老年人打麻將有沒有好處?我國學者發(fā)現(xiàn)打麻將的老人抑郁率更低

iNature前沿
2019-09-22 17:12:45
耗資5000萬上映1天就被判死刑,票房僅7.6萬,這電影就是個笑話

耗資5000萬上映1天就被判死刑,票房僅7.6萬,這電影就是個笑話

靠譜電影君
2025-06-22 23:23:24
從承諾歸還搶走的土地,到提出出海權(quán),大毛時隔100年又服軟了?

從承諾歸還搶走的土地,到提出出海權(quán),大毛時隔100年又服軟了?

花仙歷史說
2025-06-23 14:09:37
伊以大戰(zhàn)最大影響,就是美軍看清:解放軍1100架重型戰(zhàn)機惹不起

伊以大戰(zhàn)最大影響,就是美軍看清:解放軍1100架重型戰(zhàn)機惹不起

獵火照狼山
2025-06-22 20:58:01
美記曝火箭兩次競價籌碼:休媒曬哈登交易變現(xiàn)又加碼 仍手握7首輪

美記曝火箭兩次競價籌碼:休媒曬哈登交易變現(xiàn)又加碼 仍手握7首輪

顏小白的籃球夢
2025-06-23 12:39:34
上海千金一絲不掛,被埋500公里外黃豆地!頭朝下臀朝上嚇壞老漢

上海千金一絲不掛,被埋500公里外黃豆地!頭朝下臀朝上嚇壞老漢

談史論天地
2025-06-23 14:55:03
俄克拉荷馬城沒有其他體育俱樂部,這是這座城市歷史上的首個體育冠軍

俄克拉荷馬城沒有其他體育俱樂部,這是這座城市歷史上的首個體育冠軍

懂球帝
2025-06-23 11:34:26
伊第17波導彈,鐵穹攔截失敗,伊實戰(zhàn)告訴美軍:中國導彈攔不住!

伊第17波導彈,鐵穹攔截失敗,伊實戰(zhàn)告訴美軍:中國導彈攔不住!

星辰故事屋
2025-06-22 13:06:36
三亞終究踏上“不歸路”,東北人撤離成潮!背后真相是啥?

三亞終究踏上“不歸路”,東北人撤離成潮!背后真相是啥?

蕭鑟科普解說
2025-06-22 19:19:12
麥康奈爾在NBA總決賽失利后,向步行者隊發(fā)出了殘酷的現(xiàn)實檢視

麥康奈爾在NBA總決賽失利后,向步行者隊發(fā)出了殘酷的現(xiàn)實檢視

好火子
2025-06-23 12:57:10
大膽預測:今明兩年,不出意外的話,社會有可能迎來4大趨勢!

大膽預測:今明兩年,不出意外的話,社會有可能迎來4大趨勢!

山丘樓評
2025-06-22 20:13:59
慢慢變老的60后和70后,最痛苦的不是沒錢,而是家里有這兩種情況

慢慢變老的60后和70后,最痛苦的不是沒錢,而是家里有這兩種情況

朗威談星座
2025-06-21 07:46:21
華裔女子用20張圖片表達中西差異,絕了!

華裔女子用20張圖片表達中西差異,絕了!

17譚
2025-06-21 20:17:53
寧波一民辦高校回應“一年學費9.6萬元”:教師基本是院士大專家,首屆本科生學費全免

寧波一民辦高校回應“一年學費9.6萬元”:教師基本是院士大專家,首屆本科生學費全免

上游新聞
2025-06-23 15:14:21
廣州珠江新城二手房分化:100萬元小公寓3天賣出,豪宅買家被新盤吸走

廣州珠江新城二手房分化:100萬元小公寓3天賣出,豪宅買家被新盤吸走

中國房地產(chǎn)報官方號
2025-06-23 14:52:00
銀行員工不容易啊!網(wǎng)傳有人要每天加夠200個客戶,轉(zhuǎn)發(fā)200條微信

銀行員工不容易啊!網(wǎng)傳有人要每天加夠200個客戶,轉(zhuǎn)發(fā)200條微信

火山詩話
2025-06-23 14:20:46
重大變數(shù)!半導體,突發(fā)!

重大變數(shù)!半導體,突發(fā)!

證券時報
2025-06-23 13:45:12
2025-06-23 17:12:49
RPA中國 incentive-icons
RPA中國
RPA行業(yè)生態(tài)平臺
2695文章數(shù) 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態(tài)度原創(chuàng)

旅游
數(shù)碼
游戲
健康
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

洗碗機要成“剛需”了 618銷量暴增

角逐MMO巔峰?《劍靈》巔峰服上線;《冒險島》開啟首個賽季服

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鸡泽县| 怀远县| 仙居县| 全州县| 鞍山市| 南宁市| 南充市| 容城县| 仙居县| 云浮市| 永兴县| 景泰县| 仁寿县| 秀山| 金川县| 长子县| 延川县| 大名县| 仁寿县| 伊吾县| 丰原市| 板桥市| 天津市| 元阳县| 措美县| 德阳市| 盘锦市| 大丰市| 荥阳市| 滨海县| 普兰县| 安宁市| 正蓝旗| 巴林左旗| 北京市| 忻州市| 台湾省| 昆明市| 凌海市| 玉树县| 韶山市|