今天凌晨4點,著名大模型訓練平臺Together AI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。
該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的評測數(shù)據(jù)同樣非常出色,幾乎與o1、o3-mini差不多。
值得一提的是,Together AI不僅開源了DeepCoder-14B模型權(quán)重,還把訓練數(shù)據(jù)集、訓練方法、訓練日志和優(yōu)化方法全部公開,幫助開發(fā)者更深度的了解這個模型所有開發(fā)流程。
開源地址:https://huggingface.co/agentica-org/DeepCoder-14B-Preview
github:https://github.com/agentica-project/rllm
DeepCoder是在Deepseek-R1-Distilled-Qwen-14B基礎之上,通過分布式強化學習(RL)進行了微調(diào)。
在開發(fā)過程中,研究人員首先構(gòu)建了一個高質(zhì)量訓練數(shù)據(jù)集,包含24K個可驗證的編程問題:涵蓋TACOVerified 問題、PrimeIntellect 的 SYNTHETIC-1 數(shù)據(jù)集中的驗證問題等。
為了確保數(shù)據(jù)質(zhì)量,通過程序驗證、測試過濾和去重等步驟。程序化驗證,每個問題都會使用外部官方解決方案自動進行驗證。會過濾數(shù)據(jù)集,只包含官方解決方案通過所有單元測試的問題。
測試過濾,每個問題必須至少包含5個單元測試。重復數(shù)據(jù)刪除,刪除了數(shù)據(jù)集中的重復問題,以避免污染。
在代碼強化學習訓練中,DeepCoder 使用了兩種沙盒來運行單元測試并計算獎勵。Together Code Interpreter 是一個快速高效的環(huán)境,與RL訓練直接兼容,成本低且可擴展性強,能夠支持100多個并發(fā)沙盒和每分鐘1000多個沙盒執(zhí)行。
本地代碼沙盒則是一個獨立的、受保護的 Python子進程,遵循官方 LiveCodeBench倉庫中的相同評估代碼,確保了結(jié)果與現(xiàn)有排行榜的一致性。
在獎勵函數(shù)設計方面,DeepCoder采用了稀疏結(jié)果獎勵模型(ORM),避免分配部分獎勵,從而防止模型通過獎勵黑客行為來獲取不準確的獎勵信號。
獎勵函數(shù)簡單而明確:如果生成的代碼通過所有采樣單元測試,則獎勵為 1;否則為 0。這種設計確保了模型能夠?qū)W⒂谏筛哔|(zhì)量的代碼,而不是通過記憶測試用例來獲取獎勵。
為了實現(xiàn)更穩(wěn)定的訓練過程,DeepCoder的訓練采用了GRPO+,這是對原始GRPO算法的改進版本。
通過消除熵損失和 KL 損失、引入過長過濾和上限裁剪等技術,GRPO+ 使得模型在訓練過程中能夠保持穩(wěn)定的熵值,避免訓練崩潰,并且能夠更自然地生成較長的輸出,從而提高了模型的推理能力。
此外,DeepCoder-14B-Preview 采用了迭代上下文擴展技術,使模型能夠從較短的上下文長度開始學習,然后逐步泛化到更長的上下文。該模型的上下文窗口從 16K 擴展到 32K,最終在 64K上下文中評估時達到了60.6%的準確率。
為了加速端到端的RL訓練,DeepCoder 團隊引入并開源了 verl-pipeline,這是 verl 的一個優(yōu)化擴展。通過一次性流水線技術,DeepCoder 實現(xiàn)了訓練、獎勵計算和采樣的完全流水線化。
同時,獎勵計算與采樣交錯進行,減少了獎勵評估的開銷。這些優(yōu)化使得訓練時間減少了 2 倍,特別是在需要運行數(shù)千個測試用例的編碼任務中,顯著提高了訓練效率。
雖然DeepCoder剛開源但評價非常高,網(wǎng)友表示,這相當令人驚訝。它不僅是真正意義上的開源,而且他們還對廣義信賴域策略優(yōu)化算法(GRPO)進行了多項改進,并且在訓練過程中為采樣流水線增添了額外的效率提升。
太厲害了!等不及這款模型在 Ollama 平臺上體驗了。
圣誕節(jié)提前到來了。
傳奇!開源就應該這樣。
關于Together AI
Together AI成立于2022年,主打云大模型平臺支持超過200種開源AI模型,包括Llama系列、DeepSeek-R1等,并優(yōu)化了高速推理和模型訓練的基礎設施。目前擁有超過3.6萬塊GB200 NVL72組成的超大GPU算力群。
此外,Together AI還提供模型微調(diào)、Agent智能自動化工作流和合成數(shù)據(jù)生成等,為大企業(yè)提供底層服務。
前不久,Together AI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。
本文素材來源Together AI,如有侵權(quán)請聯(lián)系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業(yè)知識交流分享,結(jié)識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.