新智元報道
編輯:YHluck
【新智元導讀】新晉AI編程冠軍DeepSWE來了!僅通過純強化學習拿下基準測試59%的準確率,憑啥?7大算法細節首次全公開。
AI編程領域競爭激烈,但多被閉源模型主導。
如今,一款開源軟件工程模型DeepSWE橫空出世,以59%的準確率大幅刷新了SOTA。
DeepSWE基于Qwen3-32B打造,并且只使用強了化學習進行訓練。
地址:https://github.com/agentica-project/rllm
模型:https://huggingface.co/agentica-org/DeepSWE-Preview
Agentica的項目負責人Michael Luo感嘆道,「那個過度定價、黑箱式的編碼助手時代要終結了!」
另外一個好消息是,Agentica團隊也慷慨解囊,開源了所有內容。
除了模型,還包括訓練代碼(rLLM)、數據集(R2EGym)以及實現完全可復現的訓練配方。
訓練方法
DeepSWE最大亮點是,相較于之前許多依賴「老師模型」(如 GPT-4)進行模仿學習(SFT或蒸餾)的路徑不同。
它僅用強化學習(RL)就能從零開始將一個基礎模型訓練成性能亮眼的智能體。
據官方介紹,DeepSWE是在模塊化RL后訓練框架rLLM上訓練的。
rLLM有一個好處,說白了,就是讓你自己動手攢一個用強化學習訓練出來的AI小能手,從頭到尾都不再那么費勁了,直接拿去干活兒就行。
使用R2E-Gym進行可擴展數據集管理
訓練環境方面,DeepSWE是在R2E-Gym訓練環境中(一個現有的Gym環境)訓練,用于高質量可執行SWE環境的可擴展管理。
狀態與動作
R2E-Gym定義了一組四個工具作為動作空間的一部分:
1. 執行Bash:輸出LLM生成的bash命令的stdout和stderr。
2. 搜索:搜索并返回目錄或單個文件中所有符合LLM定義的查詢的結果。
3. 文件編輯器:允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。
4. 完成/提交:LLM已決定解決了該拉取請求,這將終止軌跡生成。
獎勵模型
獎勵函數采用了一種稀疏的結果獎勵模型(ORM)。
研究人員驚喜的發現,僅僅通過簡單的「成功/失敗」獎勵信號,DeepSWE自發地學會了高級程序員才具備的復雜行為,例如:
主動思考邊緣案例和回歸測試。
根據任務的復雜程度,自適應地調整「思考」的深度。
通過擴展RL訓練SWE智能體
算法方面,DeepSWE僅僅使用了強化學習來直接訓練,沒有使用蒸餾方法。
更值得關注的是,研發人員使用了獨家改良的GRPO++算法,這個算法在之前的基礎上做了增強。
為了提升模型訓練的穩定性和性能的提升,研發人員整合7個算法:
1. Clip High (DAPO):提高GRPO/PPO替代損失的上限可以鼓勵探索并穩定熵。
2. 無KL損失(DAPO):消除KL損失可以防止LLM受限于原始SFT模型的信任區域。
3. 無獎勵標準差(Dr.GRPO):去除獎勵標準差可消除GRPO損失中的難度偏差,從而更好地區分難易問題。
4. 長度歸一化(Dr.GRPO):將替代損失除以最大上下文長度,可以消除GRPO中存在的長度偏差,這種偏差會增加錯誤響應的長度。
5. 一法(Loop/RLOO):在優勢估計中移除一個樣本,可以在不引入偏差的情況下降低策略梯度的方差。
6. 緊湊過濾:受DAPO啟發,對達到最大上下文長度、生成過程中超時(20分鐘)或達到最大步數的軌跡進行損失屏蔽。
7. 無熵損失:熵損失會引入更高的不穩定性,最終導致熵呈指數增長,從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間,則不需要熵損失。
針對其中一個算法「緊湊過濾」,研發人員強調了其對模型訓練優勢:
好處1:防止或延緩訓練過程中的獎勵崩潰(上圖)
好處2:減少了每一步的過度思考,并鼓勵跨步驟的長篇推理(下圖)
挑戰
當然,在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。
研發人員指出,你可以想象下,在最后的訓練過程中,需要同時啟動好幾百個Docker容器。
因為跑得太多、太猛,一瞬間搞出了幾千個,直接把Docker給整崩潰了。
為了解決這個問題,研發人員將Kubernetes支持集成到了R2E-Gym環境中,使編排器能夠在節點池中調度容器。
研發人員,給每個干活的服務器都配了頂配裝備:
差不多200核的CPU,還有6T多的超高速固態硬盤。
為了讓程序跑得飛快,研究員提前把所有要用的軟件(鏡像)都下載好存到本地硬盤里了。
這樣一來,每次啟動程序就跟打開桌面軟件一樣秒開,根本不用再吭哧吭哧地去網上下載了。
研究人員指出,該集群可以擴展到超過1000個CPU核心,并依賴Kubernetes集群自動縮放器來自動添加或移除節點。
當Pod在短時間內無法調度時,自動縮放器會配置額外的工作節點;相反,它會移除那些大約二十分鐘內利用率較低的節點。
這種彈性設置能夠可靠地收集數百萬條軌跡,同時保持計算成本與負載成比例。
評估策略(TTS)
除了強大的模型本身,DeepSWE還采用了「測試時擴展 (TTS)」這一評估策略。
該策略通過「多方案生成 + 智能驗證」的方式,將性能推向了新的高度。
為了提升其模型的Pass@1性能,研發人員在「測試時」想到了兩種方法:
方法一:擴展上下文長度(見上圖):
將最大上下文從16K擴展到128K個標記,性能有所提升。在超過32K時收益約為2%,達到42.2%的Pass@1。
方法二:擴展代理部署(見下圖):
使用最佳選擇策略為每個問題生成了多個代理部署。采用結合基于執行和免執行方法的混合驗證器,以選擇最佳的代理軌跡。
兩種方法確實帶來了性能的提升,在SWE-Bench Verified上達到59%,在開放權重的SWE-Agent中實現新的SOTA。
作者簡介
Michael Luo
Michael Luo,加州大學伯克利分校電氣工程與計算機科學系博士生,研究興趣聚焦人工智能和系統領域。
碩士和本科研究主要集中在強化學習(RL)的實際問題和應用,包括自然語言處理(NLP)、數據庫查詢優化以及視頻流。
Sijun Tan
Sijun Tan,目前是加州大學伯克利分校計算機科學系在校三年級的博士生,本科畢業于弗吉尼亞大學,獲得了計算機科學和數學雙學士學位。
研究重點是LLM后訓練和代理 AI。曾在Facebook人工智能研究(FAIR)實習,并在螞蟻集團擔任過高級算法工程師。
參考資料:
https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art-Coding-Agent-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33 https://x.com/michaelzluo/status/1940504105686126748
https://x.com/hardmaru/status/1940592814884376919
https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.