99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

伯克利最強代碼Agent屠榜SWE-Bench!用Scaling RL打造,配方全公開

0
分享至


新智元報道

編輯:YHluck

【新智元導讀】新晉AI編程冠軍DeepSWE來了!僅通過純強化學習拿下基準測試59%的準確率,憑啥?7大算法細節首次全公開。

AI編程領域競爭激烈,但多被閉源模型主導。

如今,一款開源軟件工程模型DeepSWE橫空出世,以59%的準確率大幅刷新了SOTA。

DeepSWE基于Qwen3-32B打造,并且只使用強了化學習進行訓練。


地址:https://github.com/agentica-project/rllm

模型:https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責人Michael Luo感嘆道,「那個過度定價、黑箱式的編碼助手時代要終結了!」


另外一個好消息是,Agentica團隊也慷慨解囊,開源了所有內容。

除了模型,還包括訓練代碼(rLLM)、數據集(R2EGym)以及實現完全可復現的訓練配方。

訓練方法

DeepSWE最大亮點是,相較于之前許多依賴「老師模型」(如 GPT-4)進行模仿學習(SFT或蒸餾)的路徑不同。

它僅用強化學習(RL)就能從零開始將一個基礎模型訓練成性能亮眼的智能體。

據官方介紹,DeepSWE是在模塊化RL后訓練框架rLLM上訓練的。

rLLM有一個好處,說白了,就是讓你自己動手攢一個用強化學習訓練出來的AI小能手,從頭到尾都不再那么費勁了,直接拿去干活兒就行。

使用R2E-Gym進行可擴展數據集管理

訓練環境方面,DeepSWE是在R2E-Gym訓練環境中(一個現有的Gym環境)訓練,用于高質量可執行SWE環境的可擴展管理。

狀態與動作

R2E-Gym定義了一組四個工具作為動作空間的一部分:

1. 執行Bash:輸出LLM生成的bash命令的stdout和stderr。

2. 搜索:搜索并返回目錄或單個文件中所有符合LLM定義的查詢的結果。

3. 文件編輯器:允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交:LLM已決定解決了該拉取請求,這將終止軌跡生成。

獎勵模型

獎勵函數采用了一種稀疏的結果獎勵模型(ORM)。

研究人員驚喜的發現,僅僅通過簡單的「成功/失敗」獎勵信號,DeepSWE自發地學會高級程序員才具備的復雜行為,例如:


  • 主動思考邊緣案例和回歸測試。

  • 根據任務的復雜程度,自適應地調整「思考」的深度


通過擴展RL訓練SWE智能體

算法方面,DeepSWE僅僅使用了強化學習來直接訓練,沒有使用蒸餾方法。

更值得關注的是,研發人員使用了獨家改良的GRPO++算法,這個算法在之前的基礎上做了增強。

為了提升模型訓練的穩定性和性能的提升,研發人員整合7個算法:

1. Clip High (DAPO):提高GRPO/PPO替代損失的上限可以鼓勵探索并穩定熵。

2. 無KL損失(DAPO):消除KL損失可以防止LLM受限于原始SFT模型的信任區域。

3. 無獎勵標準差(Dr.GRPO):去除獎勵標準差可消除GRPO損失中的難度偏差,從而更好地區分難易問題。

4. 長度歸一化(Dr.GRPO):將替代損失除以最大上下文長度,可以消除GRPO中存在的長度偏差,這種偏差會增加錯誤響應的長度。

5. 一法(Loop/RLOO):在優勢估計中移除一個樣本,可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾:受DAPO啟發,對達到最大上下文長度、生成過程中超時(20分鐘)或達到最大步數的軌跡進行損失屏蔽。

7. 無熵損失:熵損失會引入更高的不穩定性,最終導致熵呈指數增長,從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間,則不需要熵損失。

針對其中一個算法「緊湊過濾」,研發人員強調了其對模型訓練優勢:

好處1:防止或延緩訓練過程中的獎勵崩潰(上圖)

好處2:減少了每一步的過度思考,并鼓勵跨步驟的長篇推理(下圖)



挑戰

當然,在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。

研發人員指出,你可以想象下,在最后的訓練過程中,需要同時啟動好幾百個Docker容器。

因為跑得太多、太猛,一瞬間搞出了幾千個,直接把Docker給整崩潰了。

為了解決這個問題,研發人員將Kubernetes支持集成到了R2E-Gym環境中,使編排器能夠在節點池中調度容器。

研發人員,給每個干活的服務器都配了頂配裝備

差不多200核的CPU,還有6T多的超高速固態硬盤。

為了讓程序跑得飛快,研究員提前把所有要用的軟件(鏡像)都下載好存到本地硬盤里了。

這樣一來,每次啟動程序就跟打開桌面軟件一樣秒開,根本不用再吭哧吭哧地去網上下載了。

研究人員指出,該集群可以擴展到超過1000個CPU核心,并依賴Kubernetes集群自動縮放器來自動添加或移除節點。

當Pod在短時間內無法調度時,自動縮放器會配置額外的工作節點;相反,它會移除那些大約二十分鐘內利用率較低的節點。

這種彈性設置能夠可靠地收集數百萬條軌跡,同時保持計算成本與負載成比例。

評估策略(TTS)

除了強大的模型本身,DeepSWE還采用了「測試時擴展 (TTS)」這一評估策略。

該策略通過「多方案生成 + 智能驗證」的方式,將性能推向了新的高度。

為了提升其模型的Pass@1性能,研發人員在「測試時」想到了兩種方法:

方法一:擴展上下文長度(見上圖):

將最大上下文從16K擴展到128K個標記,性能有所提升。在超過32K時收益約為2%,達到42.2%的Pass@1。

方法二:擴展代理部署(見下圖):

使用最佳選擇策略為每個問題生成了多個代理部署。采用結合基于執行和免執行方法的混合驗證器,以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升,在SWE-Bench Verified上達到59%,在開放權重的SWE-Agent中實現新的SOTA。



作者簡介

Michael Luo


Michael Luo,加州大學伯克利分校電氣工程與計算機科學系博士生,研究興趣聚焦人工智能和系統領域。

碩士和本科研究主要集中在強化學習(RL)的實際問題和應用,包括自然語言處理(NLP)、數據庫查詢優化以及視頻流。

Sijun Tan


Sijun Tan,目前是加州大學伯克利分校計算機科學系在校三年級的博士生,本科畢業于弗吉尼亞大學,獲得了計算機科學和數學雙學士學位。

研究重點是LLM后訓練和代理 AI。曾在Facebook人工智能研究(FAIR)實習,并在螞蟻集團擔任過高級算法工程師。

參考資料:

https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art-Coding-Agent-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33 https://x.com/michaelzluo/status/1940504105686126748

https://x.com/hardmaru/status/1940592814884376919

https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
記者采集涉天水鉛中毒事件74份血檢報告:70人血鉛超標,正常的4人均未就讀褐石培心幼兒園

記者采集涉天水鉛中毒事件74份血檢報告:70人血鉛超標,正常的4人均未就讀褐石培心幼兒園

極目新聞
2025-07-07 11:51:04
青島大學回應“宿管大爺離世后裝空調”:兩者并無關聯,之前既定計劃

青島大學回應“宿管大爺離世后裝空調”:兩者并無關聯,之前既定計劃

極目新聞
2025-07-07 12:37:04
“方便面頭”該扔了!香港加速推進“去殖化”進程

“方便面頭”該扔了!香港加速推進“去殖化”進程

大道微言
2025-07-06 11:08:03
大雨、暴雨、大暴雨!本周四川含雨量仍很高

大雨、暴雨、大暴雨!本周四川含雨量仍很高

魯中晨報
2025-07-07 17:16:08
78歲汪明荃回應“羅家英四度患癌”:尊重其放棄化療的決定;羅家英此前稱最多剩9年壽命

78歲汪明荃回應“羅家英四度患癌”:尊重其放棄化療的決定;羅家英此前稱最多剩9年壽命

魯中晨報
2025-07-07 13:52:17
特朗普威脅對金磚國家加征新關稅,外交部:保護主義沒有出路

特朗普威脅對金磚國家加征新關稅,外交部:保護主義沒有出路

澎湃新聞
2025-07-07 15:26:32
邛崍市政協原黨組副書記、副主席楊彬被“雙開”

邛崍市政協原黨組副書記、副主席楊彬被“雙開”

魯中晨報
2025-07-07 17:24:08
杭州南站候車室有人墜樓,官方:第一時間已送醫,候車秩序已恢復

杭州南站候車室有人墜樓,官方:第一時間已送醫,候車秩序已恢復

極目新聞
2025-07-07 18:02:40
官方辟謠“山東泰安一天熱死6人”:新泰市三院不存在類似收診情況

官方辟謠“山東泰安一天熱死6人”:新泰市三院不存在類似收診情況

極目新聞
2025-07-07 17:09:16
西安市中心醫院已全部發放天水血鉛異常幼兒血檢結果,住院幼兒正接受輸液治療

西安市中心醫院已全部發放天水血鉛異常幼兒血檢結果,住院幼兒正接受輸液治療

極目新聞
2025-07-07 14:39:52
一個周末11架飛機違法飛越特朗普度假地上空,美軍動用F-16戰斗機攔截

一個周末11架飛機違法飛越特朗普度假地上空,美軍動用F-16戰斗機攔截

紅星新聞
2025-07-07 16:26:27
美印談崩了,印度打響反美第一槍,通告全球,斷的就是特朗普退路

美印談崩了,印度打響反美第一槍,通告全球,斷的就是特朗普退路

博覽歷史
2025-07-07 12:08:14
江蘇3對母女川西墜河:聊天記錄曝光,一語成讖,目擊者透露更多

江蘇3對母女川西墜河:聊天記錄曝光,一語成讖,目擊者透露更多

領悟看世界
2025-07-07 14:06:27
年報難產,停牌兩個月,A股百億市值公司被*ST!后天復牌,公司估值已被下調超90%

年報難產,停牌兩個月,A股百億市值公司被*ST!后天復牌,公司估值已被下調超90%

每日經濟新聞
2025-07-06 16:55:23
“誰家小孩?!”幼童躺地遭貨車碾壓身亡,司機絕望呼喊,誰之過?

“誰家小孩?!”幼童躺地遭貨車碾壓身亡,司機絕望呼喊,誰之過?

新民周刊
2025-07-07 15:57:58
拉動GDP全靠大學生消費!不管考多少分都有大學上,學費交了就行

拉動GDP全靠大學生消費!不管考多少分都有大學上,學費交了就行

狐貍先森講升學規劃
2025-07-06 10:49:57
學生拒報清北,老師大怒解散群聊,家長:滿眼都是利益的小人

學生拒報清北,老師大怒解散群聊,家長:滿眼都是利益的小人

熙熙說教
2025-07-06 18:26:25
7月7日等官宣!養老金漲幅真要跌破3%?最新分析來了

7月7日等官宣!養老金漲幅真要跌破3%?最新分析來了

逍遙史記
2025-07-07 15:45:48
88分鐘絕殺!中國男足2-1掀翻亞洲冠軍 球迷沸騰 下輪贏韓國奪冠

88分鐘絕殺!中國男足2-1掀翻亞洲冠軍 球迷沸騰 下輪贏韓國奪冠

侃球熊弟
2025-07-06 20:35:14
宿管大爺值班室疑中暑離世,有學生熱得受不了網購冰塊;青島大學:暑假將裝7000多臺空調

宿管大爺值班室疑中暑離世,有學生熱得受不了網購冰塊;青島大學:暑假將裝7000多臺空調

大風新聞
2025-07-07 16:28:22
2025-07-07 18:36:50
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13008文章數 66081關注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機器人"可悲"現狀

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

體育要聞

不會再有第二個,快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復 演唱會公開表白

財經要聞

外賣大戰補貼升級:能持續多久?

汽車要聞

預售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態度原創

本地
房產
數碼
旅游
教育

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

房產要聞

容積率1.0,這可能是海口近三年最猛的一塊地!

數碼要聞

性價比水桶本新標桿!微星神影16銳龍版2025筆記本圖賞

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

孩子為什么不心疼你?從你替他做這3件事開始,就種下了惡果

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 灵璧县| 洪雅县| 资溪县| 句容市| 岳池县| 沙坪坝区| 离岛区| 潼南县| 都江堰市| 波密县| 本溪| 河东区| 个旧市| 盐山县| 五寨县| 馆陶县| 黔西| 搜索| 合作市| 黄陵县| 边坝县| 托克托县| 黎城县| 高清| 克拉玛依市| 东至县| 土默特左旗| 九龙城区| 阳朔县| 大埔县| 济宁市| 锡林郭勒盟| 岑溪市| 嘉善县| 新绛县| 吴旗县| 安溪县| 晴隆县| 宜黄县| 延川县| 彰武县|