99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<nav id="jbsbz"><strong id="jbsbz"></strong></nav>

<nobr id="jbsbz"><code id="jbsbz"><cite id="jbsbz"></cite></code></nobr>

<table id="jbsbz"></table>

<nobr id="jbsbz"><strong id="jbsbz"><cite id="jbsbz"></cite></strong></nobr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

伯克利最強代碼Agent屠榜SWE-Bench！用Scaling RL打造，配方全公開

2025-07-07 10:44:26　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：YHluck

【新智元導讀】新晉AI編程冠軍DeepSWE來了！僅通過純強化學習拿下基準測試59%的準確率，憑啥？7大算法細節首次全公開。

AI編程領域競爭激烈，但多被閉源模型主導。

如今，一款開源軟件工程模型DeepSWE橫空出世，以59%的準確率大幅刷新了SOTA。

DeepSWE基于Qwen3-32B打造，并且只使用強了化學習進行訓練。

地址：https://github.com/agentica-project/rllm

模型：https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責人Michael Luo感嘆道，「那個過度定價、黑箱式的編碼助手時代要終結了！」

另外一個好消息是，Agentica團隊也慷慨解囊，開源了所有內容。

除了模型，還包括訓練代碼（rLLM）、數據集（R2EGym）以及實現完全可復現的訓練配方。

訓練方法

DeepSWE最大亮點是，相較于之前許多依賴「老師模型」（如 GPT-4）進行模仿學習（SFT或蒸餾）的路徑不同。

它僅用強化學習（RL）就能從零開始將一個基礎模型訓練成性能亮眼的智能體。

據官方介紹，DeepSWE是在模塊化RL后訓練框架rLLM上訓練的。

rLLM有一個好處，說白了，就是讓你自己動手攢一個用強化學習訓練出來的AI小能手，從頭到尾都不再那么費勁了，直接拿去干活兒就行。

使用R2E-Gym進行可擴展數據集管理

訓練環境方面，DeepSWE是在R2E-Gym訓練環境中（一個現有的Gym環境）訓練，用于高質量可執行SWE環境的可擴展管理。

狀態與動作

R2E-Gym定義了一組四個工具作為動作空間的一部分：

1. 執行Bash：輸出LLM生成的bash命令的stdout和stderr。

2. 搜索：搜索并返回目錄或單個文件中所有符合LLM定義的查詢的結果。

3. 文件編輯器：允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交：LLM已決定解決了該拉取請求，這將終止軌跡生成。

獎勵模型

獎勵函數采用了一種稀疏的結果獎勵模型（ORM）。

研究人員驚喜的發現，僅僅通過簡單的「成功/失敗」獎勵信號，DeepSWE自發地學會了高級程序員才具備的復雜行為，例如：

主動思考邊緣案例和回歸測試。
根據任務的復雜程度，自適應地調整「思考」的深度。

通過擴展RL訓練SWE智能體

算法方面，DeepSWE僅僅使用了強化學習來直接訓練，沒有使用蒸餾方法。

更值得關注的是，研發人員使用了獨家改良的GRPO++算法，這個算法在之前的基礎上做了增強。

為了提升模型訓練的穩定性和性能的提升，研發人員整合7個算法：

1. Clip High (DAPO)：提高GRPO/PPO替代損失的上限可以鼓勵探索并穩定熵。

2. 無KL損失（DAPO）：消除KL損失可以防止LLM受限于原始SFT模型的信任區域。

3. 無獎勵標準差（Dr.GRPO）：去除獎勵標準差可消除GRPO損失中的難度偏差，從而更好地區分難易問題。

4. 長度歸一化（Dr.GRPO）：將替代損失除以最大上下文長度，可以消除GRPO中存在的長度偏差，這種偏差會增加錯誤響應的長度。

5. 一法（Loop/RLOO）：在優勢估計中移除一個樣本，可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾：受DAPO啟發，對達到最大上下文長度、生成過程中超時（20分鐘）或達到最大步數的軌跡進行損失屏蔽。

7. 無熵損失：熵損失會引入更高的不穩定性，最終導致熵呈指數增長，從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間，則不需要熵損失。

針對其中一個算法「緊湊過濾」，研發人員強調了其對模型訓練優勢：

好處1：防止或延緩訓練過程中的獎勵崩潰（上圖）

好處2：減少了每一步的過度思考，并鼓勵跨步驟的長篇推理（下圖）

挑戰

當然，在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。

研發人員指出，你可以想象下，在最后的訓練過程中，需要同時啟動好幾百個Docker容器。

因為跑得太多、太猛，一瞬間搞出了幾千個，直接把Docker給整崩潰了。

為了解決這個問題，研發人員將Kubernetes支持集成到了R2E-Gym環境中，使編排器能夠在節點池中調度容器。

研發人員，給每個干活的服務器都配了頂配裝備：

差不多200核的CPU，還有6T多的超高速固態硬盤。

為了讓程序跑得飛快，研究員提前把所有要用的軟件（鏡像）都下載好存到本地硬盤里了。

這樣一來，每次啟動程序就跟打開桌面軟件一樣秒開，根本不用再吭哧吭哧地去網上下載了。

研究人員指出，該集群可以擴展到超過1000個CPU核心，并依賴Kubernetes集群自動縮放器來自動添加或移除節點。

當Pod在短時間內無法調度時，自動縮放器會配置額外的工作節點；相反，它會移除那些大約二十分鐘內利用率較低的節點。

這種彈性設置能夠可靠地收集數百萬條軌跡，同時保持計算成本與負載成比例。

評估策略（TTS)

除了強大的模型本身，DeepSWE還采用了「測試時擴展 (TTS)」這一評估策略。

該策略通過「多方案生成 + 智能驗證」的方式，將性能推向了新的高度。

為了提升其模型的Pass@1性能，研發人員在「測試時」想到了兩種方法：

方法一：擴展上下文長度（見上圖）：

將最大上下文從16K擴展到128K個標記，性能有所提升。在超過32K時收益約為2%，達到42.2%的Pass@1。

方法二：擴展代理部署（見下圖）：

使用最佳選擇策略為每個問題生成了多個代理部署。采用結合基于執行和免執行方法的混合驗證器，以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升，在SWE-Bench Verified上達到59%，在開放權重的SWE-Agent中實現新的SOTA。

作者簡介

Michael Luo

Michael Luo，加州大學伯克利分校電氣工程與計算機科學系博士生，研究興趣聚焦人工智能和系統領域。

碩士和本科研究主要集中在強化學習（RL）的實際問題和應用，包括自然語言處理（NLP）、數據庫查詢優化以及視頻流。

Sijun Tan

Sijun Tan，目前是加州大學伯克利分校計算機科學系在校三年級的博士生，本科畢業于弗吉尼亞大學，獲得了計算機科學和數學雙學士學位。

研究重點是LLM后訓練和代理 AI。曾在Facebook人工智能研究（FAIR）實習，并在螞蟻集團擔任過高級算法工程師。

參考資料：

https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art-Coding-Agent-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33 https://x.com/michaelzluo/status/1940504105686126748

https://x.com/hardmaru/status/1940592814884376919

https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

刷新復雜Agent推理記錄！阿里通義開源網絡智能體超越DeepSeek R1

量子位 2025-07-07 16:25:33
1 跟貼 1
Agent RL與智能體進化關鍵一步：TaskCraft實現復雜任務自動生成

機器之心Pro 2025-07-04 13:05:41
0 跟貼 0

徹底戳穿AI「失憶癥」！超越OpenAI全局記憶，中國隊開源LLM記憶操作系統

新智元 2025-07-07 13:36:37
0 跟貼 0

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
「上下文工程」硅谷爆火，Karpathy親自站臺！提示工程瞬間失寵

新智元 2025-07-06 09:15:34
14 跟貼 14

垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0

Grok4跑分：人類最后考試拿下45%，是Gemini 2.5兩倍，但網友不信

機器之心Pro 2025-07-07 15:24:41
51 跟貼 51
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

一個氣泡水廣告，為何幾十萬人圍觀？原來整個都是Veo 3生成的

機器之心Pro 2025-07-07 10:41:13
0 跟貼 0
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
全網最全「吉卜力」AI神器總結！只要2分鐘，照片秒變吉卜力

新智元 2025-04-17 06:07:25
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
空間智能率先落地國民APP：時空決策很順滑，直達千人N面出行體驗

量子位 2025-07-07 14:31:34
0 跟貼 0
流量劫匪：AI 正在切斷互聯網的生命線

愛范兒 2025-07-07 16:59:59
0 跟貼 0
WAIC特別企劃視頻欄目《AI面對面》，講出你的「熱AI」故事

機器之心Pro 2025-07-07 18:12:22
0 跟貼 0
看完 1289 個死掉的 AI 產品，我發現這些需求就不該用 AI 解決

愛范兒 2025-07-07 17:13:19
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
“進步天王”王源，唱功慘遭全網審判：伯克利“才子”被網紅碾壓

音樂Fans小瓊 2025-07-03 17:11:15
8 跟貼 8
牛彈琴：俄羅斯周邊又有新麻煩與一鄰國關系急劇惡化

大象新聞 2025-07-07 08:43:57
19659 跟貼 19659
Test Time Scaling Law遠未達到上限!華為諾亞代碼HLCE終極基準

機器之心Pro 2025-07-07 16:37:15
0 跟貼 0
沉浸式洗澡，程序不能少！

小李家的狗子 2025-07-05 16:00:29
0 跟貼 0
數名供應商為羅馬仕墊付巨款：只希望公司能正面回應

每日經濟新聞 2025-07-06 21:50:07
11625 跟貼 11625
荔枝分揀裝箱程序，為什么會要泡水，實在想不出啥原因！

憨笑大白鵝 2025-07-04 16:09:15
3 跟貼 3
中央紀委又打一“虎”

中國新聞周刊 2025-07-07 16:23:32
0 跟貼 0
常州隊得分了！ “蘇超”積分榜再刷新！

江南晚報 2025-07-06 21:51:04
1401 跟貼 1401
張雪峰質問：家長，你為何不尊重孩子選擇計算機？

悟人性 2025-07-06 06:21:38
1 跟貼 1
Karpathy最新腦洞「細菌編程」：優秀代碼應該具備細菌的三大特質

量子位 2025-07-07 12:15:49
2 跟貼 2
僅用8小時，用Vim編輯器手搓BadApple火了！

量子位 2025-01-16 21:25:43
1 跟貼 1
山東艦迎接香港市民體驗武器神射手們徒手堵住槍口

征垣之路 2025-07-07 10:01:11
9686 跟貼 9686
Claude Code發布4個月，用戶11.5萬，開發者：200 美元/月不算貴

機器之心Pro 2025-07-07 17:48:18
0 跟貼 0
機器切割一塊大木頭，設備上有程序，厚度都是絲毫不差的！

爆笑館長 2025-07-06 14:18:04
1 跟貼 1
可愛的卡車模型

制造科技 2025-07-06 11:35:39
0 跟貼 0
網友3D打印了殲-15模型來到山東艦甲板模擬了一次艦載機起飛

星辰視頻 2025-07-06 10:43:38
0 跟貼 0
Data Agent如何幫助企業打造懂你的“電子牛馬” | 數勢xSelectDB

量子位 2025-07-07 17:32:02
0 跟貼 0
大量0元兌換單的顧客擠爆門口奶茶店老板崩潰發脾氣高聲大喊

火煉樹 2025-07-06 19:01:51
2422 跟貼 2422
西安市浐灞第三小學成功舉辦第三屆信息智能創新大賽

陽光報陽光網 2025-07-06 15:12:21
0 跟貼 0
四年3億美元薪酬，人才短缺！今年學人工智能專業的孩子，贏麻了

狐貍先森講升學規劃 2025-07-05 15:54:47
0 跟貼 0
10分鐘搞定Excel世錦賽難題!首超人類Excel Agent,想給它磕一個

機器之心Pro 2025-07-04 11:18:25
1 跟貼 1

記者采集涉天水鉛中毒事件74份血檢報告：70人血鉛超標，正常的4人均未就讀褐石培心幼兒園

記者采集涉天水鉛中毒事件74份血檢報告：70人血鉛超標，正常的4人均未就讀褐石培心幼兒園

極目新聞

2025-07-07 11:51:04

青島大學回應“宿管大爺離世后裝空調”：兩者并無關聯，之前既定計劃

青島大學回應“宿管大爺離世后裝空調”：兩者并無關聯，之前既定計劃

極目新聞

2025-07-07 12:37:04

“方便面頭”該扔了！香港加速推進“去殖化”進程

“方便面頭”該扔了！香港加速推進“去殖化”進程

大道微言

2025-07-06 11:08:03

大雨、暴雨、大暴雨！本周四川含雨量仍很高

大雨、暴雨、大暴雨！本周四川含雨量仍很高

魯中晨報

2025-07-07 17:16:08

78歲汪明荃回應“羅家英四度患癌”：尊重其放棄化療的決定；羅家英此前稱最多剩9年壽命

78歲汪明荃回應“羅家英四度患癌”：尊重其放棄化療的決定；羅家英此前稱最多剩9年壽命

魯中晨報

2025-07-07 13:52:17

特朗普威脅對金磚國家加征新關稅，外交部：保護主義沒有出路

特朗普威脅對金磚國家加征新關稅，外交部：保護主義沒有出路

澎湃新聞

2025-07-07 15:26:32

邛崍市政協原黨組副書記、副主席楊彬被“雙開”

邛崍市政協原黨組副書記、副主席楊彬被“雙開”

魯中晨報

2025-07-07 17:24:08

杭州南站候車室有人墜樓，官方：第一時間已送醫，候車秩序已恢復

杭州南站候車室有人墜樓，官方：第一時間已送醫，候車秩序已恢復

極目新聞

2025-07-07 18:02:40

官方辟謠“山東泰安一天熱死6人”：新泰市三院不存在類似收診情況

官方辟謠“山東泰安一天熱死6人”：新泰市三院不存在類似收診情況

極目新聞

2025-07-07 17:09:16

西安市中心醫院已全部發放天水血鉛異常幼兒血檢結果，住院幼兒正接受輸液治療

西安市中心醫院已全部發放天水血鉛異常幼兒血檢結果，住院幼兒正接受輸液治療

極目新聞

2025-07-07 14:39:52

一個周末11架飛機違法飛越特朗普度假地上空，美軍動用F-16戰斗機攔截

一個周末11架飛機違法飛越特朗普度假地上空，美軍動用F-16戰斗機攔截

紅星新聞

2025-07-07 16:26:27

美印談崩了，印度打響反美第一槍，通告全球，斷的就是特朗普退路

美印談崩了，印度打響反美第一槍，通告全球，斷的就是特朗普退路

博覽歷史

2025-07-07 12:08:14

江蘇3對母女川西墜河：聊天記錄曝光，一語成讖，目擊者透露更多

江蘇3對母女川西墜河：聊天記錄曝光，一語成讖，目擊者透露更多

領悟看世界

2025-07-07 14:06:27

年報難產，停牌兩個月，A股百億市值公司被*ST！后天復牌，公司估值已被下調超90%

年報難產，停牌兩個月，A股百億市值公司被*ST！后天復牌，公司估值已被下調超90%

每日經濟新聞

2025-07-06 16:55:23

“誰家小孩？！”幼童躺地遭貨車碾壓身亡，司機絕望呼喊，誰之過？

“誰家小孩？！”幼童躺地遭貨車碾壓身亡，司機絕望呼喊，誰之過？

新民周刊

2025-07-07 15:57:58

拉動GDP全靠大學生消費！不管考多少分都有大學上，學費交了就行

拉動GDP全靠大學生消費！不管考多少分都有大學上，學費交了就行

狐貍先森講升學規劃

2025-07-06 10:49:57

學生拒報清北，老師大怒解散群聊，家長：滿眼都是利益的小人

學生拒報清北，老師大怒解散群聊，家長：滿眼都是利益的小人

熙熙說教

2025-07-06 18:26:25

7月7日等官宣！養老金漲幅真要跌破3%？最新分析來了

7月7日等官宣！養老金漲幅真要跌破3%？最新分析來了

逍遙史記

2025-07-07 15:45:48

88分鐘絕殺！中國男足2-1掀翻亞洲冠軍球迷沸騰下輪贏韓國奪冠

88分鐘絕殺！中國男足2-1掀翻亞洲冠軍球迷沸騰下輪贏韓國奪冠

侃球熊弟

2025-07-06 20:35:14

宿管大爺值班室疑中暑離世，有學生熱得受不了網購冰塊；青島大學：暑假將裝7000多臺空調

宿管大爺值班室疑中暑離世，有學生熱得受不了網購冰塊；青島大學：暑假將裝7000多臺空調

大風新聞

2025-07-07 16:28:22

AI產業主平臺領航智能+時代

13008文章數 66081關注度

往期回顧全部

科技要聞

投資大佬一語扎心：中國機器人"可悲"現狀

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

體育要聞

不會再有第二個，快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復演唱會公開表白

財經要聞

外賣大戰補貼升級：能持續多久？

汽車要聞

預售10.58萬起/6秒級加速零跑B01將于7月下旬上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

房產

數碼

旅游

教育

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”？

房產要聞

容積率1.0，這可能是海口近三年最猛的一塊地！

數碼要聞

性價比水桶本新標桿！微星神影16銳龍版2025筆記本圖賞

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

教育要聞

孩子為什么不心疼你？從你替他做這3件事開始，就種下了惡果

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：灵璧县| 洪雅县| 资溪县| 句容市| 岳池县| 沙坪坝区| 离岛区| 潼南县| 都江堰市| 波密县| 本溪| 河东区| 个旧市| 盐山县| 五寨县| 馆陶县| 黔西| 搜索| 合作市| 黄陵县| 边坝县| 托克托县| 黎城县| 高清| 克拉玛依市| 东至县| 土默特左旗| 九龙城区| 阳朔县| 大埔县| 济宁市| 锡林郭勒盟| 岑溪市| 嘉善县| 新绛县| 吴旗县| 安溪县| 晴隆县| 宜黄县| 延川县| 彰武县|

<center id="wukng"></center>

<sub id="wukng"><s id="wukng"></s></sub>