99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

僅32B,昆侖萬維開源「Skywork-SWE-32B」,拿下代碼開源SOTA

0
分享至

6月20日,昆侖萬維發布軟件工程(Software Engineering, SWE)自主代碼智能體基座模型Skywork-SWE,在開源32B模型規模下實現了業界最強的倉庫級代碼修復能力。昆侖萬維團隊通過構建超過1萬個可驗證的GitHub倉庫任務實例,打造出目前最大規模的可驗證GitHub倉庫級代碼修復的數據集,并系統性驗證了大模型在軟件工程任務上的數據縮放定律(Scaling Law)。

Skywork-SWE-32B模型在SWE-bench Verified基準上取得38.0% pass@1準確率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最佳成績。進一步引入測試時擴展技術后,模型表現提升至47.0%的準確率,不僅超越了現有參數規模在32B以下的開源模型,也顯著縮小了與閉源模型之間的性能差距。



Skywork-SWE-32B直通車:

  1. 技術報告:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
  2. 博客地址:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
  3. HuggingFace地址:https://huggingface.co/Skywork/Skywork-SWE-32B

2025年被廣泛認為是智能體(Agent)模型的元年,其核心特征包括“超多輪交互”和“超長上下文處理”。在眾多應用方向中,軟件工程SWE任務正成為大語言模型智能體的關鍵應用場景之一。

相比傳統的代碼生成任務(如代碼編程題解答),SWE任務更加貼近真實的軟件開發流程,涵蓋了從定位BUG、修改源代碼,到驗證修復效果的完整閉環。這類任務通常源自GitHub倉庫中的實際代碼工程問題,具備高度的真實性、復雜性和挑戰性,是評估智能體模型能力的一個重要基準。

SWE任務的獨特之處在于,它對模型提出了更高要求:不僅需要支持多輪交互和長上下文推理,還需具備處理跨文件依賴、調用工具鏈,以及在復雜環境中持續修復代碼問題的能力。這些能力全面考驗了智能體模型的工程實踐水平與系統性思維能力。

01三階段自動化流程,構建大規模、高質量SWE任務訓練數據集

盡管當前市面上已有不少工作聚焦于SWE任務并收集了相關的數據集,但當前的主流(訓練)數據集仍存在三大核心問題:

  1. 缺乏可執行環境與驗證機制:已有開源數據(如SWE-bench-extra、SWE-Fixer)通常缺乏環境或單元測試來驗證數據正確性,導致生成的修復難以驗證。
  2. 高質量訓練數據稀缺:盡管某些數據集規模較大(如 SWE-Dev、SWE-Gym),但缺乏經過嚴格驗證的訓練樣本,公開可用的高質量數據極為有限,導致開源模型在 SWE 任務上長期落后于閉源模型。
  3. 數據規模法則適用性不明確:相較于自然語言領域中的任務,SWE任務現有的公開訓練數據體量較小,尚無法有效驗證數據擴展是否能帶來模型能力的持續增長。

為打破上述瓶頸,并且打造出具備工程實用性的SWE代碼智能體模型,昆侖萬維團隊首先在訓練階段自行構建了一套自動化、結構化、可復現的SWE數據收集與驗證流程,共分為三個階段、九個步驟(如下圖所示)。最終團隊構建出超1萬條高質量任務實例、8千條多輪交互的軌跡,為模型訓練提供堅實基礎。



圖丨Skywork-SWE完整數據收集與驗證流程

Skywork-SWE作為萬級高質量可驗證數據集,驅動智能體模型能力躍遷

在上述三個階段過程中,團隊實施了嚴格的數據篩選與構建流程。如下圖所示,團隊從最初超過15萬條候選代碼倉庫元數據中,最終篩選出約1萬條高質量實例,構建出當前規模最大、質量最高的可驗證SWE任務(訓練)數據集——Skywork-SWE。



圖丨數據構建過程中各個階段數據樣本量變化示意

Skywork-SWE數據集在任務數量與代碼覆蓋廣度方面,遠超現有同類數據集(如SWE-Gym Lite與SWE-bench Verified),為大模型提供了豐富、多樣且貼近實際的軟件工程任務樣本,持續推動智能體模型的能力進化。此外,Skywork-SWE數據集不僅涵蓋如Pydantic、SQLGlot、DVC等主流開源項目,還包含大量中小型倉庫,呈現出高度貼近真實開發生態的任務分布特征。這種貼近真實開發生態的數據構成,有助于提升模型在復雜多樣場景下的問題解決能力。



圖丨Skywork-SWE數據集的GitHub倉庫詞云

02 Skywork-SWE登頂32B開源SOTA

“Less artifact, more intelligence”(更少的人工約束,更多智能發揮) 是團隊開發軟件工程自主代碼智能體模型的核心理念。我們主張賦予AI更大自主權,由其決定工具使用與任務執行方式,而非人為預先設定規則流程?;谶@一理念,最終選用目前最具自主性的開源OpenHands框架。

基于Skywork-SWE數據集的高質量智能體軌跡,昆侖萬維團隊微調得到Skywork-SWE-32B模型,該模型在SWE-bench Verified測評中取得優異成績。截至目前,Skywork-SWE-32B在SWE-Bench榜單中成為當前性能最強的32B開源代碼智能體大模型,刷新SWE-bench Verified基準上同等規模模型的最佳成績,充分展示了其工程實用價值:

1.Skywork-SWE-32B測評結果超越相同參數規模的模型。Skywork-SWE-32B基于開源OpenHands代碼Agent框架,實現了38.0% pass@1的準確率,達到了Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最優水平。更為關鍵的是,實驗結果進一步表明:隨著訓練數據規模的持續擴展,模型性能持續提升,充分驗證了“數據規模擴展帶來的性能增益”在軟件工程任務中的有效性與適用性。



2.應用測試時擴展技術之后,Skywork-SWE-32B取得了最優性能。在引入測試時擴展技術(Test-Time Scaling,TTS)后,Skywork-SWE-32B (+ TTS) 的pass@1準確率進一步提升至47.0%,刷新了32B參數規模以下開源模型的SOTA。更值得關注的是,Skywork-SWE-32B在與參數量高達671B的DeepSeek-V3-0324模型對比中仍展現出明顯優勢,領先8.2個百分點。



3.Skywork-SWE-32B (+ TTS) 的表現接近甚至超越多數主流閉源大模型。Skywork-SWE-32B (+ TTS) 的pass@1準確率顯著超越了GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且領先于Claude v3.5(46.0%)。



03持續探索更多Agent任務場景

過去半年多時間,昆侖萬維在獎勵模型、多模態、推理、視頻生成等方向開源了一系列SOTA級別模型,如今又在Agent(SWE任務)方向再下一城。繼5月天工超級智能體(Skywork Super Agents)面向全球發布后,今天我們又發布并開源了自主代碼智能體模型Skywork-SWE-32B模型,這不僅是公司堅定開源策略的重要實踐,更代表了我們對Agent在辦公任務、SWE任務場景中的重要探索。

通過Skywork-SWE數據集的構建,以及自主代碼智能體模型Skywork-SWE-32B模型的發布,團隊研究表明高質量且可執行驗證的數據是提升代碼智能體模型性能的關鍵瓶頸,系統化的數據擴展策略將在推動開源模型性能突破中發揮關鍵作用。基于此,我們期望Skywork-SWE-32B的開源,能夠助力社區在大語言模型驅動的軟件工程研究中持續演進。

未來,Skywork-SWE-32B模型將進一步拓展多編程語言支持以覆蓋更廣泛的開發場景,并探索融合運行時測試反饋的強化學習機制,為構建真正具備智能軟件開發能力的大語言模型奠定堅實基礎。同時,昆侖萬維也將積極探索更多Agent任務場景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
妮可拉未著寸縷惹爭議,大布親自拍照力挺:我老婆最美!

妮可拉未著寸縷惹爭議,大布親自拍照力挺:我老婆最美!

橙星文娛
2025-07-24 15:07:56
2戰飆中6記3分!浙江男籃26歲國手已在同位置脫穎而出

2戰飆中6記3分!浙江男籃26歲國手已在同位置脫穎而出

狼叔評論
2025-07-26 00:57:24
WWE傳奇巨星胡克霍根猝逝,心臟驟停搶救畫面曝光,史泰龍悼念

WWE傳奇巨星胡克霍根猝逝,心臟驟停搶救畫面曝光,史泰龍悼念

開開森森
2025-07-25 09:34:36
安徽2025年養老金調整,三大亮點,30年工齡,4000元可漲131.5元

安徽2025年養老金調整,三大亮點,30年工齡,4000元可漲131.5元

大笑江湖史
2025-07-25 22:27:28
訪華結束,馮德萊恩離開北京,從中國臨走之前,她送給美方一句話

訪華結束,馮德萊恩離開北京,從中國臨走之前,她送給美方一句話

掌青說歷史
2025-07-25 09:09:55
我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

紅豆講堂
2025-06-30 17:20:10
陰法唐同志逝世

陰法唐同志逝世

上觀新聞
2025-07-04 12:15:02
2-0!2-0!WTA決賽對陣出爐,王欣瑜不敵頭號種子,無緣首座冠軍

2-0!2-0!WTA決賽對陣出爐,王欣瑜不敵頭號種子,無緣首座冠軍

侃球熊弟
2025-07-25 22:15:12
臺一派出所所長偷拍售賣女友私密影片獲利逾30萬

臺一派出所所長偷拍售賣女友私密影片獲利逾30萬

看看新聞Knews
2025-07-25 23:26:32
一次改變命運的實習:墜入浮選槽的大學生與事件調查處置之問

一次改變命運的實習:墜入浮選槽的大學生與事件調查處置之問

南方都市報
2025-07-25 09:57:18
侮辱性極強,美商務部長公開承認:賣給中國的都是四流垃圾芯片

侮辱性極強,美商務部長公開承認:賣給中國的都是四流垃圾芯片

星辰夜語
2025-07-25 10:48:14
朝鮮有座建筑,是古代迎接中國皇帝詔書之處,毀于日軍之手

朝鮮有座建筑,是古代迎接中國皇帝詔書之處,毀于日軍之手

品茗談史論世事
2025-07-26 02:17:56
他出身黑道,曾是高官的司機和白手套,迎娶小燕子,后花十年洗白

他出身黑道,曾是高官的司機和白手套,迎娶小燕子,后花十年洗白

阿胡
2024-04-29 11:49:43
新加坡向全世界道歉:因為中國,我們變了!

新加坡向全世界道歉:因為中國,我們變了!

新加坡萬事通
2025-07-03 21:15:33
散戶為什么在A股很難賺到錢?我舉一個現實的例子。

散戶為什么在A股很難賺到錢?我舉一個現實的例子。

風風順
2025-06-29 17:10:23
隆裕太后與袁世凱談退位條件時,幾乎全部答應,只有這件事寧死不從

隆裕太后與袁世凱談退位條件時,幾乎全部答應,只有這件事寧死不從

紀實文錄
2025-07-24 11:46:19
最新數據顯示泰柬邊境沖突已致泰方18人死亡

最新數據顯示泰柬邊境沖突已致泰方18人死亡

界面新聞
2025-07-25 21:25:20
一超市所有門店,全部下架!深圳顧客吃之前發現霉斑!網紅品牌多地被曝

一超市所有門店,全部下架!深圳顧客吃之前發現霉斑!網紅品牌多地被曝

南方都市報
2025-07-25 22:24:22
洪森徹底栽了,泰官員稱隨時攻入金邊,求助中國成柬埔寨唯一出路

洪森徹底栽了,泰官員稱隨時攻入金邊,求助中國成柬埔寨唯一出路

影史侃談
2025-07-03 14:51:12
中方不會善罷甘休,長和若是鐵心賣港,中方將親手按下“暫停鍵”

中方不會善罷甘休,長和若是鐵心賣港,中方將親手按下“暫停鍵”

議紀史
2025-07-24 23:40:03
2025-07-26 03:19:00
野馬財經 incentive-icons
野馬財經
關注金融創新
6558文章數 135771關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

本地
家居
藝術
游戲
公開課

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

家居要聞

環繞設計 空間動線合理

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《無主之地4》已開發完畢進廠壓盤

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 十堰市| 平山县| 石泉县| 弋阳县| 山丹县| 松滋市| 中江县| 栾城县| 博湖县| 绥棱县| 青阳县| 蓝山县| 滦平县| 辉南县| 姜堰市| 乐平市| 莒南县| 泰顺县| 龙南县| 济南市| 长宁区| 无极县| 白银市| 威宁| 大冶市| 南昌市| 土默特左旗| 汝阳县| 嘉禾县| 洛阳市| 抚顺市| 开鲁县| 吐鲁番市| 安新县| 南投县| 丹凤县| 蓬溪县| 乐安县| 安达市| 石狮市| 民和|