99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

月之暗面又開源了!登頂全球第一,還超了新版DeepSeek-R1

0
分享至


Kimi-Dev-72B登頂全球開源編程模型。

來源:月之暗面GitHub項目

編譯:ZeR0

漠影

智東西6月17日報道,今日凌晨,月之暗面推出針對軟件工程任務的全新開源代碼大模型Kimi-Dev-72B。

該模型在SWE-bench Verified編程基準測試中取得了全球最高開源模型水平,以僅72B的參數量,成績超過了剛于5月28日發布、參數量多達671B的新版DeepSeek-R1。


Kimi-Dev-72B在AI軟件工程能力基準測試SWE-bench Verified上取得了60.4%的高分,創下開源模型的SOTA成績。


▲開源模型在SWE-bench上的性能已得到驗證


▲閉源模型在SWE-bench上的性能已得到驗證

通過大規模強化學習進行了優化。它能夠自主修補Docker中的真實存儲庫,并且只有當整個測試套件通過時才會獲得獎勵。這確保了解決方案的正確性和穩健性,并符合現實世界的開發標準。

Kimi-Dev-72B現已在Hugging Face和GitHub上提供下載和部署。其發布給社區的關鍵資源包括模型權重、源代碼,技術報告也即將推出。

Hugging Face地址:

huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介紹了Kimi-Dev-72B的設計理念和技術細節,包括BugFixer和 TestWriter的組合中期訓練強化學習測試時自我博弈

1、BugFixer和TestWriter的組合

成功修復錯誤的補丁(patch)應能通過準確反映該錯誤的單元測試。同時,復現錯誤的成功測試應引發斷言錯誤,并在將正確的錯誤修復補丁應用到代碼庫后通過。這致使BugFixer和TestWriter互補,一個足夠強大的編程大語言模型應該在這兩個方面都表現出色。

BugFixer和TestWriter的工作流程類似:它們都會先找到正確的文件進行編輯,然后編輯正確的代碼更新,無論是修復脆弱的實現還是插入unittest函數。因此,對于這兩種角色,Kimi-Dev-72B都采用了相同的極簡框架,該框架僅包含兩個階段:文件本地化和代碼編輯。BugFixer和TestWriter的雙重設計奠定了Kimi-Dev-72B的基礎。

2、訓練中期

為了增強Kimi-Dev-72B作為BugFixer和TestWriter的先驗知識,月之暗面使用約1500億個高質量的真實數據進行中期訓練。

以Qwen 2.5-72B基礎模型為起點,月之暗面收集了數百萬個GitHub問題和 PR提交作為其中期訓練數據集。數據配方經過精心構建,使Kimi-Dev-72B 能夠學習人類開發者如何推理GitHub問題、編寫代碼修復和單元測試。

月之暗面還進行了嚴格的數據凈化,將所有存儲庫從SWE-bench Verified中剔除。

中期訓練充分增強了基礎模型對實際Bug修復和單元測試的了解,使該模型成為后續強化學習訓練的更佳起點。

3、強化學習

通過適當的中期訓練和SFT,Kimi-Dev-72B在文件本地化方面表現出色。因此,其強化學習階段專注于提升其代碼編輯能力。

月之暗面使用了Kimi k1.5中描述的策略優化方法,該方法在推理任務中表現出色。對于SWE-bench Verified,月之暗面重點關注以下三個關鍵設計:

  • 僅基于結果的獎勵。

    僅使用Docker的最終執行結果(0或1)作為獎勵,訓練期間不采用任何基于格式或過程的獎勵。

  • 高效的提示集。

    過濾掉模型在多樣本評估下成功率為零的提示,從而更有效地利用大批量。采用課程學習(curriculum learning)法,引入新的提示,逐步提高任務難度。

  • 正例強化。

    在訓練的最后階段,將之前迭代中最近成功的樣本納入當前批次。這有助于模型增強成功模式并提升性能。

Kimi-Dev-72B通過使用高度并行、強大且高效的內部agent基礎設施,從可擴展數量的問題解決任務的訓練中受益。


4、測試時自我博弈

經過強化學習后,Kimi-Dev-72B能同時掌握BugFixer和TestWriter的角色。在測試過程中,它會采用自我博弈機制,協調自身Bug修復和測試編寫的能力。


▲BugFixer和TestWriter之間的測試時自博弈

每個問題最多可生成40個補丁候選和40個測試候選(按照標準無agent設置),可觀察到測試時自博弈的擴展效應。

結語:未來迭代側重深度集成,

更無縫地融入工作流程

月之暗面正在積極研究和開發擴展Kimi-Dev-72B功能的方法,并探索更復雜的軟件工程任務。

其未來的迭代將側重于與流行的集成開發環境(IDE)、版本控制系統和CI/CD流水線進行更深入的集成,使Kimi-Dev-72B更加無縫地融入開發者的工作流程。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

泰柬問題升溫,中國重炮回應,南部邊境紅線絕不允許任何人觸碰!

林子說事
2025-07-25 19:26:25
原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

原外交副部長周南:香港回歸前,英國每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

0-2!王欣瑜無緣決賽,輸球原因曝光,主辦方做法遭質疑,不公平

侃球熊弟
2025-07-25 23:44:26
知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

知名湘菜品牌被曝拖欠千萬元貨款!品牌方獨家回應

藍鯨新聞
2025-07-25 16:03:22
36款熱門車高危智駕場景測試,“團滅”!

36款熱門車高危智駕場景測試,“團滅”!

第一財經資訊
2025-07-25 13:35:25
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

施幼珍:不哭不鬧不上吊,拿捏死宗慶后僅用一招,她才是真正王者

普覽
2025-07-17 19:04:48
考生稱被“廈大馬來分校”誤錄取,考609分最后選擇復讀

考生稱被“廈大馬來分校”誤錄取,考609分最后選擇復讀

大象新聞
2025-07-24 20:01:22
涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

涉嫌嚴重違紀違法!惠州市委社會工作部副部長葉思南被查

南方都市報
2025-07-25 14:44:29
微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

微信轉賬時,出現這四個字,一定要停止轉款,即便是熟人也不行

農村情感故事
2025-07-16 13:33:48
克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

克林頓:我一生有兩件事感到很遺憾,一中國加入WTO,二我做錯了

趣文說娛
2025-07-24 17:22:53
布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

布蘭科:如果沒有拉瑪西亞,巴薩可能已經垮掉了

懂球帝
2025-07-26 00:55:07
馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

馬被拴在巨石50多天,啃光腳下的草,被救后它眼里流出來淚水

雪靈谷
2025-07-24 10:58:07
8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

8年前,那個卷走父親全部300萬積蓄到國外揮霍的18歲女孩,咋樣了

趣談人物紀
2025-07-23 12:00:03
理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

理想i8亮相首周激戰樂道L90:線上爭到線下,用戶群體涇渭分明

駕仕派
2025-07-23 13:35:15
火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

火箭欲再簽強援!3屆東部全明星聯手杜蘭特,休城沖擊總冠軍

埃文凱爾
2025-07-26 00:34:47
陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

陪練為主!廣東2米26小將連續2戰遭棄用 郭士強或另有安排

狼叔評論
2025-07-26 00:13:10
開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

開心!中超第18輪央視又直播北京國安比賽了 大愛塞蒂恩傳控足球

80后體育大蜀黍
2025-07-25 23:55:26
丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

丟人!郭士強關系戶全場3中0,運動戰0分,球迷:趕緊把他裁了

南海浪花
2025-07-25 08:29:37
大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

大鬧北京地鐵大媽社死!辱華罵人太囂張,直言美國更好,正臉曝光

奧字侃娛
2025-07-24 15:30:13
2025-07-26 01:51:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

家居
數碼
本地
藝術
公開課

家居要聞

環繞設計 空間動線合理

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泉州市| 左云县| 象州县| 乌拉特后旗| 凤山市| 安溪县| 信宜市| 绥宁县| 蓝田县| 邵武市| 图们市| 清流县| 岱山县| 三台县| 西充县| 兰州市| 绥德县| 珠海市| 新郑市| 龙胜| 孙吴县| 鱼台县| 彭山县| 南雄市| 闸北区| 油尖旺区| 泉州市| 永寿县| 汝城县| 奉节县| 碌曲县| 桓台县| 厦门市| 大田县| 特克斯县| 大厂| 淮滨县| 杭锦后旗| 乌恰县| 兴文县| 昌平区|