99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

月之暗面又開源了!登頂全球第一,還超了新版DeepSeek-R1

0
分享至


智東西
編譯 ZeR0
編輯 漠影

智東西6月17日報道,今日凌晨,月之暗面推出針對軟件工程任務(wù)的全新開源代碼大模型Kimi-Dev-72B。

該模型在SWE-bench Verified編程基準(zhǔn)測試中取得了全球最高開源模型水平,以僅72B的參數(shù)量,成績超過了剛于5月28日發(fā)布、參數(shù)量多達(dá)671B的新版DeepSeek-R1。


Kimi-Dev-72B在AI軟件工程能力基準(zhǔn)測試SWE-bench Verified上取得了60.4%的高分,創(chuàng)下開源模型的SOTA成績。


▲開源模型在SWE-bench上的性能已得到驗證


▲閉源模型在SWE-bench上的性能已得到驗證

通過大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行了優(yōu)化。它能夠自主修補(bǔ)Docker中的真實存儲庫,并且只有當(dāng)整個測試套件通過時才會獲得獎勵。這確保了解決方案的正確性和穩(wěn)健性,并符合現(xiàn)實世界的開發(fā)標(biāo)準(zhǔn)。

Kimi-Dev-72B現(xiàn)已在Hugging Face和GitHub上提供下載和部署。其發(fā)布給社區(qū)的關(guān)鍵資源包括模型權(quán)重、源代碼,技術(shù)報告也即將推出。

Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介紹了Kimi-Dev-72B的設(shè)計理念和技術(shù)細(xì)節(jié),包括BugFixer和 TestWriter的組合中期訓(xùn)練強(qiáng)化學(xué)習(xí)測試時自我博弈

1、BugFixer和TestWriter的組合

成功修復(fù)錯誤的補(bǔ)丁(patch)應(yīng)能通過準(zhǔn)確反映該錯誤的單元測試。同時,復(fù)現(xiàn)錯誤的成功測試應(yīng)引發(fā)斷言錯誤,并在將正確的錯誤修復(fù)補(bǔ)丁應(yīng)用到代碼庫后通過。這致使BugFixer和TestWriter互補(bǔ),一個足夠強(qiáng)大的編程大語言模型應(yīng)該在這兩個方面都表現(xiàn)出色。

BugFixer和TestWriter的工作流程類似:它們都會先找到正確的文件進(jìn)行編輯,然后編輯正確的代碼更新,無論是修復(fù)脆弱的實現(xiàn)還是插入unittest函數(shù)。因此,對于這兩種角色,Kimi-Dev-72B都采用了相同的極簡框架,該框架僅包含兩個階段:文件本地化和代碼編輯。BugFixer和TestWriter的雙重設(shè)計奠定了Kimi-Dev-72B的基礎(chǔ)。

2、訓(xùn)練中期

為了增強(qiáng)Kimi-Dev-72B作為BugFixer和TestWriter的先驗知識,月之暗面使用約1500億個高質(zhì)量的真實數(shù)據(jù)進(jìn)行中期訓(xùn)練。

以Qwen 2.5-72B基礎(chǔ)模型為起點,月之暗面收集了數(shù)百萬個GitHub問題和 PR提交作為其中期訓(xùn)練數(shù)據(jù)集。數(shù)據(jù)配方經(jīng)過??精心構(gòu)建,使Kimi-Dev-72B 能夠?qū)W習(xí)人類開發(fā)者如何推理GitHub問題、編寫代碼修復(fù)和單元測試。

月之暗面還進(jìn)行了嚴(yán)格的數(shù)據(jù)凈化,將所有存儲庫從SWE-bench Verified中剔除。

中期訓(xùn)練充分增強(qiáng)了基礎(chǔ)模型對實際Bug修復(fù)和單元測試的了解,使該模型成為后續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練的更佳起點。

3、強(qiáng)化學(xué)習(xí)

通過適當(dāng)?shù)闹衅谟?xùn)練和SFT,Kimi-Dev-72B在文件本地化方面表現(xiàn)出色。因此,其強(qiáng)化學(xué)習(xí)階段專注于提升其代碼編輯能力。

月之暗面使用了Kimi k1.5中描述的策略優(yōu)化方法,該方法在推理任務(wù)中表現(xiàn)出色。對于SWE-bench Verified,月之暗面重點關(guān)注以下三個關(guān)鍵設(shè)計:

  • 僅基于結(jié)果的獎勵。僅使用Docker的最終執(zhí)行結(jié)果(0或1)作為獎勵,訓(xùn)練期間不采用任何基于格式或過程的獎勵。
  • 高效的提示集。過濾掉模型在多樣本評估下成功率為零的提示,從而更有效地利用大批量。采用課程學(xué)習(xí)(curriculum learning)法,引入新的提示,逐步提高任務(wù)難度。
  • 正例強(qiáng)化。在訓(xùn)練的最后階段,將之前迭代中最近成功的樣本納入當(dāng)前批次。這有助于模型增強(qiáng)成功模式并提升性能。

Kimi-Dev-72B通過使用高度并行、強(qiáng)大且高效的內(nèi)部agent基礎(chǔ)設(shè)施,從可擴(kuò)展數(shù)量的問題解決任務(wù)的訓(xùn)練中受益。


4、測試時自我博弈

經(jīng)過強(qiáng)化學(xué)習(xí)后,Kimi-Dev-72B能同時掌握BugFixer和TestWriter的角色。在測試過程中,它會采用自我博弈機(jī)制,協(xié)調(diào)自身Bug修復(fù)和測試編寫的能力。


▲BugFixer和TestWriter之間的測試時自博弈

每個問題最多可生成40個補(bǔ)丁候選和40個測試候選(按照標(biāo)準(zhǔn)無agent設(shè)置),可觀察到測試時自博弈的擴(kuò)展效應(yīng)。

結(jié)語:未來迭代側(cè)重深度集成,更無縫地融入工作流程

月之暗面正在積極研究和開發(fā)擴(kuò)展Kimi-Dev-72B功能的方法,并探索更復(fù)雜的軟件工程任務(wù)。

其未來的迭代將側(cè)重于與流行的集成開發(fā)環(huán)境(IDE)、版本控制系統(tǒng)和CI/CD流水線進(jìn)行更深入的集成,使Kimi-Dev-72B更加無縫地融入開發(fā)者的工作流程。

該公司承諾將持續(xù)改進(jìn)Kimi-Dev-72B,進(jìn)行嚴(yán)謹(jǐn)?shù)募t隊測試,并向社區(qū)發(fā)布更強(qiáng)大的模型。

來源:月之暗面GitHub項目

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗人為什么不愛國了?

伊朗人為什么不愛國了?

小院之觀
2025-06-19 05:30:03
唐山大地震“陰兵借道”事件:百輛馬車?yán)f人頭呼嘯而過

唐山大地震“陰兵借道”事件:百輛馬車?yán)f人頭呼嘯而過

老僧奇譚
2025-06-23 19:44:40
6-0!曼城兩連勝提前出線,哈蘭德點射迎首球,與尤文爭奪第一

6-0!曼城兩連勝提前出線,哈蘭德點射迎首球,與尤文爭奪第一

天涯淪落人
2025-06-23 10:59:48
難以置信!壽光一刑滿釋放人員稱,出來后電話卡、微信全都辦不了

難以置信!壽光一刑滿釋放人員稱,出來后電話卡、微信全都辦不了

火山詩話
2025-06-22 15:15:08
這很可能是第一個被摧毀的巨型現(xiàn)代化城市,以色列上百億大樓

這很可能是第一個被摧毀的巨型現(xiàn)代化城市,以色列上百億大樓

詩意世界
2025-06-23 22:22:38
2.93億頂薪+5.92億!一奪冠就面臨拆隊,你們的王朝夢可能破碎了

2.93億頂薪+5.92億!一奪冠就面臨拆隊,你們的王朝夢可能破碎了

籃球掃地僧
2025-06-23 05:56:59
失聯(lián)超48小時!瓊海17歲漂亮女孩太揪心,網(wǎng)友:這一看就是乖乖女

失聯(lián)超48小時!瓊海17歲漂亮女孩太揪心,網(wǎng)友:這一看就是乖乖女

火山詩話
2025-06-23 06:15:38
375公斤,撕開了他們又一層遮羞布,連宏光mini都比他們強(qiáng)!

375公斤,撕開了他們又一層遮羞布,連宏光mini都比他們強(qiáng)!

柏銘銳談
2025-06-22 18:45:43
武漢會戰(zhàn)真相

武漢會戰(zhàn)真相

尚曦讀史
2025-06-17 10:32:05
以色列展示擊沉054A后,展臺被法國封了!法國為何要幫中國出頭?

以色列展示擊沉054A后,展臺被法國封了!法國為何要幫中國出頭?

書中自有顏如玉
2025-06-23 14:39:30
美記曝火箭兩次競價籌碼:休媒曬哈登交易變現(xiàn)又加碼 仍手握7首輪

美記曝火箭兩次競價籌碼:休媒曬哈登交易變現(xiàn)又加碼 仍手握7首輪

顏小白的籃球夢
2025-06-23 12:39:34
十四屆全國人大常委會第十六次會議6月24日至27日在北京舉行

十四屆全國人大常委會第十六次會議6月24日至27日在北京舉行

北青網(wǎng)-北京青年報
2025-06-23 14:44:06
杭州文旅天塌了!一碗面558 筷子還收一塊錢?老板為何如此囂張

杭州文旅天塌了!一碗面558 筷子還收一塊錢?老板為何如此囂張

深析古今
2025-06-22 14:10:50
項立剛:炸空營說明離始作俑者體面求和不遠(yuǎn)了

項立剛:炸空營說明離始作俑者體面求和不遠(yuǎn)了

說說史事
2025-06-22 22:29:56
普京將對中國進(jìn)行罕見的四天訪問

普京將對中國進(jìn)行罕見的四天訪問

頭條爆料007
2025-06-23 11:19:50
莫言:你細(xì)心觀察一下你的身邊人,凡是動不動就生氣的人,沒有一個是智者,生活多半過得一團(tuán)糟糕

莫言:你細(xì)心觀察一下你的身邊人,凡是動不動就生氣的人,沒有一個是智者,生活多半過得一團(tuán)糟糕

不二大叔
2025-04-30 22:20:29
遼寧省文旅廳副廳長、省文物局局長趙輝履新遼寧社科院院長

遼寧省文旅廳副廳長、省文物局局長趙輝履新遼寧社科院院長

澎湃新聞
2025-06-23 22:30:30
體內(nèi)有惡性腫瘤的人,身體一般會有5個表現(xiàn),留心觀察

體內(nèi)有惡性腫瘤的人,身體一般會有5個表現(xiàn),留心觀察

醫(yī)學(xué)原創(chuàng)故事會
2025-06-23 23:56:40
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

回京歷史夢
2025-05-23 16:06:37
伊朗沒有選擇中國,第一時間求助俄羅斯,還對普京大夸特夸。

伊朗沒有選擇中國,第一時間求助俄羅斯,還對普京大夸特夸。

柏林觀察
2025-06-24 00:09:57
2025-06-24 01:55:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10056文章數(shù) 116781關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

頭條要聞

玉淵譚天:美軍轟炸伊朗的武器僅美國有 但掏空了老本

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

以伊沖突升級,對經(jīng)濟(jì)和股市影響有多大?

汽車要聞

真香價格+質(zhì)保承諾 別克E5很難讓人拒絕了

態(tài)度原創(chuàng)

教育
房產(chǎn)
家居
本地
旅游

教育要聞

老師解答難題時,全班同學(xué)認(rèn)真聽講,教室里充滿了求知的欲望

房產(chǎn)要聞

3天,75億!海南賣地殺瘋了!

家居要聞

山水之間 墨染風(fēng)雨云間

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 洪雅县| 汝城县| 三原县| 开阳县| 怀远县| 科尔| 迁西县| 大方县| 乡宁县| 桂东县| 孟津县| 恩平市| 麻栗坡县| 汾西县| 晋城| 鸡泽县| 永清县| 霍城县| 南开区| 沙田区| 辛集市| 马边| 新闻| 广德县| 盖州市| 定日县| 凤冈县| 利川市| 扎鲁特旗| 阳泉市| 宁强县| 古浪县| 蓬安县| 休宁县| 澳门| 临桂县| 武隆县| 铜陵市| 延安市| 诏安县| 南投市|