99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

楊植麟合寫的技術報告來了!Kimi K2也是作者,還拿了24項開源SOTA

0
分享至


智東西
作者 陳駿達
編輯 云鵬

智東西7月22日報道,今天,月之暗面公布了其最新旗艦模型Kimi K2的完整技術報告。作為一款國產開源萬億參數大模型,Kimi K2在發布之后迅速爆火,并在大模型競技場上接替新版DeepSeek-R1,登頂全球開源模型榜首


技術報告透露,Kimi K2在15.5萬億token上進行了訓練。為實現這一量級的訓練,月之暗面設計了MuonClip優化器,從而解決了大模型訓練中常見的注意力爆炸與損失尖峰問題,提升了預訓練的穩定性和token利用率。數據方面,月之暗面打造了一條改寫流水線,讓模型擴增高質量token的總量。

在后訓練階段,Kimi K2合成了涵蓋數萬工具與任務的多輪交互數據用于訓練,再進入強化學習階段,讓模型在真實與合成環境中不斷試錯、反思與進化。這一訓練過程讓K2能在不開啟思維鏈的前提下,于多項基準測試中獲得超越頂尖開源模型,比肩頭部閉源模型的成績。

具體來看,在自主編程(Agentic Coding)、工具調用(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2的表現超過了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基準測試中略遜于Claude 4 Opus、OpenAI GPT-4.1等模型。基準測試結果顯示,Kimi-K2一共獲得了14項全球SOTA,24項開源模型SOTA。


在這份32頁技術報告的末尾,月之暗面創始人兼CEO楊植麟出現在作者清單中,更令人意外的是,Kimi K2也被列入了技術報告的作者之列。


技術報告鏈接:https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

一、大模型智能步入新階段,數據效率成提升瓶頸

月之暗面在技術報告中提出,大模型正在從被動模仿人類文本轉向Agentic Intelligence階段,模型逐漸具備了在復雜、動態的環境中自主感知、規劃、推理并行動的能力。

這一轉變意味著模型不再局限于靜態的人類標注數據,而是通過與環境的持續交互,主動習得超出訓練分布的新技能,并依據經驗不斷調整行為。

然而,Agentic Intelligence給預訓練和后訓練階段都帶來了一定的挑戰。

預訓練階段,研究者必須在高質量數據日益稀缺的條件下,為模型注入足夠通用的先驗知識,因此token效率(每個 token 帶來的學習信號)成為決定規模法則的關鍵因素。

在后訓練階段,研究者則需要把這些知識轉化為可執行的行為,而多步推理、長期規劃、工具調用等智能體能力在自然數據中稀缺且昂貴。

因此,業界亟需能夠大規模合成結構化、高質量智能體軌跡的系統,并輔以融合偏好與自我批判的通用強化學習框架,彌補靜態對齊與開放環境之間的差異。

二、提出MuonClip優化器,通過改寫擴充高質量數據

針對上述問題,月之暗面首先在預訓練階段采用高效的Muon優化器進行訓練,該優化器具備高效率、權重衰減少等優勢。

Muon優化器由海外AI學者Keller Jordan(現已加入OpenAI)提出,月之暗面曾在今年2月對其進行改進并開源。后者在實驗中發現,在相同計算預算和模型規模下,Muon顯著優于AdamW等經典優化器,是提升大模型訓練token利用效率的理想選擇。

不過,Muon在擴大規模時暴露出訓練不穩定的問題,特別是注意力logits爆炸現象,注意力得分(logits)會在訓練過程中無限增大,導致各種后續問題。

月之暗面進一步提出了權重裁剪機制QK-Clip,能在每次參數更新后,根據當前批次中每個注意力頭的最大logit值,動態縮放Query和Key的投影權重。

最終,該團隊將Muon、權重衰減、RMS匹配與QK-Clip集成,形成統一優化器MuonClip。實驗數據表明,加入QK-Clip的訓練損失曲線平滑,無損失尖峰(下圖右側)。


預訓練數據方面,月之暗面引入了一套合成數據生成策略以提高token效用。具體而言,該團隊設計了一條改寫流水線,可在不明顯過擬合的前提下,擴增高質量token的總量。

例如,在知識型數據上,為提升高質量知識token的效用,月之暗面向模型提供了風格與視角多樣的提示詞,引導大模型以不同風格、從不同視角對原文進行忠實改寫。同時,為保持長文檔的全局連貫性并避免信息丟失,模型采用按塊自回歸重寫策略。

在訓練前,團隊還會通過語義對齊檢查確保改寫片段與原文內容一致,作為初步質控。

為了強化數學推理能力,月之暗面把高質量數學文檔改寫成“學習筆記”風格,并通過將其他語言的高質量數學資料翻譯成英文來進一步擴大數據多樣性。

最終,Kimi K2一共使用了15.5 T token的預訓練語料,涵蓋Web文本、代碼、數學、知識四大領域,且全部經過正確性與質量驗證。

模型架構方面,Kimi K2整體架構與DeepSeek-V3相似,采用多頭隱式注意力(MLA)作為注意力機制。月之暗面發現,在保持激活參數量不變的前提下,繼續提高稀疏度仍能顯著降低損失,因此把專家總數從DeepSeek-V3的256提升到384;同時為了減少推理開銷,將注意力頭數從128降至64。下圖是Kimi K2與DeepSeek-V3的核心結構對比。


Kimi K2在英偉達H800 GPU集群完成了訓練,并使用了統一并行配置、通信優化等策略,但并未披露集群規模。

三、為工具調用打造海量數據,模型獲14項全球SOTA

Kimi K2的后訓練由兩個核心階段組成。

在有監督微調階段,Kimi K2依舊使用了Muon優化器,并構建了一個覆蓋多領域的大規模指令微調數據集,重點是提示詞多樣性和響應質量。這些數據使用了K1.5及其他領域專家模型生成候選回答,再由大模型或人工進行質量評估與過濾。

月之暗面特別工具使用(Tool Use)能力構建了一個大規模Agentic數據合成流水線,整合3000+真實MCP工具和2萬+合成工具,生成數千個不同能力組合的智能體與配套任務。


緊接著,該團隊模擬多輪交互,并過濾出高質量的智能體軌跡,然后在代碼/軟件工程等場景中,使用真實執行環境提升數據真實性。

強化學習階段,月之暗面的目標是在可驗證獎勵任務與主觀偏好任務中提升模型能力。

在可驗證的任務上,該團隊打造了一個可驗證獎勵的“訓練場”,用于提升模型在數學、STEM、邏輯任務、復雜指令遵循、編程等領域的能力。

針對無明確答案的任務(如創意寫作、開放問答),月之暗面引入了模型自評機制,讓模型通過對比自身輸出并打分。

RL算法優化方面,月之暗面限制了每任務最大token數,避免冗長輸出,并利用PTX損失函數防止模型在訓練過程中遺忘高價值數據。該團隊還在后訓練階段逐步降低模型的temperature,從而降低隨機性,確保模型輸出的可靠性和一致性。

后訓練階段,月之暗面還對訓練基礎設施進行了針對性設計,采用協同架構,將訓練和推理引擎部署在同一節點,動態分配GPU資源以提升效率。針對長周期任務,該團隊采用并行Rollout和分段執行優化GPU利用率,并通過標準化接口支持多樣化環境,實現高效的大規模RL訓練。

基準測試的結果印證了上述訓練流程的效果。

在編程領域,Kimi-K2-Instruct在SWE-bench Verified和LiveCodeBench v6的成績與商業模型的差距進一步縮小,在真實世界軟件開發和競賽級編程挑戰展現出實戰能力、

Kimi-K2-Instruct還在多輪工具使用評測、通用知識、數學推理、指令遵循和長上下文任務中獲得不錯的表現。其MMLU得分(89.5%)、IFEval得分(89.8%) 等超越開源競品,LMSYS Arena用戶評測中位列開源模型榜首。

技術報告中放出了Kimi-K2-Instruct與其他開源、閉源模型的基準測試對比,加粗成績代表全球SOTA,加粗并劃線的成績代表開源模型SOTA。Kimi-K2-Instruct獲得14項全球SOTA,24項開源模型SOTA。


結語:中國開源模型再突破

近期,中國開源模型在能力、國際影響力上不斷實現突破。本次,Kimi K2已經發布后,便在國內外開源社區上吸引了不少人下載、體驗。美國AI搜索獨角獸Perplexity的創始人兼CEO甚至稱,有計劃在Kimi K2的基礎上進行進一步訓練。

我們也看到,本次Kimi K2的模型架構在DeepSeek-V3的基礎上實現了創新,二者同屬國產開源模型。隨著Kimi逐步加入開源行列并開放旗艦級別的模型,國產開源AI生態中又多了一家重要的參與者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
55歲王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

55歲王菲西藏祈福,頭戴綠頭巾,素顏下眼袋好明顯,歲月不饒人啊

喜歡歷史的阿繁
2025-07-22 14:20:58
父親臨終塞他4億:把錢花光,當個敗家子!他奉父命養3個女友27年

父親臨終塞他4億:把錢花光,當個敗家子!他奉父命養3個女友27年

玥來玥好講故事
2025-07-22 20:43:32
宗澤后發朋友圈:稱錯的是宗慶后,他主動追杜建英,如今已是夫妻

宗澤后發朋友圈:稱錯的是宗慶后,他主動追杜建英,如今已是夫妻

探源歷史
2025-07-22 10:57:28
演唱會“出軌門”后,新CEO發聲:公司現在家喻戶曉!女HR至今未被辭退

演唱會“出軌門”后,新CEO發聲:公司現在家喻戶曉!女HR至今未被辭退

紅星新聞
2025-07-22 18:58:15
修建雅江超級水電站,為我們收回藏南地區,會師提斯浦爾打下基礎

修建雅江超級水電站,為我們收回藏南地區,會師提斯浦爾打下基礎

七月夏安
2025-07-21 21:19:26
5元紅色尖叫被炒到8900元一箱?農夫山泉:已停產,謹慎購買二手商品

5元紅色尖叫被炒到8900元一箱?農夫山泉:已停產,謹慎購買二手商品

極目新聞
2025-07-22 11:53:30
深圳“最大”酒店尋買家:2折甩賣是誤讀!實地探訪運營現狀

深圳“最大”酒店尋買家:2折甩賣是誤讀!實地探訪運營現狀

南方都市報
2025-07-22 19:11:02
驚爆!中國造孟加拉戰機墜入校園,造成19死百余傷慘劇!

驚爆!中國造孟加拉戰機墜入校園,造成19死百余傷慘劇!

國際情爆猿
2025-07-21 19:06:35
南方周末是唯一到杭州實地走訪的媒體

南方周末是唯一到杭州實地走訪的媒體

林中木白
2025-07-22 20:05:18
央視曝光!又一灰色產業鏈暴雷!0成本套現48萬,還不用還?

央視曝光!又一灰色產業鏈暴雷!0成本套現48萬,還不用還?

生活新鮮市
2025-07-22 14:47:49
關于高級黑抗日神劇,他們終于反過味兒來了

關于高級黑抗日神劇,他們終于反過味兒來了

熊太行
2025-07-22 02:59:24
足協杯國安6-4點殺西海岸晉級四強,侯森撲點,王子銘、曹永競破門

足協杯國安6-4點殺西海岸晉級四強,侯森撲點,王子銘、曹永競破門

懂球帝
2025-07-22 22:09:05
男生636分報民辦新校,笑言賭輸最差去玻璃廠|大象夜讀

男生636分報民辦新校,笑言賭輸最差去玻璃廠|大象夜讀

大象新聞
2025-07-22 18:16:08
字字不熟 句句在蹭,朱孝天演唱會被群嘲,消費大S吃相太難看

字字不熟 句句在蹭,朱孝天演唱會被群嘲,消費大S吃相太難看

黃小仙的搞笑視頻
2025-07-22 15:46:42
廣州市消防救援支隊黨委副書記李偉斌接受審查調查

廣州市消防救援支隊黨委副書記李偉斌接受審查調查

極目新聞
2025-07-22 19:20:56
中國臺灣IP女子自曝與馬英九牽手照:待我好不一定是要當夫人

中國臺灣IP女子自曝與馬英九牽手照:待我好不一定是要當夫人

可達鴨面面觀
2025-07-22 09:47:48
韓國前總統尹錫悅妻子金建希博士學位被撤銷,此前因論文抄襲已被剝奪碩士學位

韓國前總統尹錫悅妻子金建希博士學位被撤銷,此前因論文抄襲已被剝奪碩士學位

揚子晚報
2025-07-21 22:33:12
警方通報“飛機上乘客打架”:因聊天聲音問題發生口角引發肢體沖突,3人被行拘,2人被行政罰款

警方通報“飛機上乘客打架”:因聊天聲音問題發生口角引發肢體沖突,3人被行拘,2人被行政罰款

極目新聞
2025-07-22 21:58:30
勁爆!兩千萬粉超級女網紅蒙面堅決不露臉開演唱會引發熱議!

勁爆!兩千萬粉超級女網紅蒙面堅決不露臉開演唱會引發熱議!

魔都囡
2025-07-22 10:12:43
造謠司機的女乘客“社會性死亡”:女子身份被扒,還是臺球助教

造謠司機的女乘客“社會性死亡”:女子身份被扒,還是臺球助教

春序娛樂
2025-07-22 16:41:19
2025-07-23 01:19:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10185文章數 116805關注度
往期回顧 全部

科技要聞

李開復推企業級Agent,誓要打造"超級員工"

頭條要聞

烏克蘭20歲模特:逃離迪拜性派對遭富豪虐待 監控沒了

頭條要聞

烏克蘭20歲模特:逃離迪拜性派對遭富豪虐待 監控沒了

體育要聞

留隊!經紀人:恰爾汗奧盧不會走,他從未要求過離開國米

娛樂要聞

葉珂復播 自曝產女后與黃曉明徹底分手

財經要聞

宗馥莉掌控離岸公司 遺產爭奪或早有布局

汽車要聞

看著像保時捷?賓利首款純電動車諜照曝光

態度原創

本地
時尚
親子
家居
藝術

本地新聞

換個城市過夏天 | 躲進18℃的綠野仙蹤

女人過了40歲穿衣要更加謹慎!合適的著裝,打造出高級的特征

親子要聞

拒絕毒友誼,給孩子講這個故事

家居要聞

其樂融融 重構溫馨狀態

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黄龙县| 读书| 瓦房店市| 英吉沙县| 城市| 无极县| 益阳市| 天水市| 闸北区| 江门市| 美姑县| 理塘县| 大关县| 邻水| 万宁市| 蒙自县| 仁布县| 江孜县| 武定县| 麻城市| 许昌县| 云浮市| 金华市| 偏关县| 彭水| 宣城市| 奈曼旗| 江华| 桑日县| 颍上县| 岢岚县| 杂多县| 贵港市| 民勤县| 石渠县| 平乐县| 胶南市| 峡江县| 宣化县| 泾川县| 福清市|