99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Kimi K2技術報告出爐:訓練不靠刷題靠“用自己的話再講一遍”

0
分享至

Kimi K2稱霸全球開源模型的秘籍公開了!

沒錯,就是整整32頁的Kimi K2官方技術報告。業內人士第一波repo已火速出爐:

  • 這篇論文中有很多令人印象深刻的內容。



  • nice!它分享了很多關于Kimi(以及中國實驗室)對這些模型的看法(他們關注/優化的內容)



Kimi K2,作為Kimi最新MoE基礎模型,總參數1T,激活參數32B,能力領先性尤其展現在代碼、Agent、數學推理任務上。

上線僅一周,它就在競技場千人盲評中擊敗DeepSeek,登頂全球最強開源模型,而且能媲美Grok 4、GPT 4.5等頂尖閉源模型。

那它是咋做到的呢?

別急,這篇最新論文來給答案了——一次性大公開Kimi K2的訓練過程及“秘密配方”

包括但不限于大家已經熱議的:MuonClip優化器、大規模Agentic Tool Use數據合成、通用強化學習等等。



下面詳細來看。

都有哪些技術亮點

首先,Kimi團隊認為,現如今大語言模型正從靜態模仿學習向Agentic Intelligence轉型。

這意味著,模型需要具備在復雜動態環境中自主感知、規劃、推理和行動的能力。

要實現這一點,當面人們面臨兩大挑戰:

  • 預訓練需在高質量數據有限的約束下,通過提升每token效率構建通用先驗(universal prior)。
  • 后訓練需將先驗轉化為可行動行為,但Agentic能力在自然數據中稀缺且難以規模化。

對此,團隊在Kimi K2中采用了三大核心創新技術

1、MuonClip優化器:拋棄傳統的Adam優化器,創新性地使用了Muon優化器。結合Muon的token效率與QK-Clip的穩定性,支持15.5萬億token無損失spike預訓練。

2、大規模Agentic Tool Use數據合成:構建可大規模生成多輪工具使用場景的合成pipeline,覆蓋數百領域、數千工具。

3、通用強化學習框架:結合可驗證獎勵(RLVR)和自我批判評估獎勵,將對齊從靜態擴展到開放域。

得益于以上技術,Kimi K2在SWE Bench Verified、Tau2、AceBench等基準性能測試中,均取得開源模型中的SOTA成績。



以下為技術細節部分:

預訓練階段

在Kimi K2預訓練階段,團隊主要對優化器和數據進行了優化。

整體而言,其預訓練采用了MoE架構+穩定優化器+高效token利用這一全新組合拳,以此構建通用語言和推理能力。

模型架構上,一共包含384個專家,每層激活其中8個,通過這種高度稀疏的設計在保證性能的同時優化計算效率。

在注意力機制上,K2使用MLA(Multi-head Latent Attention)結構代替傳統的密集注意力(dense attention),有效減少了計算量和帶寬壓力。

而且將每層的注意力頭數量降至64個,與同類模型相比進一步降低了推理過程中的資源消耗,使模型能更好地處理長上下文。



優化器選擇上,K2采用了MuonClip優化器,其核心是在Muon優化器基礎上融合了QK-Clip機制。

這一機制會定期檢查模型注意力的關鍵參數(query和key),如果它們的值太大,就自動“收緊”,防止計算過程出現異常,從而顯著提升了訓練穩定性。

團隊最終也發現,借助MuonClip可讓K2在15.5萬億token的預訓練過程中實現零損失spike,確保了大規模訓練的連續性和有效性。

數據方面,其核心目標為,在高質量數據有限時,通過提升每token的有效學習信號(token效用)來增強訓練效率,避免重復訓練導致的過擬合。

而為了讓模型“吃透”有限的優質訓練數據,K2團隊采取了一種所謂的“重述法”

  • 對知識類文本:不是簡單重復讀,而是換著說法再講一遍。
  • 對數學類文本:把枯燥的教材式內容改寫成更易理解的“學習筆記”風格,還加入了多語言版本的翻譯文本,讓模型見多識廣。

一言以蔽之,K2的訓練數據覆蓋網頁、代碼、數學、知識四大板塊,所有數據都經過嚴格的質量篩選,確保模型學到的都是有用的信息。

而且它不是靠“多刷題”訓練出來的,而是靠“換種說法講一遍”讓模型真正理解知識

  • 用重寫 10 次的數據訓練 1 輪(28.94%),其準確率超過了用原始數據訓練 10 輪(23.76%)的結果 。



概括而言,K2采用了與DeepSeek-V3相似的多頭潛在注意力(MLA),具體對比如下:



后訓練階段

K2后訓練階段主要涉及監督微調和強化學習。

值得一提的就是大規模Agentic Tool Use數據合成,主要流程如下:

  • 工具生成:3000多真實MCP工具+20000多合成工具,覆蓋金融、機器人控制等領域;
  • Agentic與任務生成:為工具集生成多樣化Agentic(系統提示+工具組合)和帶評估標準的任務;
  • 軌跡生成:模擬用戶交互、工具執行環境(含狀態更新和隨機結果),生成多輪工具使用軌跡;
  • 結合真實執行沙箱(如編碼任務),確保數據真實性。

最終,Judge Agent會依據任務rubrics對軌跡質量進行判斷,只保留高質量樣本用于訓練。

這一過程本質上是一種大規模拒絕采樣(rejection sampling)機制,結合模擬規模與真實反饋,實現了大范圍、高保真的訓練數據構建。



而在強化學習階段,K2主要經歷了三大步驟:

第一,構建可驗證的獎勵環境(Verifiable Rewards Gym)。

簡單說,團隊為不同任務設計了“可打分”的訓練場景,讓模型的表現可以被客觀評估。

比如對于編碼場景,團隊利用真實世界的數據(如程序競賽題目、GitHub的PR和issue)構建任務,并通過自動化測試來驗證模型的代碼是否正確運行。

第二,除了外部評判,還訓練模型自己評估自己,即引入自我評估獎勵機制(Self-Critique Rubric Reward)。

具體而言,模型會將自己的多個輸出結果進行兩兩比較,并根據一套明確的標準(如語言清晰度、對話是否連貫、是否啰嗦或拍馬屁)給出獎勵分,同時還引入一些規則約束(如“不要無腦稱贊用戶”)來避免生成套路化或迎合性回答。

這個機制不僅增強了模型的自我反饋能力,也能將客觀任務中的評估信號遷移到主觀對話場景(如回答開放性問題等人類主觀評判場景),形成閉環優化。

第三,為了更高效、穩定地進行強化學習訓練,K2還對算法進行了多項改進。

包括但不限于下面這些:

  • 預算控制機制:限制每個樣本的最大token數,避免生成啰嗦、重復或無意義的長文本。
  • 引入PTX輔助損失:使用高質量預訓練樣本時再加一個損失項,以防模型在RL階段“遺忘”已有知識。
  • 溫度衰減策略:訓練初期用高溫度鼓勵模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩定、更收斂。

最后據論文介紹,K2的訓練依托于由NVIDIA H800構成的大規模高帶寬GPU集群,通過混合并行策略,既保證了訓練效率,又能在不同規模資源下靈活適配。

  • 每個節點配備2TB內存,并通過NVLink和NVSwitch將8塊GPU在節點內部高速互聯。不同節點之間則使用8×400 Gbps的RoCE網絡互聯,以實現節點間的高效通信。



One More Thing

就在剛剛,阿里通義Qwen3模型也更新了——

正式由Qwen3-235B-A22B更新至Qwen3-235B-A22B-2507

官方表示,他們停用了混合思維模式,改為分別訓練Instruct和Thinking模型以提升質量,并正式發布性能更強的 Qwen3-235B-A22B-Instruct-2507及其FP8版本。

而且官方測評顯示,最新版Qwen3又擊敗了Kimi K2模型,開源新王或將再次易主。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
情商低?韋世豪風波后王大雷評論其妻子:我們餃子最棒!網友狠批

情商低?韋世豪風波后王大雷評論其妻子:我們餃子最棒!網友狠批

我愛英超
2025-07-22 15:17:38
日本執政黨慘敗,激進排外勢力大勝!制止“中國人踢奈良鹿”的網紅都當選議員了

日本執政黨慘敗,激進排外勢力大勝!制止“中國人踢奈良鹿”的網紅都當選議員了

日本物語
2025-07-21 21:29:10
全球首例!乙肝TCR-T細胞療法投入臨床,2.5億人或將擺脫終身服藥

全球首例!乙肝TCR-T細胞療法投入臨床,2.5億人或將擺脫終身服藥

水皮M0RE
2025-07-22 16:41:35
央行:房地產貸款增速回升

央行:房地產貸款增速回升

界面新聞
2025-07-22 16:07:33
湖人傳聞:知情人士透露道爾頓·克內希特的交易價值正在下降

湖人傳聞:知情人士透露道爾頓·克內希特的交易價值正在下降

好火子
2025-07-23 03:11:13
杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

杜建英同學發聲,稱宗馥莉沒教養是惡人,杜建英多年一直愁眉不展

大笑江湖史
2025-07-18 07:37:43
17輪僅出場2次,前恒大天才新星慘遭斯帥冷落,淪為中超透明人

17輪僅出場2次,前恒大天才新星慘遭斯帥冷落,淪為中超透明人

零度眼看球
2025-07-22 06:50:32
大結局!阿森納終簽下約克雷斯:轉會費7350萬歐 今夏已砸2.2億歐

大結局!阿森納終簽下約克雷斯:轉會費7350萬歐 今夏已砸2.2億歐

風過鄉
2025-07-22 22:17:32
油價調整消息:今天7月22日,全國加油站調整后92、95汽油新售價

油價調整消息:今天7月22日,全國加油站調整后92、95汽油新售價

沙雕小琳琳
2025-07-23 00:39:50
甘肅馬蹄寺景區被曝收300元/人“天價過路費”,當地文旅部門:屬實,已下發整改函

甘肅馬蹄寺景區被曝收300元/人“天價過路費”,當地文旅部門:屬實,已下發整改函

上游新聞
2025-07-22 17:29:05
除了商標全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

除了商標全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

聞識
2025-07-15 13:34:23
罕見一幕!六大期貨品種集體漲停,釋放什么信號?

罕見一幕!六大期貨品種集體漲停,釋放什么信號?

證券時報
2025-07-23 00:07:06
廣州擬于十五運會期間實行本市小客車單雙號通行!正征求意見

廣州擬于十五運會期間實行本市小客車單雙號通行!正征求意見

南方都市報
2025-07-23 00:27:05
比亞迪銷量遇冷:國內增長放緩 海外擴張受阻 全年目標壓力大

比亞迪銷量遇冷:國內增長放緩 海外擴張受阻 全年目標壓力大

樂趣談談信息
2025-07-22 13:50:23
腦梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天熱堅守6原則

腦梗去世的人飆升!醫生含淚苦勸:無論多大年紀,天熱堅守6原則

今日養生之道
2025-07-22 14:35:28
吃相太難看!網紅全程戴面具開演唱會惹眾怒,網友:誰給的自信?

吃相太難看!網紅全程戴面具開演唱會惹眾怒,網友:誰給的自信?

一娛三分地
2025-07-23 00:14:52
贏麻了,陳佩斯哭了,票房300倍逆襲,朱時茂百萬投資可掙了不少

贏麻了,陳佩斯哭了,票房300倍逆襲,朱時茂百萬投資可掙了不少

草莓解說體育
2025-07-21 17:59:38
20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

一個有靈魂的作者
2025-07-22 13:46:12
女孩查分721,當晚選擇墜樓自殺,警方檢查手機短信,發現實情

女孩查分721,當晚選擇墜樓自殺,警方檢查手機短信,發現實情

罪案洞察者
2025-07-16 10:48:38
周驄設靈,90歲羅蘭冒大雨送別被攙扶著離開,陳慧珊哭紅雙眼

周驄設靈,90歲羅蘭冒大雨送別被攙扶著離開,陳慧珊哭紅雙眼

開開森森
2025-07-22 20:17:59
2025-07-23 06:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10905文章數 176193關注度
往期回顧 全部

科技要聞

李開復推企業級Agent,誓要打造"超級員工"

頭條要聞

特朗普:將對菲律賓征收19%關稅 菲對美實行零關稅

頭條要聞

特朗普:將對菲律賓征收19%關稅 菲對美實行零關稅

體育要聞

記者:那不勒斯租借+強制買斷報價恩多耶,總價4000萬歐元

娛樂要聞

葉珂復播 自曝產女后與黃曉明徹底分手

財經要聞

宗馥莉掌控離岸公司 遺產爭奪或早有布局

汽車要聞

看著像保時捷?賓利首款純電動車諜照曝光

態度原創

家居
數碼
親子
本地
公開課

家居要聞

其樂融融 重構溫馨狀態

數碼要聞

追覓小覓罐內衣洗烘機震撼上市,四大核心科技終結手洗時代

親子要聞

拒絕毒友誼,給孩子講這個故事

本地新聞

換個城市過夏天 | 躲進18℃的綠野仙蹤

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清涧县| 内乡县| 宁夏| 高邮市| 中阳县| 岳阳市| 山阳县| 井研县| 图木舒克市| 尼玛县| 江北区| 南川市| 齐河县| 金阳县| 营山县| 新密市| 怀集县| 鹤山市| 信阳市| 南康市| 威海市| 明溪县| 卢湾区| 乌兰县| 梁平县| 宁安市| 正定县| 民丰县| 米脂县| 安丘市| 松溪县| 安泽县| 静乐县| 张掖市| 合江县| 连云港市| 娄烦县| 礼泉县| 公安县| 临安市| 云南省|