99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Kimi K2技術報告出爐:訓練不靠刷題靠“用自己的話再講一遍”

0
分享至

Kimi K2稱霸全球開源模型的秘籍公開了!

沒錯,就是整整32頁的Kimi K2官方技術報告。業內人士第一波repo已火速出爐:

  • 這篇論文中有很多令人印象深刻的內容。



  • nice!它分享了很多關于Kimi(以及中國實驗室)對這些模型的看法(他們關注/優化的內容)



Kimi K2,作為Kimi最新MoE基礎模型,總參數1T,激活參數32B,能力領先性尤其展現在代碼、Agent、數學推理任務上。

上線僅一周,它就在競技場千人盲評中擊敗DeepSeek,登頂全球最強開源模型,而且能媲美Grok 4、GPT 4.5等頂尖閉源模型。

那它是咋做到的呢?

別急,這篇最新論文來給答案了——一次性大公開Kimi K2的訓練過程及“秘密配方”

包括但不限于大家已經熱議的:MuonClip優化器、大規模Agentic Tool Use數據合成、通用強化學習等等。



下面詳細來看。

都有哪些技術亮點

首先,Kimi團隊認為,現如今大語言模型正從靜態模仿學習向Agentic Intelligence轉型。

這意味著,模型需要具備在復雜動態環境中自主感知、規劃、推理和行動的能力。

要實現這一點,當面人們面臨兩大挑戰:

  • 預訓練需在高質量數據有限的約束下,通過提升每token效率構建通用先驗(universal prior)。
  • 后訓練需將先驗轉化為可行動行為,但Agentic能力在自然數據中稀缺且難以規模化。

對此,團隊在Kimi K2中采用了三大核心創新技術

1、MuonClip優化器:拋棄傳統的Adam優化器,創新性地使用了Muon優化器。結合Muon的token效率與QK-Clip的穩定性,支持15.5萬億token無損失spike預訓練。

2、大規模Agentic Tool Use數據合成:構建可大規模生成多輪工具使用場景的合成pipeline,覆蓋數百領域、數千工具。

3、通用強化學習框架:結合可驗證獎勵(RLVR)和自我批判評估獎勵,將對齊從靜態擴展到開放域。

得益于以上技術,Kimi K2在SWE Bench Verified、Tau2、AceBench等基準性能測試中,均取得開源模型中的SOTA成績。



以下為技術細節部分:

預訓練階段

在Kimi K2預訓練階段,團隊主要對優化器和數據進行了優化。

整體而言,其預訓練采用了MoE架構+穩定優化器+高效token利用這一全新組合拳,以此構建通用語言和推理能力。

模型架構上,一共包含384個專家,每層激活其中8個,通過這種高度稀疏的設計在保證性能的同時優化計算效率。

在注意力機制上,K2使用MLA(Multi-head Latent Attention)結構代替傳統的密集注意力(dense attention),有效減少了計算量和帶寬壓力。

而且將每層的注意力頭數量降至64個,與同類模型相比進一步降低了推理過程中的資源消耗,使模型能更好地處理長上下文。



優化器選擇上,K2采用了MuonClip優化器,其核心是在Muon優化器基礎上融合了QK-Clip機制。

這一機制會定期檢查模型注意力的關鍵參數(query和key),如果它們的值太大,就自動“收緊”,防止計算過程出現異常,從而顯著提升了訓練穩定性。

團隊最終也發現,借助MuonClip可讓K2在15.5萬億token的預訓練過程中實現零損失spike,確保了大規模訓練的連續性和有效性。

數據方面,其核心目標為,在高質量數據有限時,通過提升每token的有效學習信號(token效用)來增強訓練效率,避免重復訓練導致的過擬合。

而為了讓模型“吃透”有限的優質訓練數據,K2團隊采取了一種所謂的“重述法”

  • 對知識類文本:不是簡單重復讀,而是換著說法再講一遍。
  • 對數學類文本:把枯燥的教材式內容改寫成更易理解的“學習筆記”風格,還加入了多語言版本的翻譯文本,讓模型見多識廣。

一言以蔽之,K2的訓練數據覆蓋網頁、代碼、數學、知識四大板塊,所有數據都經過嚴格的質量篩選,確保模型學到的都是有用的信息。

而且它不是靠“多刷題”訓練出來的,而是靠“換種說法講一遍”讓模型真正理解知識

  • 用重寫 10 次的數據訓練 1 輪(28.94%),其準確率超過了用原始數據訓練 10 輪(23.76%)的結果 。



概括而言,K2采用了與DeepSeek-V3相似的多頭潛在注意力(MLA),具體對比如下:



后訓練階段

K2后訓練階段主要涉及監督微調和強化學習。

值得一提的就是大規模Agentic Tool Use數據合成,主要流程如下:

  • 工具生成:3000多真實MCP工具+20000多合成工具,覆蓋金融、機器人控制等領域;
  • Agentic與任務生成:為工具集生成多樣化Agentic(系統提示+工具組合)和帶評估標準的任務;
  • 軌跡生成:模擬用戶交互、工具執行環境(含狀態更新和隨機結果),生成多輪工具使用軌跡;
  • 結合真實執行沙箱(如編碼任務),確保數據真實性。

最終,Judge Agent會依據任務rubrics對軌跡質量進行判斷,只保留高質量樣本用于訓練。

這一過程本質上是一種大規模拒絕采樣(rejection sampling)機制,結合模擬規模與真實反饋,實現了大范圍、高保真的訓練數據構建。



而在強化學習階段,K2主要經歷了三大步驟:

第一,構建可驗證的獎勵環境(Verifiable Rewards Gym)。

簡單說,團隊為不同任務設計了“可打分”的訓練場景,讓模型的表現可以被客觀評估。

比如對于編碼場景,團隊利用真實世界的數據(如程序競賽題目、GitHub的PR和issue)構建任務,并通過自動化測試來驗證模型的代碼是否正確運行。

第二,除了外部評判,還訓練模型自己評估自己,即引入自我評估獎勵機制(Self-Critique Rubric Reward)。

具體而言,模型會將自己的多個輸出結果進行兩兩比較,并根據一套明確的標準(如語言清晰度、對話是否連貫、是否啰嗦或拍馬屁)給出獎勵分,同時還引入一些規則約束(如“不要無腦稱贊用戶”)來避免生成套路化或迎合性回答。

這個機制不僅增強了模型的自我反饋能力,也能將客觀任務中的評估信號遷移到主觀對話場景(如回答開放性問題等人類主觀評判場景),形成閉環優化。

第三,為了更高效、穩定地進行強化學習訓練,K2還對算法進行了多項改進。

包括但不限于下面這些:

  • 預算控制機制:限制每個樣本的最大token數,避免生成啰嗦、重復或無意義的長文本。
  • 引入PTX輔助損失:使用高質量預訓練樣本時再加一個損失項,以防模型在RL階段“遺忘”已有知識。
  • 溫度衰減策略:訓練初期用高溫度鼓勵模型大膽嘗試、廣泛探索,后期逐步降低溫度,讓模型輸出更穩定、更收斂。

最后據論文介紹,K2的訓練依托于由NVIDIA H800構成的大規模高帶寬GPU集群,通過混合并行策略,既保證了訓練效率,又能在不同規模資源下靈活適配。

  • 每個節點配備2TB內存,并通過NVLink和NVSwitch將8塊GPU在節點內部高速互聯。不同節點之間則使用8×400 Gbps的RoCE網絡互聯,以實現節點間的高效通信。



One More Thing

就在剛剛,阿里通義Qwen3模型也更新了——

正式由Qwen3-235B-A22B更新至Qwen3-235B-A22B-2507

官方表示,他們停用了混合思維模式,改為分別訓練Instruct和Thinking模型以提升質量,并正式發布性能更強的 Qwen3-235B-A22B-Instruct-2507及其FP8版本。

而且官方測評顯示,最新版Qwen3又擊敗了Kimi K2模型,開源新王或將再次易主。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
56歲許晴,終于活成了笑話?“風流成性”的代價太大了!

56歲許晴,終于活成了笑話?“風流成性”的代價太大了!

橙星文娛
2025-07-16 12:23:39
云南省紀委監委原駐省鄉村振興局紀檢監察組組長保劍接受審查調查

云南省紀委監委原駐省鄉村振興局紀檢監察組組長保劍接受審查調查

界面新聞
2025-07-24 15:34:58
油價大降0.84元/升,2025年第15次油價調整,7月29日或再下跌

油價大降0.84元/升,2025年第15次油價調整,7月29日或再下跌

油價早知道
2025-07-23 09:22:43
簽了簽了!重新加盟湖人!你好,2米13大中鋒

簽了簽了!重新加盟湖人!你好,2米13大中鋒

籃球實戰寶典
2025-07-23 22:16:34
下一個塌房大佬會是誰?宗老崩了,CEO被辭退,網友:雷絕對有事

下一個塌房大佬會是誰?宗老崩了,CEO被辭退,網友:雷絕對有事

小丸子的娛樂圈
2025-07-23 12:51:13
硬氣!國防部發布新規,明確授權解放軍在警告無效時可直接開火

硬氣!國防部發布新規,明確授權解放軍在警告無效時可直接開火

大道無形我有型
2025-07-23 13:32:43
甘肅一景區收取300元“天價過路費”?當地文旅局:實際為深度游產品費用

甘肅一景區收取300元“天價過路費”?當地文旅局:實際為深度游產品費用

三湘都市報
2025-07-23 21:53:47
中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

中國可能在等,把三大主要問題解決了,再徹底解決臺灣問題

阿校談史
2025-07-24 00:32:09
第二個立陶宛出現了,主動邀請賴清德訪問,中國68年的友誼喂了狗

第二個立陶宛出現了,主動邀請賴清德訪問,中國68年的友誼喂了狗

一家說
2025-07-24 16:08:27
不是不想生,是不能生!35歲馬曉梅被迫放棄生育,質疑她的人淚目

不是不想生,是不能生!35歲馬曉梅被迫放棄生育,質疑她的人淚目

一盅情懷
2025-07-24 11:41:50
陳佩斯《戲臺》票房井噴,讓多少資方臉紅,黃渤這次又賭對了?

陳佩斯《戲臺》票房井噴,讓多少資方臉紅,黃渤這次又賭對了?

東方不敗然多多
2025-07-22 17:27:31
外媒:潘展樂如今和波波維奇不是一個級別,46秒71足夠戰勝中國潘

外媒:潘展樂如今和波波維奇不是一個級別,46秒71足夠戰勝中國潘

春序娛樂
2025-07-23 18:02:32
北京2025年養老金調整方案公布,繼續提低控高,65歲多漲,很良心

北京2025年養老金調整方案公布,繼續提低控高,65歲多漲,很良心

探源歷史
2025-07-24 14:35:25
人社部要求及時調整養老金!六省已開放查詢,廣東、四川新增上線

人社部要求及時調整養老金!六省已開放查詢,廣東、四川新增上線

史行途
2025-07-24 10:30:31
張柏芝現身機場,上身臃腫走形,頭發亂成雞窩,大方送粉絲盲盒

張柏芝現身機場,上身臃腫走形,頭發亂成雞窩,大方送粉絲盲盒

新語愛八卦
2025-07-24 17:43:08
1985年,叛逃臺灣飛行員蕭天潤娶到了頂級美人,多年后他卻后悔了

1985年,叛逃臺灣飛行員蕭天潤娶到了頂級美人,多年后他卻后悔了

百態人間
2025-07-15 16:40:45
馬斯克開的特斯拉餐廳,真模仿不了一點!

馬斯克開的特斯拉餐廳,真模仿不了一點!

餐觀局
2025-07-23 22:02:51
暴雨黃色預警!四川盆地局地將迎大暴雨

暴雨黃色預警!四川盆地局地將迎大暴雨

四川省教育廳
2025-07-24 12:06:58
西班牙與英格蘭連續三年在大賽決賽相遇,前兩次西班牙均取勝

西班牙與英格蘭連續三年在大賽決賽相遇,前兩次西班牙均取勝

懂球帝
2025-07-24 05:55:07
出發新加坡,陳芋汐變美,陳若琳陪伴14歲黑馬,誰注意全紅嬋舉動

出發新加坡,陳芋汐變美,陳若琳陪伴14歲黑馬,誰注意全紅嬋舉動

東球弟
2025-07-24 12:41:04
2025-07-24 18:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10920文章數 176194關注度
往期回顧 全部

科技要聞

對話谷歌高管:營銷不懂用戶 AI也救不了你

頭條要聞

女子面試后想刪身份證手機號被打致骨折 涉事公司回應

頭條要聞

女子面試后想刪身份證手機號被打致骨折 涉事公司回應

體育要聞

兒薩夢成真!巴薩曬視頻 拉什福德笑得合不攏嘴

娛樂要聞

梓渝又翻車!正宮2號說他約P共同好友

財經要聞

中國,這一步棋實在太厲害

汽車要聞

體驗全新一代博越 標配智慧座艙 還有新中式設計

態度原創

數碼
教育
本地
旅游
公開課

數碼要聞

聯想IdeaPad系列筆記本出貨量突破1億臺

教育要聞

徐杰:從“感受”到“沉入”——“精致語文” 如何重塑課堂與學習?

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 龙南县| 鄂伦春自治旗| 凤庆县| 紫云| 太仆寺旗| 大余县| 安溪县| 建宁县| 永仁县| 石嘴山市| 陆丰市| 弥渡县| 中方县| 嵩明县| 峨山| 乡城县| 汶川县| 神农架林区| 河北区| 花莲市| 芒康县| 平南县| 唐河县| 凤台县| 山阴县| 贺兰县| 广东省| 响水县| 昌平区| 镇远县| 孟津县| 新绛县| 类乌齐县| 巩义市| 临江市| 英吉沙县| 九龙县| 满洲里市| 德兴市| 肃南| 平邑县|