99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<dfn id="wm3xi"></dfn>

<table id="wm3xi"><strong id="wm3xi"></strong></table>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Kimi K2技術報告出爐：訓練不靠刷題靠“用自己的話再講一遍”

2025-07-22 15:15:05　來源: 量子位

北京舉報

0

分享至

Kimi K2稱霸全球開源模型的秘籍公開了！

沒錯，就是整整32頁的Kimi K2官方技術報告。業內人士第一波repo已火速出爐：

這篇論文中有很多令人印象深刻的內容。

nice！它分享了很多關于Kimi（以及中國實驗室）對這些模型的看法（他們關注/優化的內容）

Kimi K2，作為Kimi最新MoE基礎模型，總參數1T，激活參數32B，能力領先性尤其展現在代碼、Agent、數學推理任務上。

上線僅一周，它就在競技場千人盲評中擊敗DeepSeek，登頂全球最強開源模型，而且能媲美Grok 4、GPT 4.5等頂尖閉源模型。

那它是咋做到的呢？

別急，這篇最新論文來給答案了——一次性大公開Kimi K2的訓練過程及“秘密配方”。

包括但不限于大家已經熱議的：MuonClip優化器、大規模Agentic Tool Use數據合成、通用強化學習等等。

下面詳細來看。

都有哪些技術亮點

首先，Kimi團隊認為，現如今大語言模型正從靜態模仿學習向Agentic Intelligence轉型。

這意味著，模型需要具備在復雜動態環境中自主感知、規劃、推理和行動的能力。

要實現這一點，當面人們面臨兩大挑戰：

預訓練需在高質量數據有限的約束下，通過提升每token效率構建通用先驗（universal prior）。
后訓練需將先驗轉化為可行動行為，但Agentic能力在自然數據中稀缺且難以規模化。

對此，團隊在Kimi K2中采用了三大核心創新技術：

1、MuonClip優化器：拋棄傳統的Adam優化器，創新性地使用了Muon優化器。結合Muon的token效率與QK-Clip的穩定性，支持15.5萬億token無損失spike預訓練。

2、大規模Agentic Tool Use數據合成：構建可大規模生成多輪工具使用場景的合成pipeline，覆蓋數百領域、數千工具。

3、通用強化學習框架：結合可驗證獎勵（RLVR）和自我批判評估獎勵，將對齊從靜態擴展到開放域。

得益于以上技術，Kimi K2在SWE Bench Verified、Tau2、AceBench等基準性能測試中，均取得開源模型中的SOTA成績。

以下為技術細節部分：

預訓練階段

在Kimi K2預訓練階段，團隊主要對優化器和數據進行了優化。

整體而言，其預訓練采用了MoE架構+穩定優化器+高效token利用這一全新組合拳，以此構建通用語言和推理能力。

模型架構上，一共包含384個專家，每層激活其中8個，通過這種高度稀疏的設計在保證性能的同時優化計算效率。

在注意力機制上，K2使用MLA（Multi-head Latent Attention）結構代替傳統的密集注意力（dense attention），有效減少了計算量和帶寬壓力。

而且將每層的注意力頭數量降至64個，與同類模型相比進一步降低了推理過程中的資源消耗，使模型能更好地處理長上下文。

優化器選擇上，K2采用了MuonClip優化器，其核心是在Muon優化器基礎上融合了QK-Clip機制。

這一機制會定期檢查模型注意力的關鍵參數（query和key），如果它們的值太大，就自動“收緊”，防止計算過程出現異常，從而顯著提升了訓練穩定性。

團隊最終也發現，借助MuonClip可讓K2在15.5萬億token的預訓練過程中實現零損失spike，確保了大規模訓練的連續性和有效性。

數據方面，其核心目標為，在高質量數據有限時，通過提升每token的有效學習信號（token效用）來增強訓練效率，避免重復訓練導致的過擬合。

而為了讓模型“吃透”有限的優質訓練數據，K2團隊采取了一種所謂的“重述法”。

對知識類文本：不是簡單重復讀，而是換著說法再講一遍。
對數學類文本：把枯燥的教材式內容改寫成更易理解的“學習筆記”風格，還加入了多語言版本的翻譯文本，讓模型見多識廣。

一言以蔽之，K2的訓練數據覆蓋網頁、代碼、數學、知識四大板塊，所有數據都經過嚴格的質量篩選，確保模型學到的都是有用的信息。

而且它不是靠“多刷題”訓練出來的，而是靠“換種說法講一遍”讓模型真正理解知識。

用重寫 10 次的數據訓練 1 輪（28.94%），其準確率超過了用原始數據訓練 10 輪（23.76%）的結果。

概括而言，K2采用了與DeepSeek-V3相似的多頭潛在注意力（MLA），具體對比如下：

后訓練階段

K2后訓練階段主要涉及監督微調和強化學習。

值得一提的就是大規模Agentic Tool Use數據合成，主要流程如下：

工具生成：3000多真實MCP工具+20000多合成工具，覆蓋金融、機器人控制等領域；
Agentic與任務生成：為工具集生成多樣化Agentic（系統提示+工具組合）和帶評估標準的任務；
軌跡生成：模擬用戶交互、工具執行環境（含狀態更新和隨機結果），生成多輪工具使用軌跡；
結合真實執行沙箱（如編碼任務），確保數據真實性。

最終，Judge Agent會依據任務rubrics對軌跡質量進行判斷，只保留高質量樣本用于訓練。

這一過程本質上是一種大規模拒絕采樣（rejection sampling）機制，結合模擬規模與真實反饋，實現了大范圍、高保真的訓練數據構建。

而在強化學習階段，K2主要經歷了三大步驟：

第一，構建可驗證的獎勵環境（Verifiable Rewards Gym）。

簡單說，團隊為不同任務設計了“可打分”的訓練場景，讓模型的表現可以被客觀評估。

比如對于編碼場景，團隊利用真實世界的數據（如程序競賽題目、GitHub的PR和issue）構建任務，并通過自動化測試來驗證模型的代碼是否正確運行。

第二，除了外部評判，還訓練模型自己評估自己，即引入自我評估獎勵機制（Self-Critique Rubric Reward）。

具體而言，模型會將自己的多個輸出結果進行兩兩比較，并根據一套明確的標準（如語言清晰度、對話是否連貫、是否啰嗦或拍馬屁）給出獎勵分，同時還引入一些規則約束（如“不要無腦稱贊用戶”）來避免生成套路化或迎合性回答。

這個機制不僅增強了模型的自我反饋能力，也能將客觀任務中的評估信號遷移到主觀對話場景（如回答開放性問題等人類主觀評判場景），形成閉環優化。

第三，為了更高效、穩定地進行強化學習訓練，K2還對算法進行了多項改進。

包括但不限于下面這些：

預算控制機制：限制每個樣本的最大token數，避免生成啰嗦、重復或無意義的長文本。
引入PTX輔助損失：使用高質量預訓練樣本時再加一個損失項，以防模型在RL階段“遺忘”已有知識。
溫度衰減策略：訓練初期用高溫度鼓勵模型大膽嘗試、廣泛探索，后期逐步降低溫度，讓模型輸出更穩定、更收斂。

最后據論文介紹，K2的訓練依托于由NVIDIA H800構成的大規模高帶寬GPU集群，通過混合并行策略，既保證了訓練效率，又能在不同規模資源下靈活適配。

每個節點配備2TB內存，并通過NVLink和NVSwitch將8塊GPU在節點內部高速互聯。不同節點之間則使用8×400 Gbps的RoCE網絡互聯，以實現節點間的高效通信。

One More Thing

就在剛剛，阿里通義Qwen3模型也更新了——

正式由Qwen3-235B-A22B更新至Qwen3-235B-A22B-2507。

官方表示，他們停用了混合思維模式，改為分別訓練Instruct和Thinking模型以提升質量，并正式發布性能更強的 Qwen3-235B-A22B-Instruct-2507及其FP8版本。

而且官方測評顯示，最新版Qwen3又擊敗了Kimi K2模型，開源新王或將再次易主。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

豐田研究院發布機器人大行為模型研究，單一模型掌握數百項任務

DeepTech深科技 2025-07-22 18:37:08
12 跟貼 12
五倍推理加速，激發自回歸潛能，蘋果新工作讓LLM預測未來

機器之心Pro 2025-07-24 16:15:03
0 跟貼 0

幫你識別一下關于AI的那些“裝腔作勢”

秦朔朋友圈 2025-07-24 00:15:09
1 跟貼 1

ICML 2025 | 大模型能在信息不完備的情況下問出正確的問題嗎？

機器之心Pro 2025-07-24 16:14:06
0 跟貼 0
人工智能在網絡安全中的應用與挑戰

通信世界 2025-07-24 14:35:04
0 跟貼 0

浙大校友打造AI代碼測試神器，零代碼零bug，30分鐘創建網站

量子位 2025-07-24 13:33:46
1 跟貼 1

MCU：全球首個生成式開放世界基準，革新通用AI評測范式

機器之心Pro 2025-05-13 17:16:26
22 跟貼 22
AI音頻生成重要突破！清華×生數科技最新研究被ACM頂會收錄

智東西 2025-07-23 20:13:42
1 跟貼 1

DeepMind掌門自曝AGI倒計時5年！算力需求暴增10倍，推理計算吞噬一切

新智元 2025-07-24 17:51:41
0 跟貼 0
「Manus+景鯤」領銜主演，華人AI Agent全球狂歡

36氪 2025-07-24 18:09:08
0 跟貼 0
首個“主任級AI醫生”來了，AI正成為患者問診第一站

鈦媒體APP 2025-07-24 18:04:06
0 跟貼 0
倒計時3天！鎖定直播，共赴 2025 WAIC云帆獎頒獎典禮&摯友之夜！

機器之心Pro 2025-07-24 17:44:55
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
豪門岳父被自家翻譯坑了不料農村女婿精通八國語言

艾尼剪影 2025-07-23 12:25:02
0 跟貼 0
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1
水滸傳唯一聰明的人，你知道是誰嗎，看完瞬間漲知識！

豆豆尬笑 2025-07-23 08:23:51
8 跟貼 8
Qwen3小升級即SOTA，開源大模型王座快變中國內部賽了

量子位 2025-07-22 13:06:32
24 跟貼 24
泰國軍方稱已出動F-16戰機摧毀柬方兩處軍事設施

央視新聞客戶端 2025-07-24 12:30:31
9384 跟貼 9384
男子在勞動仲裁中心崩潰大哭，女工作人員怒斥:你再這樣就出去！

爆料視頻 2025-07-24 10:52:45
9162 跟貼 9162
Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
0 跟貼 0
DeepSeek用的GRPO占用大量內存？有人給出了些破解方法

機器之心Pro 2025-02-07 14:49:06
1 跟貼 1
10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6
CMU華人團隊研發LegoGPT，打造包含47000個樂高結構數據集

DeepTech深科技 2025-05-10 17:44:13
0 跟貼 0
扛不住！男友的“有效道歉”有多絕？再冷漠的女人看到這個都會笑出來? |搞笑囧圖

采采 2025-07-24 17:15:29
1 跟貼 1
公司來了阿聯酋沙特大客戶，翻譯團束手無策，掃地阿姨竟流暢翻譯

小強凌凌柒 2025-07-23 14:57:51
0 跟貼 0
同樣1GB文本，為何中文訓練效果差？對話EleutherAI研究員Catherine，看懂多語言模型的“詛咒”與“祝福”

AI科技大本營 2025-07-23 16:05:53
0 跟貼 0
好不容易等來了的翻譯，沒想到是火上澆油

魚餅沒有魚 2025-07-22 16:50:08
1 跟貼 1
胖翻譯吃西瓜不想給錢沒曾想看到賣西瓜的當場直接嚇傻

百事影視君 2025-07-24 14:10:07
1 跟貼 1
外國網友看：殲36戰斗機隱身雷達技術突破震撼來襲！

近代風云傳 2025-07-24 05:20:36
0 跟貼 0
首個多模態工業信號基座模型FISHER，權重已開源，來自清華&上交

機器之心Pro 2025-07-24 11:36:25
0 跟貼 0
大語言模型上車，軟硬結合是關鍵

NVIDIA英偉達中國 2025-07-24 13:17:07
0 跟貼 0
打破西方知識理論，中國鈾礦大突破，中國為何總能逆天改命

龍哥軍事 2025-07-23 17:57:38
0 跟貼 0
迷你四驅車創始人田宮俊作去世，開創了日本塑料拼裝模型

澎湃新聞 2025-07-22 18:31:06
0 跟貼 0
落地看似簡單，其實真的很考驗技術與經驗，特別是大風天氣！

海報搞笑社 2025-07-24 10:33:34
1 跟貼 1
楊瀚森回青島！與各球員+工作人員握手，擁抱劉維偉，布滿記者

籃球資訊達人 2025-07-24 17:54:34
0 跟貼 0
清華食堂菜單像論文？網友：大學食堂的創新點果然比論文里的還多

生物學霸 2025-07-24 17:57:22
0 跟貼 0
“翻譯這個，我工資是你的”總監嘲笑道，門衛兒子用五種語言翻譯

海星動畫 2025-07-22 13:49:18
0 跟貼 0
在以前一斗糧食是多少斤？一起來看看農村80歲老人講述，長知識了

程傳農村小生活 2025-07-22 12:23:02
0 跟貼 0
社評：印度對華簽證的門檻還是太高了

環球網資訊 2025-07-24 00:15:43
3589 跟貼 3589
這還是需要技術得

小貓動漫 2025-07-24 09:43:42
3 跟貼 3

56歲許晴，終于活成了笑話？“風流成性”的代價太大了！

56歲許晴，終于活成了笑話？“風流成性”的代價太大了！

橙星文娛

2025-07-16 12:23:39

云南省紀委監委原駐省鄉村振興局紀檢監察組組長保劍接受審查調查

云南省紀委監委原駐省鄉村振興局紀檢監察組組長保劍接受審查調查

界面新聞

2025-07-24 15:34:58

油價大降0.84元/升，2025年第15次油價調整，7月29日或再下跌

油價大降0.84元/升，2025年第15次油價調整，7月29日或再下跌

油價早知道

2025-07-23 09:22:43

簽了簽了！重新加盟湖人！你好，2米13大中鋒

簽了簽了！重新加盟湖人！你好，2米13大中鋒

籃球實戰寶典

2025-07-23 22:16:34

下一個塌房大佬會是誰？宗老崩了，CEO被辭退，網友：雷絕對有事

下一個塌房大佬會是誰？宗老崩了，CEO被辭退，網友：雷絕對有事

小丸子的娛樂圈

2025-07-23 12:51:13

硬氣！國防部發布新規，明確授權解放軍在警告無效時可直接開火

硬氣！國防部發布新規，明確授權解放軍在警告無效時可直接開火

大道無形我有型

2025-07-23 13:32:43

甘肅一景區收取300元“天價過路費”？當地文旅局：實際為深度游產品費用

甘肅一景區收取300元“天價過路費”？當地文旅局：實際為深度游產品費用

三湘都市報

2025-07-23 21:53:47

中國可能在等，把三大主要問題解決了，再徹底解決臺灣問題

中國可能在等，把三大主要問題解決了，再徹底解決臺灣問題

阿校談史

2025-07-24 00:32:09

第二個立陶宛出現了，主動邀請賴清德訪問，中國68年的友誼喂了狗

第二個立陶宛出現了，主動邀請賴清德訪問，中國68年的友誼喂了狗

一家說

2025-07-24 16:08:27

不是不想生，是不能生！35歲馬曉梅被迫放棄生育，質疑她的人淚目

不是不想生，是不能生！35歲馬曉梅被迫放棄生育，質疑她的人淚目

一盅情懷

2025-07-24 11:41:50

陳佩斯《戲臺》票房井噴，讓多少資方臉紅，黃渤這次又賭對了？

陳佩斯《戲臺》票房井噴，讓多少資方臉紅，黃渤這次又賭對了？

東方不敗然多多

2025-07-22 17:27:31

外媒：潘展樂如今和波波維奇不是一個級別，46秒71足夠戰勝中國潘

外媒：潘展樂如今和波波維奇不是一個級別，46秒71足夠戰勝中國潘

春序娛樂

2025-07-23 18:02:32

北京2025年養老金調整方案公布，繼續提低控高，65歲多漲，很良心

北京2025年養老金調整方案公布，繼續提低控高，65歲多漲，很良心

探源歷史

2025-07-24 14:35:25

人社部要求及時調整養老金！六省已開放查詢，廣東、四川新增上線

人社部要求及時調整養老金！六省已開放查詢，廣東、四川新增上線

史行途

2025-07-24 10:30:31

張柏芝現身機場，上身臃腫走形，頭發亂成雞窩，大方送粉絲盲盒

張柏芝現身機場，上身臃腫走形，頭發亂成雞窩，大方送粉絲盲盒

新語愛八卦

2025-07-24 17:43:08

1985年，叛逃臺灣飛行員蕭天潤娶到了頂級美人，多年后他卻后悔了

1985年，叛逃臺灣飛行員蕭天潤娶到了頂級美人，多年后他卻后悔了

百態人間

2025-07-15 16:40:45

馬斯克開的特斯拉餐廳，真模仿不了一點！

馬斯克開的特斯拉餐廳，真模仿不了一點！

餐觀局

2025-07-23 22:02:51

暴雨黃色預警！四川盆地局地將迎大暴雨

暴雨黃色預警！四川盆地局地將迎大暴雨

四川省教育廳

2025-07-24 12:06:58

西班牙與英格蘭連續三年在大賽決賽相遇，前兩次西班牙均取勝

西班牙與英格蘭連續三年在大賽決賽相遇，前兩次西班牙均取勝

懂球帝

2025-07-24 05:55:07

出發新加坡，陳芋汐變美，陳若琳陪伴14歲黑馬，誰注意全紅嬋舉動

出發新加坡，陳芋汐變美，陳若琳陪伴14歲黑馬，誰注意全紅嬋舉動

東球弟

2025-07-24 12:41:04

追蹤人工智能動態

10920文章數 176194關注度

往期回顧全部

科技要聞

對話谷歌高管：營銷不懂用戶 AI也救不了你

頭條要聞

女子面試后想刪身份證手機號被打致骨折涉事公司回應

頭條要聞

女子面試后想刪身份證手機號被打致骨折涉事公司回應

體育要聞

兒薩夢成真!巴薩曬視頻拉什福德笑得合不攏嘴

娛樂要聞

梓渝又翻車！正宮2號說他約P共同好友

財經要聞

中國，這一步棋實在太厲害

汽車要聞

體驗全新一代博越標配智慧座艙還有新中式設計

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

教育

本地

旅游

公開課

數碼要聞

聯想IdeaPad系列筆記本出貨量突破1億臺

教育要聞

徐杰：從“感受”到“沉入”——“精致語文” 如何重塑課堂與學習？

本地新聞

換個城市過夏天|風拂鹽湖，躲進格爾木的盛夏清涼

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：龙南县| 鄂伦春自治旗| 凤庆县| 紫云| 太仆寺旗| 大余县| 安溪县| 建宁县| 永仁县| 石嘴山市| 陆丰市| 弥渡县| 中方县| 嵩明县| 峨山| 乡城县| 汶川县| 神农架林区| 河北区| 花莲市| 芒康县| 平南县| 唐河县| 凤台县| 山阴县| 贺兰县| 广东省| 响水县| 昌平区| 镇远县| 孟津县| 新绛县| 类乌齐县| 巩义市| 临江市| 英吉沙县| 九龙县| 满洲里市| 德兴市| 肃南| 平邑县|

<wbr id="yluxc"><fieldset id="yluxc"></fieldset></wbr>

<em id="yluxc"></em>