99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

楊植麟交卷,Kimi 萬億參數K2開源:Agent能力緊逼Anthropic,延展DeepSeek,上手實測如何?

0
分享至


作者 | 周一笑、董道力、Yoky

沒有預熱,也沒有發布會,月之暗面在2025年7月11日深夜選擇直接開源Kimi K2 。就在當天,Kimi K2模型悄無聲息地出現在Hugging Face上,官網、App和API同步開放,模型參數、訓練細節等信息也一并放出 。

這次發布的Kimi K2是一個萬億(1T)參數規模的混合專家(MoE)模型,激活參數為320億 。其核心能力發生了清晰的轉向,Kimi此前的標簽是長文本,而K2則為智能體任務(agentic tasks)做了專門優化。

官方展示的例子很能說明問題,比如Kimi K2可以接收一個模糊的需求,通過17次工具調用,自主完成包含航班和酒店預訂的旅行規劃 ;或是執行16次數據分析指令,完成一份專業的薪資分析報告。

在榜單方面,它在SWE Bench Verified(編程)、Tau2(智能體)、AceBench(工具調用)這三項基準測試中是開源模型表現最好的

在自主編程(Agentic Coding)、工具調用(Tool Use)和數學推理(Math & Reasoning)這三個能力維度上,Kimi K2也緊逼Claude 4 Opus、OpenAI GPT-4.1等閉源模型。


月之暗面此次開源了兩個版本,一個是適合做后續研究和定制化開發的Kimi-K2-Base基礎模型,另一個是能直接用于通用聊天和智能體場景的Kimi-K2-Instruct指令微調模型 。

任何模型都有它的取舍和待解問題。那個以超長上下文能力深入人心的Kimi,這次在K2上只配置了128K的窗口雖然以及對表主流模型,但這背后很可能是在當前階段,優先將資源投入到提升模型的代碼和Agent能力上。

另一個現實問題是運行門檻。官方部署指南明確指出,在主流H200等平臺上運行Kimi-K2的FP8版本并支持128k上下文,最小硬件需求是一個由16塊GPU組成的集群 。盡管模型在vLLM、SGLang等主流推理框架上提供了詳細的部署方案,并支持張量并行、專家并行等多種策略來適配不同規模的集群 ,但這個基礎的硬件門檻,已將絕大多數個人開發者和中小團隊排除在本地化部署之外。這種對大規模、高I/O性能集群的依賴,是其強大能力背后普通用戶難以企及的成本。

一些開發者已經在自己嘗試把它跑在2個蘋果M3芯片的環境里,并表示運轉良好。但要提供更好的本地和低資源環境的可用性,還需要Kimi官方的量化版本。

Kimi K2的發布,是楊植麟在給月之暗面調整方向后,交出的一份重要答卷。

DeepSeek出現證明了開源的價值以及底層模型能力依然是競爭的基石,它甚至會“摧毀”在模型單一能力上優化并用在c端產品里然后快速推廣的競爭策略。

之后Kimi開始在技術上全線轉向預訓練,并步步緊跟DeepSeek。2025年2月,兩家幾乎同時發表論文,挑戰Transformer的注意力效率問題,DeepSeek提出了NSA(原生稀疏注意力)架構,月之暗面則提出了MoBA(混合塊注意力)架構。兩者都試圖解決模型處理長文本時的效率瓶頸。清華大學教授章明星曾對此評論,這說明兩家頂尖團隊對技術演進的方向得出了相似的結論 。但這次K2在文本長度上一般,似乎還沒把MoBA徹底用上。

另外,與MiniMax等對手的做法不太相同的地方在于,Kimi此次的開源模型,架構上選擇了DeepSeek開發和依賴的MLA(多頭潛在注意力),目前技術報告還沒發布,從Hugging Face的信息來看,Kimi K2用了結構類似DeepSeek V3的MLA,專家數增加到了384個,激活專家保持在8個。

在優化器上Kimi此前的工作也成了此次模型關鍵。要訓練萬億模型,通用的AdamW優化器已面臨挑戰。Kimi此前選擇了在更新的Muon優化器上深度投入 ,并針對大規模訓練中的不穩定性,提出了MuonClip技術,最終支撐了K2在15.5萬億token數據量下的平穩訓練。

這些技術投入背后還有一個清晰的技術賭注:“模型即Agent,Agent即模型”的理念。

在K2發布前,月之暗面就通過Kimi-Researcher產品展示了其對智能體的理解——追求一種“零結構”的智能體,不依賴人類預設流程,而是通過端到端的強化學習,讓模型在真實的任務反饋中自主學習如何思考、規劃和使用工具 。為了實現這一點,Kimi K2在可驗證任務(如代碼和數學)上進行強化學習的同時,還通過引入“自我評價(self-judging)”機制,解決了在開放性、非驗證類任務上的獎勵稀缺問題,從而提升了模型的泛化表現。

將這些線索串聯起來看,Kimi K2的開源更像是楊植麟給Kimi重新定位后交出的第一個答卷。其實看看這一路的各種動作,會發現這個團隊一直有一個明顯的特征,他們在技術上還是想爭一口氣,這體現在他們總會有一個自己的“賭注”,此前是長文本,今天就是Agent,然后圍繞一個點,做取舍,押注,交卷。

1

實測K2,瞄準Anthropic的Agent能力

此次Kimi選擇先全線上線給用戶使用的策略,我們也第一時間上手測了測它的實際能力。

首先是一個“打字游戲”。

我們在cline上接入kimi k2模型,并嘗試復現一個中文版打字游戲。

prompts:做一個“打字”游戲,頁面上跳出來一句話,用戶需要在規定時間內,把這句話打出來。




我們在prompts中只簡單描述了一下游戲玩法,而kimi k2自動生成了“需求分析”和“技術方案”,并且針對游戲功能還進行了補充,如進度條、得分系統等。在游戲生成后,kimi k2寫了一份簡單的游戲介紹,包含了操作說明和游戲特點。

而且,kimi k2的打字游戲一次生成完成度就很高,可以直接運行,基本沒有bug。

項目網址:https://ddlpmj.github.io/pw_kimik2_test/

此外,瀏覽網頁獲取信息并作出規劃,也是Agent的重要能力體現之一。

prompts:我喜歡音樂節,我希望你可以幫我找一下今年各大音樂節的名稱、行程等,做成日歷清單,并以html的形式整理出來。

我們嘗試讓kimi k2幫我們做一份“音樂節日歷清單”,并以網頁的形式展現出來。和打字游戲一樣,kimi k2除了prompts中的要求,還像個助理一樣,補充了音樂節的其他信息,如地點、是否確認舉辦等。



在成品頁面設計中,kimi k2還做了規劃,如1-3月舉行的音樂節在同一頁面展示,4-6月的在另一頁面展示。鼠標移動到具體的音樂節上,還會有放大的特效。


能否取得大量數據,并從中做出洞察也是我們考驗的能力之一。我們下載了近5年的上上證指數數據,共1214條,交給kimi k2進行分析。

prompts:@/000001perf.xlsx 這是一份上證指數數據,分析數據并做一份分析報告,報告中要包含圖表

可以發現,kimi k2決定用python進行報告生成,為了讀取表格文件和生成圖表,它會自動檢查有沒有pyhton相對應的庫,并進行下載。

在指標上,kimi k2會自動挑選有代表性的進行分析,如最高/低日成交額,數據波動等。



從分析報告成品來看,kimi k2先生成圖表,后生成分析報告,最后將二者結合,邏輯比較順暢。此外,kimi k2生成的圖表形式多樣,趨勢線、熱力散點圖等都有。

并且kimi k2基本找出了上證指數的特點。



為了測試K2的風格化文本生成能力,我們選擇了一個具有挑戰性的任務:讓它模仿知名脫口秀演員付航的表演風格,創作一段300字的脫口秀段子。

測試結果顯示,K2確實展現出了一定的風格模仿能力。從表面看,生成的文本在語言節奏和表達方式上有那么幾分相似,但仔細分析后發現,它并沒有真正捕捉到付航段子的核心特質。


初次生成的內容存在明顯的邏輯混亂問題,讀起來讓人摸不著頭腦,甚至難以理解基本的表達意圖。經過參數調整和prompt優化后,第二次的輸出在可理解性方面有了顯著提升,至少能夠清晰地傳達想要表達的內容,但依舊不好笑。


不過值得注意的是,K2在最近的升級中展現出了一個有趣的變化趨勢。它的文本表達風格明顯向R1靠攏,開始頻繁使用一些頗為華麗的比喻和相對復雜的措辭。這很可能也跟Kimi K2在訓練中對合成數據的使用有關。


更多的細節等待它的官方技術報告來揭秘。

在Kimi的英文技術博客里,它也直接取名:Kimi K2: Open Agentic Intelligence。在此之前,Anthropic的Claude是把自己和Agent能力捆綁最緊密的模型系列,并且也同樣在聚焦Agent能力同時沒有太多去提高多模態等能力。此次K2對標Claude的思路很明顯,在模型能力上也做了很明顯的取舍。

根據Kimi透露,K2現在已具備復雜指令集解析能力,可以兼容Anthropic等的API接口,可以無縫接入Cline,owl等Agent框架。在社區里,各種對K2的實測也紛紛出現。其中不少開發者也表達了對實測上手K2在Agent能力上的驚艷。甚至已經有人“開發”出把Claude Code里的Claude模型替換成Kimi K2的方法,并且表示可以用來平替。

接下來可能可以期待Kimi 的產品上,也會像Claude那樣衍生出更多功能,預訓練模型的進展最終真正“反哺”到它C端產品上,然后Make Kimi great again。

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
玥兒姐弟剛到北京,S媽深夜就提3條件“尋伴”,網友:咋不找女婿

玥兒姐弟剛到北京,S媽深夜就提3條件“尋伴”,網友:咋不找女婿

白面書誏
2025-07-12 19:38:57
3-1,中國女排晉級總決賽,聽聽媒體專家怎么說,副攻需要提升

3-1,中國女排晉級總決賽,聽聽媒體專家怎么說,副攻需要提升

鄒維體育
2025-07-12 10:53:23
央視直播美國大滿貫13日賽程,林詩棟對張本智和,王楚欽戰勒布倫

央視直播美國大滿貫13日賽程,林詩棟對張本智和,王楚欽戰勒布倫

乒乓球球
2025-07-12 16:37:55
山東女子500元被賣掉,受養父嚴重虐待:耳朵被撕裂,尾椎骨被打斷!18歲創業現擁有三家工廠,尋親成功后欲討公道

山東女子500元被賣掉,受養父嚴重虐待:耳朵被撕裂,尾椎骨被打斷!18歲創業現擁有三家工廠,尋親成功后欲討公道

揚子晚報
2025-07-12 08:45:32
張本智和4-2林昀儒晉級WTT美國大滿貫男單4強,半決賽將戰林詩棟

張本智和4-2林昀儒晉級WTT美國大滿貫男單4強,半決賽將戰林詩棟

直播吧
2025-07-12 13:10:07
巴基斯坦從中國買什么,我就從中國買什么,買回去一起打印度

巴基斯坦從中國買什么,我就從中國買什么,買回去一起打印度

書中自有顏如玉
2025-07-12 15:40:32
太難了!從身價幾千萬到負債1200多萬,朋友轉20000鼓勵他活下去

太難了!從身價幾千萬到負債1200多萬,朋友轉20000鼓勵他活下去

明月雜談
2025-07-12 06:13:12
火箭三老臣表現糟糕,26歲后衛愈發低效,一主力得分掛蛋

火箭三老臣表現糟糕,26歲后衛愈發低效,一主力得分掛蛋

謝說籃球
2025-07-12 16:40:32
朱媛媛剛走,曹穎也自曝患癌:沒多少時間了,害怕看不到兒子長大

朱媛媛剛走,曹穎也自曝患癌:沒多少時間了,害怕看不到兒子長大

子芫伴你成長
2025-05-22 22:06:13
東亞杯不敵日本!國足依然0分0進球

東亞杯不敵日本!國足依然0分0進球

湖報體育
2025-07-12 20:26:06
死亡率高達70%!天津重癥醫學科醫生緊急提醒:高溫天,千萬別干這些事!

死亡率高達70%!天津重癥醫學科醫生緊急提醒:高溫天,千萬別干這些事!

環球網資訊
2025-07-11 21:55:06
哲凱賴什三戲曼聯!曝拉爵簽新中鋒策略,1500萬分成到手有助買人

哲凱賴什三戲曼聯!曝拉爵簽新中鋒策略,1500萬分成到手有助買人

羅米的曼聯博客
2025-07-12 10:54:35
華為天才少年彭志輝:拒絕華為201萬年薪,選擇離開,如今怎樣?

華為天才少年彭志輝:拒絕華為201萬年薪,選擇離開,如今怎樣?

君好伴讀
2025-04-24 16:10:03
阿里納斯:18年西決火箭三分27連鐵 期間哈登被犯規但裁判不吹

阿里納斯:18年西決火箭三分27連鐵 期間哈登被犯規但裁判不吹

直播吧
2025-07-12 20:35:23
恭喜曼聯,4大待售賣出一個,昔日1億巨星,折價80%

恭喜曼聯,4大待售賣出一個,昔日1億巨星,折價80%

體育全天候
2025-07-11 22:29:03
巨額罰單,落地!

巨額罰單,落地!

中國基金報
2025-07-12 13:11:10
韋東奕終于去醫院了,牙齒問題尚未解決,卻又發現了不少其他毛病

韋東奕終于去醫院了,牙齒問題尚未解決,卻又發現了不少其他毛病

自娛眾樂
2025-07-10 17:24:06
天水鉛超標幾千倍的糕點,是加了什么顏料?疑點浮出,細思極恐!

天水鉛超標幾千倍的糕點,是加了什么顏料?疑點浮出,細思極恐!

烏娛子醬
2025-07-10 14:11:34
臺軍深夜闖大禍,24小時內未戰先衰,賴清德的重重謀算,全部泡湯

臺軍深夜闖大禍,24小時內未戰先衰,賴清德的重重謀算,全部泡湯

掌青說歷史
2025-07-11 15:19:49
58歲地鐵司機退休前爆料:深夜車廂多出5節,里面坐滿穿旗袍的人

58歲地鐵司機退休前爆料:深夜車廂多出5節,里面坐滿穿旗袍的人

內向的故事小生
2025-07-07 13:58:46
2025-07-12 21:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2332文章數 10350關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

媒體:3萬億公積金放"大招" 真的可以用來付首付了

頭條要聞

媒體:3萬億公積金放"大招" 真的可以用來付首付了

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

鹿晗賬號解禁后首曬自拍,漲粉超400萬

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

數碼
房產
游戲
親子
旅游

數碼要聞

聯想、惠普、機械革命都來BW25了,B站話語權這么強了?

房產要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

《羊蹄山》選角再引爭議 網友:"喜美子"演員是更優選

親子要聞

寶藍和爸爸在商場玩躲貓貓!爸爸怎么找都找不到,隱藏的太好了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 巴中市| 分宜县| 勃利县| 台江县| 武陟县| 尼木县| 新巴尔虎左旗| 兴业县| 阳城县| 项城市| 河源市| 锡林郭勒盟| 九龙坡区| 思南县| 济宁市| 盐源县| 合江县| 兴仁县| 邵东县| 海南省| 南川市| 乐平市| 麻江县| 蕲春县| 德州市| 肇源县| 绥中县| 探索| 渭南市| 砚山县| 叙永县| 中江县| 友谊县| 探索| 麻栗坡县| 阳东县| 上犹县| 巨鹿县| 台南市| 乳源| 宁南县|