網易首頁 > 網易號 > 正文申請入駐

Grok-4登頂，Kimi K2非思考模型SOTA，豆包、DeepSeek新模型性能提升｜xbench月報

2025-07-18 08:56:00　來源: 紅杉匯

北京舉報

分享至

自一個月前xbench公布第一期Leaderboard以來，AI大模型界又迎來了新一輪的“你追我趕”。

上周，xAI發布了“全球最強大的”Grok-4，兩天后，Kimi推出并開源了“一萬億參數”的K2模型。xbench對這兩個“新玩家”火速進行了測評，并發布新一期雙軌評估體系（Dual Track） AGI進程（AGI Tracking）系列的科學問題解答測評集（xbench-ScienceQA）榜單。

xbench采用長青評估機制，每月持續匯報最新模型的能力表現，更多榜單未來將陸續更新，期待你的關注。你可以在xbench.org上追蹤我們的工作和查看實時更新的Leaderboard榜單排名；歡迎通過team@xbench.org與我們取得聯系，反饋意見。

Science-QA Leaderboard更新

匯率取1USD=7.1491CNY
本次評估基本涵蓋了截至排行榜發布之日主流大語言模型（LLMs）的公開可用應用程序編程接口（APIs），未公開發布的內測模型未列入榜單。
如果一家公司有多個模型，優先測試最新版本和官方網站推薦的模型。所有模型均關閉搜索功能。
一家公司有多個模型時，排名中保留每家公司的最新模型版本。當同一推理模型存在不同的推理成本時，僅保留得分最高的版本。
榜單含Thinking和Non-Thinking模式，未區分成兩個榜單，榜單前10中Kimi K2為Non-Thinking模型，其余均為Thinking模型。

截止于2025年7月14日，與5月26日發布的Leaderboard相比，有6家模型發布的版本更新進入前10：

Grok-4：Grok-4相比同為推理模型的前作Grok-3-mini，在ScienceQA評測集上實現了42.6分至65.0分的巨大提升，提升了約50%。Grok-4超越了OpenAI的o3模型，成為ScienceQA評測集上的SOTA模型。

o3-pro：OpenAI o3-pro(medium)版本在ScienceQA評測集上達到59.6分，比o3(medium)的54.4分有一定提升，與o3(high)的60.8分相近。但模型的響應時間變長、API價格增加。

Gemini 2.5 Pro 0605：相比于同一模型的前序0506版本，價格不變，性能小幅提升到59.4分。

Doubao Seed 1.6：相比于Seed的前一版本Seed-1.5-pro，分數從53.6提升至56.6，同時相比1.5版本API價格下降約50%。

DeepSeek R1-0528：相比R1的前一版本，ScienceQA分數由50.4提升至54.6。

Kimi K2：最新的Kimi K2模型在ScienceQA中得分49.6，在榜單中位于Non-Thinking模型第一，BoN(N=5)分數為73.0，位居頭部梯隊。

在此測評集中，對來自16家公司的43個不同版本的模型進行了測試。模型得分的分布情況如下：

整體變化：xAI的Grok-4登頂SOTA、Moonshot AI的Kimi K2進入前10，OpenAI、Google、ByteDance 、DeepSeek、Anthropic等廠商的主流模型在xbench-ScienceQA榜單上的偏序和此前保持一致。

模型性能對比

下圖的橫軸為API輸出價格（USD／百萬tokens），縱軸為xbench-ScienceQA平均分。

高質高價區：Grok-4、o3-pro、Gemini 2.5 Pro處于右上方，分數領先但成本也顯著較高。Grok-4有更好的表現，且輸出價格$15只有o3-pro（$80）的1/4不到，在同檔模型中最具競爭力。

性價比區：Doubao-Seed-1.6在保持56.6分高分的同時，輸出價格只需$1.1。與DeepSeek-R1同屬于最具性價比的模型。

響應速度對比

下圖的橫軸為平均響應時間，縱軸為xbench-ScienceQA平均分。

深度推理模型：推理模型整體表現出推理時間越長，分數越高的趨勢。Grok-4分數最高，平均回復時間（227s）也是最長的一檔。Gemini 2.5 Pro在保持高分（59.4）的同時，平均回復時間不到50s，接近非推理模型，在性能和延時上做到了最佳的平衡。

模型成本對比

下圖的橫軸為API價格（output是主要成本），縱軸為xbench-ScienceQA的BoN得分（N=5）。

BoN (N=5) 作為多步推理正確率指標，比平均分更直接反映模型在長鏈條任務中的潛在上限，可用來評估其作為Agent底座時能夠達到的上限。

Grok-4與o3-high以BoN=78并列總體第一，其次是DeepSeek-R1-0528（77）與Gemini 2.5 Pro 0605（76），但是DeepSeek的成本要顯著更低。

在國產模型陣營里，在DeepSeek（77）居首，Doubao-Seed-1.6與Kimi K2（均73）并列第二，成本在同一區間，為開發者選擇國產模型搭建復雜Agent時提供了更多的參考。

月度新模型和產品總結

Grok-4

Grok-4與Grok-4 Heavy是xAI于7月10日發布的全新推理模型，RL階段使用了其前代Grok-3十倍的算力投入，獲得了顯著的智能飛躍。從基礎版Grok-4，到支持原生工具調用的版本（Grok-4 w/Python+Internet），再到思考階段引入了多智能體協作模塊的Grok-4 Heavy，均橫掃了人類前沿科學領域的各個榜單（AIME/GPQA/LiveCodeBench/...），并在象征著人類專家級別最困難的智能基準測試Humanity's Last Exam中取得了前所未有的突破。

Grok-4在預訓練過程中即融入了原生tool use能力，并在RL階段注入了與預訓練相當的算力，追求從“第一性原理”出發推導因果。在思考階段，Grok-4引入了網頁實時檢索幫助事實判斷，并設計了由多個不同智能體平行思考協作的分布式推理模塊，并驗證了這種test-time scaling在模型智能提取上的有效性。

Kimi K2

Kimi K2是Moonshot AI于7月11日發布的開源權重MoE模型，高達1T的總參數量，32B的激活參數量，384個專家的超稀疏結構，是迄今為止最大的開源模型。發布的版本中包含純基座模型Kimi K2-Base與基于指令微調的Kimi K2-Instruct，兩者均為未經過RL強化學習訓練的非思考模型。但均已展現出出色的推理和agentic tool use能力。

Kimi K2萬億規模參數量的訓練主要得益于其在預訓練階段的幾大技術創新：首先，自創的MuonClip優化器實現15T token訓練過程全程的高效穩定；自研的智能體模擬pipeline涵蓋了數百場景數千工具，為模型在預訓練階段注入agentic tool use能力打下數據基礎。

o3-pro

o3-pro是openAI于6月10日發布的推理模型，針對科學、編程、寫作等領域做了專門優化，在可靠性上也有明顯的提升。相比前代具有更強大的推理能力，更容易生成符合人類偏好的回答。

o3-pro引入了更長（數倍于o3）的思考時間，適應于超長上下文（200k token的窗口）任務，展現出了出色的上下文理解和推理能力，與之而來的是簡單問題的過度思考現象。

評測集更新總結

xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch已于6月18日正式開源。

開源地址：

1.website:https://xbench.org/

2.github:https://github.com/xbench-ai/xbench-evals

3.huggingface:https://huggingface.co/datasets/xbench/ScienceQA

https://huggingface.co/datasets/xbench/DeepSearch

壹

貳

叁

肆

伍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.