自一個月前xbench公布第一期Leaderboard以來,AI大模型界又迎來了新一輪的“你追我趕”。
上周,xAI發布了“全球最強大的”Grok-4,兩天后,Kimi推出并開源了“一萬億參數”的K2模型。xbench對這兩個“新玩家”火速進行了測評,并發布新一期 雙軌評估體系(Dual Track) AGI進程(AGI Tracking)系列的 科學問題解答測評集(xbench-ScienceQA)榜單。
xbench采用長青評估機制,每月持續匯報最新模型的能力表現,更多榜單未來將陸續更新,期待你的關注。你可以在xbench.org上追蹤我們的工作和查看實時更新的Leaderboard榜單排名;歡迎通過team@xbench.org與我們取得聯系,反饋意見。
Science-QA Leaderboard更新
匯率取1USD=7.1491CNY
本次評估基本涵蓋了截至排行榜發布之日主流大語言模型(LLMs)的公開可用應用程序編程接口(APIs),未公開發布的內測模型未列入榜單。
如果一家公司有多個模型,優先測試最新版本和官方網站推薦的模型。所有模型均關閉搜索功能。
一家公司有多個模型時,排名中保留每家公司的最新模型版本。當同一推理模型存在不同的推理成本時,僅保留得分最高的版本。
榜單含Thinking和Non-Thinking模式,未區分成兩個榜單,榜單前10中Kimi K2為Non-Thinking模型,其余均為Thinking模型。
截止于2025年7月14日,與5月26日發布的Leaderboard相比,有6家模型發布的版本更新進入前10:
Grok-4:Grok-4相比同為推理模型的前作Grok-3-mini,在ScienceQA評測集上實現了42.6分至65.0分的巨大提升,提升了約50%。Grok-4超越了OpenAI的o3模型,成為ScienceQA評測集上的SOTA模型。
o3-pro:OpenAI o3-pro(medium)版本在ScienceQA評測集上達到59.6分,比o3(medium)的54.4分有一定提升,與o3(high)的60.8分相近。但模型的響應時間變長、API價格增加。
Gemini 2.5 Pro 0605:相比于同一模型的前序0506版本,價格不變,性能小幅提升到59.4分。
Doubao Seed 1.6:相比于Seed的前一版本Seed-1.5-pro,分數從53.6提升至56.6,同時相比1.5版本API價格下降約50%。
DeepSeek R1-0528:相比R1的前一版本,ScienceQA分數由50.4提升至54.6。
Kimi K2:最新的Kimi K2模型在ScienceQA中得分49.6,在榜單中位于Non-Thinking模型第一,BoN(N=5)分數為73.0,位居頭部梯隊。
在此測評集中,對來自16家公司的43個不同版本的模型進行了測試。模型得分的分布情況如下:
整體變化:xAI的Grok-4登頂SOTA、Moonshot AI的Kimi K2進入前10,OpenAI、Google、ByteDance 、DeepSeek、Anthropic等廠商的主流模型在xbench-ScienceQA榜單上的偏序和此前保持一致。
模型性能對比
下圖的橫軸為API輸出價格(USD/百萬tokens),縱軸為xbench-ScienceQA平均分。
高質高價區:Grok-4、o3-pro、Gemini 2.5 Pro處于右上方,分數領先但成本也顯著較高。Grok-4有更好的表現,且輸出價格$15只有o3-pro($80)的1/4不到,在同檔模型中最具競爭力。
性價比區:Doubao-Seed-1.6在保持56.6分高分的同時,輸出價格只需$1.1。與DeepSeek-R1同屬于最具性價比的模型。
響應速度對比
下圖的橫軸為平均響應時間,縱軸為xbench-ScienceQA平均分。
深度推理模型:推理模型整體表現出推理時間越長,分數越高的趨勢。Grok-4分數最高,平均回復時間(227s)也是最長的一檔。Gemini 2.5 Pro在保持高分(59.4)的同時,平均回復時間不到50s,接近非推理模型,在性能和延時上做到了最佳的平衡。
模型成本對比
下圖的橫軸為API價格(output是主要成本),縱軸為xbench-ScienceQA的BoN得分(N=5)。
BoN (N=5) 作為多步推理正確率指標,比平均分更直接反映模型在長鏈條任務中的潛在上限,可用來評估其作為Agent底座時能夠達到的上限。
Grok-4與o3-high以BoN=78并列總體第一,其次是DeepSeek-R1-0528(77)與Gemini 2.5 Pro 0605(76),但是DeepSeek的成本要顯著更低。
在國產模型陣營里,在DeepSeek(77)居首,Doubao-Seed-1.6與Kimi K2(均73)并列第二,成本在同一區間,為開發者選擇國產模型搭建復雜Agent時提供了更多的參考。
月度新模型和產品總結
Grok-4
Grok-4與Grok-4 Heavy是xAI于7月10日發布的全新推理模型,RL階段使用了其前代Grok-3十倍的算力投入,獲得了顯著的智能飛躍。從基礎版Grok-4,到支持原生工具調用的版本(Grok-4 w/Python+Internet),再到思考階段引入了多智能體協作模塊的Grok-4 Heavy,均橫掃了人類前沿科學領域的各個榜單(AIME/GPQA/LiveCodeBench/...),并在象征著人類專家級別最困難的智能基準測試Humanity's Last Exam中取得了前所未有的突破。
Grok-4在預訓練過程中即融入了原生tool use能力,并在RL階段注入了與預訓練相當的算力,追求從“第一性原理”出發推導因果。在思考階段,Grok-4引入了網頁實時檢索幫助事實判斷,并設計了由多個不同智能體平行思考協作的分布式推理模塊,并驗證了這種test-time scaling在模型智能提取上的有效性。
Kimi K2
Kimi K2是Moonshot AI于7月11日發布的開源權重MoE模型,高達1T的總參數量,32B的激活參數量,384個專家的超稀疏結構,是迄今為止最大的開源模型。發布的版本中包含純基座模型Kimi K2-Base與基于指令微調的Kimi K2-Instruct,兩者均為未經過RL強化學習訓練的非思考模型。但均已展現出出色的推理和agentic tool use能力。
Kimi K2萬億規模參數量的訓練主要得益于其在預訓練階段的幾大技術創新:首先,自創的MuonClip優化器實現15T token訓練過程全程的高效穩定;自研的智能體模擬pipeline涵蓋了數百場景數千工具,為模型在預訓練階段注入agentic tool use能力打下數據基礎。
o3-pro
o3-pro是openAI于6月10日發布的推理模型,針對科學、編程、寫作等領域做了專門優化,在可靠性上也有明顯的提升。相比前代具有更強大的推理能力,更容易生成符合人類偏好的回答。
o3-pro引入了更長(數倍于o3)的思考時間,適應于超長上下文(200k token的窗口)任務,展現出了出色的上下文理解和推理能力,與之而來的是簡單問題的過度思考現象。
評測集更新總結
xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch已于6月18日正式開源。
開源地址:
1.website:https://xbench.org/
2.github:https://github.com/xbench-ai/xbench-evals
3.huggingface:https://huggingface.co/datasets/xbench/ScienceQA
https://huggingface.co/datasets/xbench/DeepSearch
壹
貳
叁
肆
伍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.