99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Grok-4登頂,Kimi K2非思考模型SOTA,豆包、DeepSeek新模型性能提升|xbench月報

0
分享至



自一個月前xbench公布第一期Leaderboard以來,AI大模型界又迎來了新一輪的“你追我趕”。

上周,xAI發布了“全球最強大的”Grok-4,兩天后,Kimi推出并開源了“一萬億參數”的K2模型。xbench對這兩個“新玩家”火速進行了測評,并發布新一期 雙軌評估體系(Dual Track) AGI進程(AGI Tracking)系列的 科學問題解答測評集(xbench-ScienceQA)榜單。

xbench采用長青評估機制,每月持續匯報最新模型的能力表現,更多榜單未來將陸續更新,期待你的關注。你可以在xbench.org上追蹤我們的工作和查看實時更新的Leaderboard榜單排名;歡迎通過team@xbench.org與我們取得聯系,反饋意見。

Science-QA Leaderboard更新


  • 匯率取1USD=7.1491CNY

  • 本次評估基本涵蓋了截至排行榜發布之日主流大語言模型(LLMs)的公開可用應用程序編程接口(APIs),未公開發布的內測模型未列入榜單。

  • 如果一家公司有多個模型,優先測試最新版本和官方網站推薦的模型。所有模型均關閉搜索功能。

  • 一家公司有多個模型時,排名中保留每家公司的最新模型版本。當同一推理模型存在不同的推理成本時,僅保留得分最高的版本。

  • 榜單含Thinking和Non-Thinking模式,未區分成兩個榜單,榜單前10中Kimi K2為Non-Thinking模型,其余均為Thinking模型。

截止于2025年7月14日,與5月26日發布的Leaderboard相比,有6家模型發布的版本更新進入前10:

Grok-4:Grok-4相比同為推理模型的前作Grok-3-mini,在ScienceQA評測集上實現了42.6分至65.0分的巨大提升,提升了約50%。Grok-4超越了OpenAI的o3模型,成為ScienceQA評測集上的SOTA模型。

o3-pro:OpenAI o3-pro(medium)版本在ScienceQA評測集上達到59.6分,比o3(medium)的54.4分有一定提升,與o3(high)的60.8分相近。但模型的響應時間變長、API價格增加。

Gemini 2.5 Pro 0605:相比于同一模型的前序0506版本,價格不變,性能小幅提升到59.4分。

Doubao Seed 1.6:相比于Seed的前一版本Seed-1.5-pro,分數從53.6提升至56.6,同時相比1.5版本API價格下降約50%。

DeepSeek R1-0528:相比R1的前一版本,ScienceQA分數由50.4提升至54.6。

Kimi K2:最新的Kimi K2模型在ScienceQA中得分49.6,在榜單中位于Non-Thinking模型第一,BoN(N=5)分數為73.0,位居頭部梯隊。

在此測評集中,對來自16家公司的43個不同版本的模型進行了測試。模型得分的分布情況如下:


整體變化:xAI的Grok-4登頂SOTA、Moonshot AI的Kimi K2進入前10,OpenAI、Google、ByteDance 、DeepSeek、Anthropic等廠商的主流模型在xbench-ScienceQA榜單上的偏序和此前保持一致。

模型性能對比

下圖的橫軸為API輸出價格(USD/百萬tokens),縱軸為xbench-ScienceQA平均分。


高質高價區:Grok-4、o3-pro、Gemini 2.5 Pro處于右上方,分數領先但成本也顯著較高。Grok-4有更好的表現,且輸出價格$15只有o3-pro($80)的1/4不到,在同檔模型中最具競爭力。

性價比區:Doubao-Seed-1.6在保持56.6分高分的同時,輸出價格只需$1.1。與DeepSeek-R1同屬于最具性價比的模型。

響應速度對比

下圖的橫軸為平均響應時間,縱軸為xbench-ScienceQA平均分。


深度推理模型:推理模型整體表現出推理時間越長,分數越高的趨勢。Grok-4分數最高,平均回復時間(227s)也是最長的一檔。Gemini 2.5 Pro在保持高分(59.4)的同時,平均回復時間不到50s,接近非推理模型,在性能和延時上做到了最佳的平衡。

模型成本對比

下圖的橫軸為API價格(output是主要成本),縱軸為xbench-ScienceQA的BoN得分(N=5)。


BoN (N=5) 作為多步推理正確率指標,比平均分更直接反映模型在長鏈條任務中的潛在上限,可用來評估其作為Agent底座時能夠達到的上限。

Grok-4與o3-high以BoN=78并列總體第一,其次是DeepSeek-R1-0528(77)與Gemini 2.5 Pro 0605(76),但是DeepSeek的成本要顯著更低。

在國產模型陣營里,在DeepSeek(77)居首,Doubao-Seed-1.6與Kimi K2(均73)并列第二,成本在同一區間,為開發者選擇國產模型搭建復雜Agent時提供了更多的參考。

月度新模型和產品總結

Grok-4

Grok-4與Grok-4 Heavy是xAI于7月10日發布的全新推理模型,RL階段使用了其前代Grok-3十倍的算力投入,獲得了顯著的智能飛躍。從基礎版Grok-4,到支持原生工具調用的版本(Grok-4 w/Python+Internet),再到思考階段引入了多智能體協作模塊的Grok-4 Heavy,均橫掃了人類前沿科學領域的各個榜單(AIME/GPQA/LiveCodeBench/...),并在象征著人類專家級別最困難的智能基準測試Humanity's Last Exam中取得了前所未有的突破。

Grok-4在預訓練過程中即融入了原生tool use能力,并在RL階段注入了與預訓練相當的算力,追求從“第一性原理”出發推導因果。在思考階段,Grok-4引入了網頁實時檢索幫助事實判斷,并設計了由多個不同智能體平行思考協作的分布式推理模塊,并驗證了這種test-time scaling在模型智能提取上的有效性。

Kimi K2

Kimi K2是Moonshot AI于7月11日發布的開源權重MoE模型,高達1T的總參數量,32B的激活參數量,384個專家的超稀疏結構,是迄今為止最大的開源模型。發布的版本中包含純基座模型Kimi K2-Base與基于指令微調的Kimi K2-Instruct,兩者均為未經過RL強化學習訓練的非思考模型。但均已展現出出色的推理和agentic tool use能力。

Kimi K2萬億規模參數量的訓練主要得益于其在預訓練階段的幾大技術創新:首先,自創的MuonClip優化器實現15T token訓練過程全程的高效穩定;自研的智能體模擬pipeline涵蓋了數百場景數千工具,為模型在預訓練階段注入agentic tool use能力打下數據基礎。

o3-pro

o3-pro是openAI于6月10日發布的推理模型,針對科學、編程、寫作等領域做了專門優化,在可靠性上也有明顯的提升。相比前代具有更強大的推理能力,更容易生成符合人類偏好的回答。

o3-pro引入了更長(數倍于o3)的思考時間,適應于超長上下文(200k token的窗口)任務,展現出了出色的上下文理解和推理能力,與之而來的是簡單問題的過度思考現象。

評測集更新總結

xbench的兩個評測集xbench-ScienceQA和xbench-DeepSearch已于6月18日正式開源。

開源地址:

1.website:https://xbench.org/

2.github:https://github.com/xbench-ai/xbench-evals

3.huggingface:https://huggingface.co/datasets/xbench/ScienceQA

https://huggingface.co/datasets/xbench/DeepSearch



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

阿傖說事
2025-07-18 09:09:24
朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

朱時茂戳穿了陳佩斯被“排擠”的真相,票房逆襲他讓多少資方臉紅

洲洲影視娛評
2025-07-23 15:16:30
表哥出國前把摩托7600賣我,這天換電瓶掀開座椅,看到里面我愣了

表哥出國前把摩托7600賣我,這天換電瓶掀開座椅,看到里面我愣了

蘭姐說故事
2025-07-23 05:05:03
又一房地產大佬要跑路!集團負債干億,前掌門套現跑路在機場被抓

又一房地產大佬要跑路!集團負債干億,前掌門套現跑路在機場被抓

顧史
2025-07-24 19:19:54
80萬美軍進入最高戰備,目標是中國,如果開戰,解放軍能否打贏

80萬美軍進入最高戰備,目標是中國,如果開戰,解放軍能否打贏

文雅筆墨
2025-07-18 07:40:46
男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

男單“全軍覆沒”!人民日報11字發文,王楚欽的失敗早就有跡可循

凡知
2025-04-22 15:26:14
算命說:8 月橫財運勢好,3 生肖日子紅艷艷,財庫豐盈!

算命說:8 月橫財運勢好,3 生肖日子紅艷艷,財庫豐盈!

人閒情事
2025-07-25 14:48:40
破產的二代和跳樓的機長,租二代碰上飛二代

破產的二代和跳樓的機長,租二代碰上飛二代

美第奇效應
2025-07-04 21:11:48
湖南一鎮原黨委書記,被開除黨籍和公職

湖南一鎮原黨委書記,被開除黨籍和公職

大愛三湘
2025-07-25 21:00:36
韓媒:中國球迷掀起抵制運動,認為贊助商是助長國足享樂的幫兇

韓媒:中國球迷掀起抵制運動,認為贊助商是助長國足享樂的幫兇

塵語者
2025-07-25 12:32:33
山東大學大一學生張敬雯去世,20歲長得漂亮,生前5個月沒吃沒喝

山東大學大一學生張敬雯去世,20歲長得漂亮,生前5個月沒吃沒喝

180視角
2025-07-25 14:19:10
建議中年女人:穿襯衫多配“半裙和闊腿褲”,遮肉顯瘦又時髦

建議中年女人:穿襯衫多配“半裙和闊腿褲”,遮肉顯瘦又時髦

八分搭配
2025-07-26 00:41:13
英國首相:承認巴勒斯坦國是加沙停火步驟之一

英國首相:承認巴勒斯坦國是加沙停火步驟之一

財聯社
2025-07-26 01:29:06
新一輪貿易協商,中方隨行人員變了?

新一輪貿易協商,中方隨行人員變了?

針砭天下事
2025-07-25 13:37:05
穆克什陪兒子兒媳去英國一家寺院求子,穆克什比阿南特拜的還虔誠

穆克什陪兒子兒媳去英國一家寺院求子,穆克什比阿南特拜的還虔誠

梁獼愛玩車
2025-07-24 22:03:43
在設計院,性能力才是第一生產力

在設計院,性能力才是第一生產力

黯泉
2025-07-06 21:54:56
驚爆!中國造孟加拉戰機墜入校園,造成19死百余傷慘劇!

驚爆!中國造孟加拉戰機墜入校園,造成19死百余傷慘劇!

國際情爆猿
2025-07-21 19:06:35
被中央通報搞形式主義的縣委書記,官宣落馬

被中央通報搞形式主義的縣委書記,官宣落馬

揚子晚報
2025-07-25 20:32:26
福建省這條高速公路預計2026年全線開工?線路長150.5公里

福建省這條高速公路預計2026年全線開工?線路長150.5公里

交建動態
2025-07-24 20:32:54
46億游輪在手又添十億籌碼生三胎,她的肚皮憑什么這么值錢?

46億游輪在手又添十億籌碼生三胎,她的肚皮憑什么這么值錢?

BenSir本色說
2025-06-20 22:17:41
2025-07-26 03:07:00
紅杉匯
紅杉匯
創業者背后的創業者。
1892文章數 2505關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

數碼
房產
藝術
健康
軍事航空

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 上饶县| 迁西县| 特克斯县| 页游| 青岛市| 西吉县| 安平县| 苍梧县| 儋州市| 同德县| 丹东市| 华安县| 黑山县| 行唐县| 汽车| 偏关县| 鄱阳县| 包头市| 桓台县| 安泽县| 中宁县| 桂平市| 太湖县| 苏尼特左旗| 封丘县| 铜陵市| 牙克石市| 和政县| 孟津县| 哈巴河县| 鸡东县| 徐闻县| 武定县| 明水县| 曲周县| 咸丰县| 阳高县| 嘉义市| 新津县| 达孜县| 驻马店市|