99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Grok4跑分:人類最后考試拿下45%,是Gemini 2.5兩倍,但網友不信

0
分享至



機器之心報道

編輯:楊文、澤南

馬斯克搭帳篷熬夜開發(fā)有效果了?這么高跑分,還不發(fā)布。

剛剛,Grok 4 和 Grok 4 Code 的基準測試結果疑似泄露。

X 博主 @legit_api 發(fā)帖稱,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。



這個跑分結果意味著什么?有網友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。

Grok 4 在 HLE 上的標準得分約為 35%,使用推理技術后提升至 45%,最強成績比 OpenAI o3 的公開得分高出一倍,是 Claude 4 Opus 的四倍多。要知道 HLE 是一個自由回答測試,隨機猜測準確率僅約 5%,因此每個百分點的提升都非常困難。

在 GPQA(研究生級物理和天文學問題)上,Grok 4 得分 87-88%,與 OpenAI o3 的頂級表現相當,并明顯超過 Claude 4 Opus 的 79.6%。

Grok 4 在 AIME '25(2025 年美國數學奧賽)上得分 95%,遠超 Claude 4 Opus 的 75.5%,并略優(yōu)于 OpenAI o3 的 80-90%(取決于思維模式)。

此外,Grok 4 Code 在 SWEBench 的得分與 Claude 4 Opus 的 72.5% 相差不大,略高于 OpenAI o3。而在 Terminal-Bench 上,Claude 4 Opus 領先,得分 43.2%,xAI 尚未發(fā)布 Grok-4 的相關數據。

其中,網友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%,幾乎是 Gemini 2.5 Pro 成績的兩倍。如果泄露的測試結果屬實,那么意味著 Grok 4 通過了 AI 基準測試中最艱難的一關。



還有網友建議關注「標準」得分,認為這是公開模型的基準,推理得分可能涉及實驗性配置。

不過,也有網友表示質疑,認為 Grok 4 的 HLE 分數不太可能這么高,這里面肯定有問題。



該網友給出的理由是,上次 xAI 報告了其他模型使用單次嘗試的結果,但對自己的模型卻使用了不同的報告方法。



@legit_api 回復稱,這些數字是真實的,但我們不知道配置。



有網友總結道,目前 Grok 4 泄露出來的所有基準成績,除了 HLE 以外,其他的看起來似乎還算「合理」。不過 HLE 能跑到這么高分又應該如何解釋呢?畢竟這個基準中包含很多晦澀難懂的信息檢索。

或許一切都要等待模型正式發(fā)布才能有答案了。

其實早在 7 月 1 日,外媒 TestingCatalog 就發(fā)文爆料,Grok 4 系列模型的相關信息在 xAI 開發(fā)者中控臺網站上泄露,包括旗艦模型 Grok 4 和編程模型 Grok 4 Code。



截圖顯示,Grok 4 僅支持文本模式,視覺、圖像生成及其他功能即將推出。Grok4 支持約 13 萬 tokens 上下文窗口,較許多競爭對手的前沿模型要小,這可能表明 xAI 在優(yōu)化推理速度和實時可用性,而非追求最大化的長上下文性能。從功能上來看,Grok 4 將包括函數調用、結構化輸出和推理能力。

還有網友扒出了 xAI 開發(fā)者中控臺的源代碼,這些代碼顯示,Grok 4 是一個在自然語言、數學和推理方面「擁有無可匹敵的能力」的通才模型,并在當地時間 6 月 29 日完成了訓練,其標語為「Think Bigger and Smarter」。



截圖還顯示,Grok 4 Code 則是一款專為編程設計的模型,用戶可以直接向它提問代碼問題,也可以直接嵌入代碼編輯器中。



上個星期,馬斯克在推文中表示,他正「通宵達旦地開發(fā) Grok 4」,模型開發(fā)「進展良好」但仍需進行「最后一次大規(guī)模訓練」,特別是在專門代碼模型方面。為了這一目標,從上月底開始,馬斯克帶頭在辦公室內支起帳篷睡覺,以全身心投入工作。

X 的工程師還出面回應了一下帳篷的問題。



生成式 AI,都卷到這種地步了?

泄露的分數不僅刺激了廣大網友的小心臟,也在刺激著眾多 AI 科技公司。馬斯克今天雖然沒有如之前預測的那樣「官宣」Grok 4 開源,但表示推特上的 Grok 功能有了明顯的提升。



有網友為此專門去問了 Grok,它認為 7 月更新是 Grok 4,但不完整。



再加上 Benchmark 成績已經曝光,或許 Grok 4 過幾天就要正式發(fā)布了。

如果成績屬實,不管是架構的創(chuàng)新還是規(guī)模的擴展,Grok 都將推動一波 AI 大模型的發(fā)展,讓我們拭目以待。

https://www.reddit.com/r/singularity/comments/1lrmn42/grok_4_and_grok_4_code_benchmark_results_leaked/

https://www.testingcatalog.com/xai-prepares-grok-4-and-grok-4-code-for-upcoming-launch/

https://x.com/AiBattle_/status/1940139539525419512

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
神話破滅?Deepseek用戶活躍度下滑到3%

神話破滅?Deepseek用戶活躍度下滑到3%

壹家言
2025-07-08 15:08:59
余承東回應開車“睡覺”:當時在看手機,平生第一次進公安局,第一次去自首

余承東回應開車“睡覺”:當時在看手機,平生第一次進公安局,第一次去自首

紅星新聞
2025-07-08 21:32:21
佯攻變成主戰(zhàn)場,“阿克薩洪水”行動毀掉了整條“抵抗之弧”陣線

佯攻變成主戰(zhàn)場,“阿克薩洪水”行動毀掉了整條“抵抗之弧”陣線

新車知多少
2025-07-08 09:45:22
上海市區(qū)突發(fā)多車事故!車輛碎片散落一地,2人受傷,被緊急送醫(yī)

上海市區(qū)突發(fā)多車事故!車輛碎片散落一地,2人受傷,被緊急送醫(yī)

上觀新聞
2025-07-08 20:15:17
博主稱蔥油餅難吃直接丟垃圾桶,阿大看到后直接將其起訴

博主稱蔥油餅難吃直接丟垃圾桶,阿大看到后直接將其起訴

映射生活的身影
2025-07-06 20:36:40
《以法之名》大結局:直到萬潮得救,熊磊才知,陳勝龍的報復多狠

《以法之名》大結局:直到萬潮得救,熊磊才知,陳勝龍的報復多狠

東方不敗然多多
2025-07-09 04:54:48
大學宿管大爺被熱死,裝個空調怎么就這么難?

大學宿管大爺被熱死,裝個空調怎么就這么難?

獨角鯨工作坊
2025-07-08 14:08:42
特朗普訪華行程大挪移!押注10月APEC峰會,9月閱兵可能不會來

特朗普訪華行程大挪移!押注10月APEC峰會,9月閱兵可能不會來

司馬平邦
2025-07-07 19:44:28
24年前,被張藝謀“勸退”回家喂豬的小女孩,如今過得咋樣了?

24年前,被張藝謀“勸退”回家喂豬的小女孩,如今過得咋樣了?

鄉(xiāng)野小珥
2025-07-09 01:34:17
杜美玲:越南選美冠軍,美的傾囯傾城,舞臺上的璀璨之星

杜美玲:越南選美冠軍,美的傾囯傾城,舞臺上的璀璨之星

妮妮玩不夠
2025-07-04 17:05:03
拉夫羅夫稱基輔無權主張領土完整,必須放棄索賠并歸還凍結資產

拉夫羅夫稱基輔無權主張領土完整,必須放棄索賠并歸還凍結資產

山河路口
2025-07-07 19:39:02
男子帶140多斤1角硬幣兌換被拒,銀行:客戶無法說明來源

男子帶140多斤1角硬幣兌換被拒,銀行:客戶無法說明來源

新京報
2025-07-07 23:27:12
加盟僅7天!世俱杯天降神兵:56分鐘2球隊友看愣 賺回3000萬

加盟僅7天!世俱杯天降神兵:56分鐘2球隊友看愣 賺回3000萬

葉青足球世界
2025-07-09 05:44:25
失去了土地出讓金的支持:地方財政從哪找補?

失去了土地出讓金的支持:地方財政從哪找補?

戈多的嘆息
2025-07-08 07:55:10
《以法之名》看清許言午的神秘身份,才懂江敏對洪亮的算計有多狠

《以法之名》看清許言午的神秘身份,才懂江敏對洪亮的算計有多狠

娛樂圈筆娛君
2025-07-08 10:51:26
72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產成空?

72歲“唐僧”開始賣房!和陳麗華33年感情成笑話,百億財產成空?

大笑江湖史
2025-06-23 17:43:45
重要接待以前要審菜單,還怕沒接待好影響“感情”,現在掃碼各吃各的!

重要接待以前要審菜單,還怕沒接待好影響“感情”,現在掃碼各吃各的!

政知新媒體
2025-07-08 21:16:28
陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

陸偽娘「無套約炮1691男」性愛片外泄!竟是38歲大叔 健身鮮肉也受害

ETtoday星光云
2025-07-08 09:36:11
李斌回應虧損千億!網友:把負債說得這么理直氣壯,還是第一次…

李斌回應虧損千億!網友:把負債說得這么理直氣壯,還是第一次…

明月雜談
2025-07-08 07:33:16
一場2-0把切爾西送進決賽!6000萬新援獨進兩球,獎金數成功破億

一場2-0把切爾西送進決賽!6000萬新援獨進兩球,獎金數成功破億

綠茵舞著
2025-07-09 05:33:45
2025-07-09 06:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10810文章數 142356關注度
往期回顧 全部

科技要聞

余承東回應開車"睡覺":平生第一次去自首

頭條要聞

媒體談幼兒園血鉛事件:嚴懲到底才能避免事故重演

頭條要聞

媒體談幼兒園血鉛事件:嚴懲到底才能避免事故重演

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創(chuàng)”

財經要聞

新消費浪潮下的資本敘事能持續(xù)嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發(fā)布內飾官圖

態(tài)度原創(chuàng)

時尚
房產
數碼
教育
旅游

顯瘦的夏日通勤搭配,復古又時髦!

房產要聞

突然爆發(fā)!巨頭瘋入海口西海岸!

數碼要聞

AIDA64 發(fā)布 7.70 正式版:首次支持 PCIe 7.0,提前支持 Zen 6

教育要聞

TTS新傳論文帶讀:【拒絕溝】理解數字鴻溝的新維度!!!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 任丘市| 香河县| 浙江省| 堆龙德庆县| 康定县| 昌都县| 酒泉市| 静乐县| 肥西县| 胶州市| 平山县| 搜索| 吉木萨尔县| 浏阳市| 山东省| 肥东县| 门头沟区| 新乐市| 广汉市| 广饶县| 罗源县| 清河县| 宜良县| 湘潭县| 信阳市| 丹阳市| 泾川县| 芦溪县| 柳河县| 加查县| 句容市| 屯留县| 眉山市| 尚志市| 神木县| 浦北县| 台州市| 工布江达县| 水富县| 建始县| 油尖旺区|