網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克Grok 4逆天跑分泄露，「人類最后考試」豪取45%全場(chǎng)第一！

2025-07-05 12:12:51　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：定慧好困

【新智元導(dǎo)讀】Grok 4跑分提前泄露，在「人類最后考試」中高達(dá)45%的得分，遠(yuǎn)超Gemini與Claude，成為當(dāng)前測(cè)試中最強(qiáng)模型之一。馬斯克表示Grok 4以「第一性原理」構(gòu)建推理機(jī)制，Grok 4有望改寫LLM格局。

Grok 4馬上就來，馬斯克說的！

甚至，現(xiàn)在部署的Grok，已經(jīng)在能力上有了顯著的提升。

與此同時(shí)，網(wǎng)友LEGIT的一張截圖，更是直接泄露了Grok 4和Grok 4 Code在多個(gè)關(guān)鍵基準(zhǔn)評(píng)測(cè)上的跑分。

目前，這一消息已經(jīng)得到了AI圈知名大佬Tibor Blaho的確認(rèn)。

根據(jù)泄露的數(shù)據(jù)，Grok 4在GPQA、AIME 25和SWE-bench評(píng)測(cè)中可謂是「遙遙領(lǐng)先」，全面碾壓谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

GPQA（研究生級(jí)物理和天文學(xué)問題）：Grok 4得分87-88%，略優(yōu)于Gemini 2.5 Pro的86.4%，明顯超過Claude 4 Opus的79.6%。

AIME 25（2025美國數(shù)學(xué)邀請(qǐng)賽）：Grok 4得分95%，大幅超越Claude 4 Opus的75.5%，并優(yōu)于OpenAI o3的88.9%。

SWE-bench（真實(shí)軟件工程問題）：Grok 4 Code得分72-75%，略優(yōu)于Claude Opus 4的72.5%，略高于OpenAI o3的71.7%。

不僅如此，Grok 4還在覆蓋范圍最廣、難度最高的終極閉卷學(xué)術(shù)基準(zhǔn)「人類最后的考試」（Human Last Exam，HLE）上取得了默認(rèn)35%、最高45%的驚人高分。

這也意味著，最強(qiáng)狀態(tài)下的Grok 4，得分是現(xiàn)任老大Gemini 2.5 Pro的2倍——高出了整整24個(gè)百分點(diǎn)。

相比正確率只有10.7%的Claude 4 Opus，成績直接翻了4倍還多。

HLF這門考試堪稱殘酷，是專為挫敗LLM的銳氣而設(shè)計(jì)：

橫跨100多個(gè)學(xué)科的2,500道專家級(jí)試題
14%為多模態(tài)題型（文本+圖像）
24%的問題為多項(xiàng)選擇題
設(shè)有防記憶陷阱和隱藏測(cè)試集，用于阻止「作弊式訓(xùn)練」

下圖是所含知識(shí)的高層次可視化圖表，其中的每個(gè)類別還包含有很多具體學(xué)科。

項(xiàng)目主頁：https://lastexam.ai/

要知道，大多數(shù)前沿模型在這一分?jǐn)?shù)面前都望塵莫及。

如果此次泄露屬實(shí)，那么Grok 4就算闖過了AI基準(zhǔn)測(cè)試領(lǐng)域最難的關(guān)卡之一。

由于在HLF的得分異常地高，Grok 4的發(fā)布再度引起了社區(qū)的廣泛討論。

是的，如果屬實(shí)，這意味著該模型具有極其強(qiáng)大的世界知識(shí)。

看到如此之強(qiáng)的Grok 4，網(wǎng)友們已經(jīng)迫不及待了，紛紛在線催更：

Grok 4源代碼泄露

馬斯克此前的采訪中，曾經(jīng)透露說。

Grok 3.5 正在嘗試從第一性原理出發(fā)進(jìn)行推理，也就是將物理學(xué)的方法應(yīng)用到思維過程中。

Grok-3.5正是如今的Grok 4，老馬決定一步到位，從Grok-3直接到Grok 4，不再擠牙膏了。

這似乎預(yù)示著Grok 4的能力會(huì)非常大的突破！

幾天前，X上就有人發(fā)現(xiàn)在xAI控制臺(tái)源代碼中發(fā)現(xiàn)的2個(gè)Grok 4模型：Grok 4和Grok 4 Code

Grok 4：

最新、最卓越的旗艦?zāi)Ｐ停谧匀徽Z言、數(shù)學(xué)及推理領(lǐng)域展現(xiàn)出無與倫比的性能，堪稱萬能的完美之選

Grok 4 Code：

專為編程伴侶量身打造的模型。可以向它咨詢代碼相關(guān)的問題，或直接將其嵌入到代碼編輯器中

也有人持懷疑態(tài)度

當(dāng)然也有人似乎是被之前Grok 3的炒作「?jìng)噶诵摹埂?/p>

HLE的創(chuàng)建者Dan Hendrycks是xAI的親密顧問（相比其他實(shí)驗(yàn)室而言）。

網(wǎng)友們想知道Dan Hendrycks是否只提供了安全方面的建議，還是以某種方式給出了增強(qiáng)科學(xué)知識(shí)細(xì)節(jié)的具體研發(fā)建議。

這不禁讓人們聯(lián)想到此前Llama 4的翻車鬧劇，也是因?yàn)樘崆斑M(jìn)行了「針對(duì)性的訓(xùn)練」。

馬斯克親自帶貨

馬斯克曾在6月27日發(fā)帖稱，正和團(tuán)隊(duì)加班加點(diǎn)的研發(fā)Grok。

將在7月4日后發(fā)布Grok 4，按照美東時(shí)間，今天開始，任何時(shí)候都有可能見證Grok 4的發(fā)布。

馬斯克特地強(qiáng)調(diào)了，需要一次大型訓(xùn)練來開發(fā)了「特殊」的編碼模型。

在5月20日的微軟Build 2025大會(huì)上，馬斯克現(xiàn)場(chǎng)講述了Grok 3.5（Grok 4）將從第一性原理出發(fā)進(jìn)行構(gòu)建。

馬斯克：

尤其是在即將發(fā)布的Grok 3.5中，我們的目標(biāo)是讓模型從第一性原理出發(fā)進(jìn)行推理。

也就是說，像物理學(xué)家那樣思考，借用物理的工具來分析問題。

如果你想要探尋事物的本質(zhì)真相，就必須把問題分解到最基本、最可能正確的公理層面，然后再從這些基礎(chǔ)出發(fā)向上推理。

接著，你可以將最終結(jié)論與這些基本原理進(jìn)行校驗(yàn)。在物理學(xué)中，如果你得出的結(jié)果違反了能量守恒或動(dòng)量守恒，那你要么發(fā)現(xiàn)了諾獎(jiǎng)級(jí)別的新理論，要么——更可能的是——你搞錯(cuò)了。

所以我們打造Grok 3.5的核心目標(biāo)，就是以物理的基本原理為指導(dǎo)，應(yīng)用這些方法來推理各種問題，力求以最小的誤差，接近真實(shí)。

當(dāng)然，出錯(cuò)是難免的，但我們的目標(biāo)是持續(xù)減少這些錯(cuò)誤。這個(gè)方向?qū)τ?AI 安全至關(guān)重要。

我長久以來都在思考AI安全問題，而我最終得出的結(jié)論，其實(shí)可以用一句老話來概括：誠實(shí)是最好的策略。

這不僅是道德要求，更是安全保障。當(dāng)然我們也會(huì)犯錯(cuò)，但我們承諾會(huì)盡快修正這些錯(cuò)誤。

我們也非常期待來自開發(fā)者社區(qū)的反饋——你們需要什么？我們哪里做錯(cuò)了？又該如何改進(jìn)？

我們希望Grok成為一個(gè)令開發(fā)者充滿期待的工具，一個(gè)他們的聲音能真正被聽到的平臺(tái)。

Grok將不斷進(jìn)化，努力滿足開發(fā)者的需求。

編碼能力成為必爭(zhēng)之地

根據(jù)Grok API此前的模型推測(cè)，這次Grok 4 Code將是發(fā)布的重頭戲，也許還會(huì)有Grok 4 mini。

馬斯克特地提到Grok 4的編碼能力，也是受到如今各家的影響，編碼能力稱為了衡量新模型的試金石。

谷歌

Gemini2.5包括改進(jìn)的代碼生成、復(fù)雜代碼重構(gòu)/轉(zhuǎn)換、上下文管理、更好的PR評(píng)審能力，以及可定制命令等。
Gemini CLI是近期推出的命令行AI助手，基于Gemini2.5?Pro，可處理長達(dá)百萬token的上下文，支持包括代碼編寫、調(diào)試、內(nèi)容生成和任務(wù)管理于一體的多功能開發(fā)體驗(yàn)。

Anthropic

Claude 4（包含Opus與Sonnet）是Anthropic迄今最強(qiáng)大的模型系列，顯著提升編碼與AI agent能力。
Claude Code專注于終端環(huán)境使用，提供從代碼編輯、問題修復(fù)、架構(gòu)理解，到運(yùn)行測(cè)試、lint、git操作、PR創(chuàng)建的一站式工具。

OpenAI

新版Codex是基于OpenAI o3微調(diào)而來的，用于自然語言翻譯代碼，延續(xù)迄今生成工具（如GitHubCopilot）的核心能力。

DeepSeek

DeepSeek?R1?0528是DeepSeek推出的R1最新版本，定位為全能推理與編碼能力提升模型。

既然老馬著重提到了編碼能力，那么也許這次是值得期待的。

參考資料：

https://x.com/WesRothMoney/status/1941227129875857869

https://x.com/legit_api/status/1941165728708874514

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.