新智元報(bào)道
編輯:定慧 好困
【新智元導(dǎo)讀】Grok 4跑分提前泄露,在「人類最后考試」中高達(dá)45%的得分,遠(yuǎn)超Gemini與Claude,成為當(dāng)前測(cè)試中最強(qiáng)模型之一。馬斯克表示Grok 4以「第一性原理」構(gòu)建推理機(jī)制,Grok 4有望改寫LLM格局。
Grok 4馬上就來,馬斯克說的!
甚至,現(xiàn)在部署的Grok,已經(jīng)在能力上有了顯著的提升。
與此同時(shí),網(wǎng)友LEGIT的一張截圖,更是直接泄露了Grok 4和Grok 4 Code在多個(gè)關(guān)鍵基準(zhǔn)評(píng)測(cè)上的跑分。
目前,這一消息已經(jīng)得到了AI圈知名大佬Tibor Blaho的確認(rèn)。
根據(jù)泄露的數(shù)據(jù),Grok 4在GPQA、AIME 25和SWE-bench評(píng)測(cè)中可謂是「遙遙領(lǐng)先」,全面碾壓谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。
GPQA(研究生級(jí)物理和天文學(xué)問題):Grok 4得分87-88%,略優(yōu)于Gemini 2.5 Pro的86.4%,明顯超過Claude 4 Opus的79.6%。
AIME 25(2025美國數(shù)學(xué)邀請(qǐng)賽):Grok 4得分95%,大幅超越Claude 4 Opus的75.5%,并優(yōu)于OpenAI o3的88.9%。
SWE-bench(真實(shí)軟件工程問題):Grok 4 Code得分72-75%,略優(yōu)于Claude Opus 4的72.5%,略高于OpenAI o3的71.7%。
不僅如此,Grok 4還在覆蓋范圍最廣、難度最高的終極閉卷學(xué)術(shù)基準(zhǔn)「人類最后的考試」(Human Last Exam,HLE)上取得了默認(rèn)35%、最高45%的驚人高分。
這也意味著,最強(qiáng)狀態(tài)下的Grok 4,得分是現(xiàn)任老大Gemini 2.5 Pro的2倍——高出了整整24個(gè)百分點(diǎn)。
相比正確率只有10.7%的Claude 4 Opus,成績直接翻了4倍還多。
HLF這門考試堪稱殘酷,是專為挫敗LLM的銳氣而設(shè)計(jì):
橫跨100多個(gè)學(xué)科的2,500道專家級(jí)試題
14%為多模態(tài)題型(文本+圖像)
24%的問題為多項(xiàng)選擇題
設(shè)有防記憶陷阱和隱藏測(cè)試集,用于阻止「作弊式訓(xùn)練」
下圖是所含知識(shí)的高層次可視化圖表,其中的每個(gè)類別還包含有很多具體學(xué)科。
項(xiàng)目主頁:https://lastexam.ai/
要知道,大多數(shù)前沿模型在這一分?jǐn)?shù)面前都望塵莫及。
如果此次泄露屬實(shí),那么Grok 4就算闖過了AI基準(zhǔn)測(cè)試領(lǐng)域最難的關(guān)卡之一。
由于在HLF的得分異常地高,Grok 4的發(fā)布再度引起了社區(qū)的廣泛討論。
是的,如果屬實(shí),這意味著該模型具有極其強(qiáng)大的世界知識(shí)。
看到如此之強(qiáng)的Grok 4,網(wǎng)友們已經(jīng)迫不及待了,紛紛在線催更:
Grok 4源代碼泄露
馬斯克此前的采訪中,曾經(jīng)透露說。
Grok 3.5 正在嘗試從第一性原理出發(fā)進(jìn)行推理,也就是將物理學(xué)的方法應(yīng)用到思維過程中。
Grok-3.5正是如今的Grok 4,老馬決定一步到位,從Grok-3直接到Grok 4,不再擠牙膏了。
這似乎預(yù)示著Grok 4的能力會(huì)非常大的突破!
幾天前,X上就有人發(fā)現(xiàn)在xAI控制臺(tái)源代碼中發(fā)現(xiàn)的2個(gè)Grok 4模型:Grok 4和Grok 4 Code
Grok 4:
最新、最卓越的旗艦?zāi)P停谧匀徽Z言、數(shù)學(xué)及推理領(lǐng)域展現(xiàn)出無與倫比的性能,堪稱萬能的完美之選
Grok 4 Code:
專為編程伴侶量身打造的模型。可以向它咨詢代碼相關(guān)的問題,或直接將其嵌入到代碼編輯器中
也有人持懷疑態(tài)度
當(dāng)然也有人似乎是被之前Grok 3的炒作「?jìng)噶诵摹埂?/p>
HLE的創(chuàng)建者Dan Hendrycks是xAI的親密顧問(相比其他實(shí)驗(yàn)室而言)。
網(wǎng)友們想知道Dan Hendrycks是否只提供了安全方面的建議,還是以某種方式給出了增強(qiáng)科學(xué)知識(shí)細(xì)節(jié)的具體研發(fā)建議。
這不禁讓人們聯(lián)想到此前Llama 4的翻車鬧劇,也是因?yàn)樘崆斑M(jìn)行了「針對(duì)性的訓(xùn)練」。
馬斯克親自帶貨
馬斯克曾在6月27日發(fā)帖稱,正和團(tuán)隊(duì)加班加點(diǎn)的研發(fā)Grok。
將在7月4日后發(fā)布Grok 4,按照美東時(shí)間,今天開始,任何時(shí)候都有可能見證Grok 4的發(fā)布。
馬斯克特地強(qiáng)調(diào)了,需要一次大型訓(xùn)練來開發(fā)了「特殊」的編碼模型。
在5月20日的微軟Build 2025大會(huì)上,馬斯克現(xiàn)場(chǎng)講述了Grok 3.5(Grok 4)將從第一性原理出發(fā)進(jìn)行構(gòu)建。
馬斯克:
尤其是在即將發(fā)布的Grok 3.5中,我們的目標(biāo)是讓模型從第一性原理出發(fā)進(jìn)行推理。
也就是說,像物理學(xué)家那樣思考,借用物理的工具來分析問題。
如果你想要探尋事物的本質(zhì)真相,就必須把問題分解到最基本、最可能正確的公理層面,然后再從這些基礎(chǔ)出發(fā)向上推理。
接著,你可以將最終結(jié)論與這些基本原理進(jìn)行校驗(yàn)。 在物理學(xué)中,如果你得出的結(jié)果違反了能量守恒或動(dòng)量守恒,那你要么發(fā)現(xiàn)了諾獎(jiǎng)級(jí)別的新理論,要么——更可能的是——你搞錯(cuò)了。
所以我們打造Grok 3.5的核心目標(biāo),就是以物理的基本原理為指導(dǎo),應(yīng)用這些方法來推理各種問題,力求以最小的誤差,接近真實(shí)。
當(dāng)然,出錯(cuò)是難免的,但我們的目標(biāo)是持續(xù)減少這些錯(cuò)誤。這個(gè)方向?qū)τ?AI 安全 至關(guān)重要。
我長久以來都在思考AI安全問題,而我最終得出的結(jié)論,其實(shí)可以用一句老話來概括:誠實(shí)是最好的策略。
這不僅是道德要求,更是安全保障。 當(dāng)然我們也會(huì)犯錯(cuò),但我們承諾會(huì)盡快修正這些錯(cuò)誤。
我們也非常期待來自開發(fā)者社區(qū)的反饋——你們需要什么?我們哪里做錯(cuò)了?又該如何改進(jìn)?
我們希望Grok成為一個(gè)令開發(fā)者充滿期待的工具,一個(gè)他們的聲音能真正被聽到的平臺(tái)。
Grok將不斷進(jìn)化,努力滿足開發(fā)者的需求。
編碼能力成為必爭(zhēng)之地
根據(jù)Grok API此前的模型推測(cè),這次Grok 4 Code將是發(fā)布的重頭戲,也許還會(huì)有Grok 4 mini。
馬斯克特地提到Grok 4的編碼能力,也是受到如今各家的影響,編碼能力稱為了衡量新模型的試金石。
谷歌
Gemini2.5包括改進(jìn)的代碼生成、復(fù)雜代碼重構(gòu)/轉(zhuǎn)換、上下文管理、更好的PR評(píng)審能力,以及可定制命令等。
Gemini CLI是近期推出的命令行AI助手,基于Gemini2.5?Pro,可處理長達(dá)百萬token的上下文,支持包括代碼編寫、調(diào)試、內(nèi)容生成和任務(wù)管理于一體的多功能開發(fā)體驗(yàn)。
Anthropic
Claude 4(包含Opus與Sonnet)是Anthropic迄今最強(qiáng)大的模型系列,顯著提升編碼與AI agent能力。
Claude Code專注于終端環(huán)境使用,提供從代碼編輯、問題修復(fù)、架構(gòu)理解,到運(yùn)行測(cè)試、lint、git操作、PR創(chuàng)建的一站式工具。
OpenAI
新版Codex是基于OpenAI o3微調(diào)而來的,用于自然語言翻譯代碼,延續(xù)迄今生成工具(如GitHubCopilot)的核心能力。
DeepSeek
DeepSeek?R1?0528是DeepSeek推出的R1最新版本,定位為全能推理與編碼能力提升模型。
既然老馬著重提到了編碼能力,那么也許這次是值得期待的。
參考資料:
https://x.com/WesRothMoney/status/1941227129875857869
https://x.com/legit_api/status/1941165728708874514
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.