99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克Grok 4逆天跑分泄露,「人類最后考試」豪取45%全場(chǎng)第一!

0
分享至


新智元報(bào)道

編輯:定慧 好困

【新智元導(dǎo)讀】Grok 4跑分提前泄露,在「人類最后考試」中高達(dá)45%的得分,遠(yuǎn)超Gemini與Claude,成為當(dāng)前測(cè)試中最強(qiáng)模型之一。馬斯克表示Grok 4以「第一性原理」構(gòu)建推理機(jī)制,Grok 4有望改寫LLM格局。

Grok 4馬上就來,馬斯克說的!


甚至,現(xiàn)在部署的Grok,已經(jīng)在能力上有了顯著的提升。


與此同時(shí),網(wǎng)友LEGIT的一張截圖,更是直接泄露了Grok 4和Grok 4 Code在多個(gè)關(guān)鍵基準(zhǔn)評(píng)測(cè)上的跑分。

目前,這一消息已經(jīng)得到了AI圈知名大佬Tibor Blaho的確認(rèn)。



根據(jù)泄露的數(shù)據(jù),Grok 4在GPQA、AIME 25和SWE-bench評(píng)測(cè)中可謂是「遙遙領(lǐng)先」,全面碾壓谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus。

  • GPQA(研究生級(jí)物理和天文學(xué)問題):Grok 4得分87-88%,略優(yōu)于Gemini 2.5 Pro的86.4%,明顯超過Claude 4 Opus的79.6%。

  • AIME 25(2025美國數(shù)學(xué)邀請(qǐng)賽):Grok 4得分95%,大幅超越Claude 4 Opus的75.5%,并優(yōu)于OpenAI o3的88.9%。

  • SWE-bench(真實(shí)軟件工程問題):Grok 4 Code得分72-75%,略優(yōu)于Claude Opus 4的72.5%,略高于OpenAI o3的71.7%。

不僅如此,Grok 4還在覆蓋范圍最廣、難度最高的終極閉卷學(xué)術(shù)基準(zhǔn)「人類最后的考試」(Human Last Exam,HLE)上取得了默認(rèn)35%、最高45%的驚人高分。

這也意味著,最強(qiáng)狀態(tài)下的Grok 4,得分是現(xiàn)任老大Gemini 2.5 Pro的2倍——高出了整整24個(gè)百分點(diǎn)。

相比正確率只有10.7%的Claude 4 Opus,成績直接翻了4倍還多。



HLF這門考試堪稱殘酷,是專為挫敗LLM的銳氣而設(shè)計(jì):

  • 橫跨100多個(gè)學(xué)科的2,500道專家級(jí)試題

  • 14%為多模態(tài)題型(文本+圖像)

  • 24%的問題為多項(xiàng)選擇題

  • 設(shè)有防記憶陷阱和隱藏測(cè)試集,用于阻止「作弊式訓(xùn)練」

下圖是所含知識(shí)的高層次可視化圖表,其中的每個(gè)類別還包含有很多具體學(xué)科。


項(xiàng)目主頁:https://lastexam.ai/

要知道,大多數(shù)前沿模型在這一分?jǐn)?shù)面前都望塵莫及。

如果此次泄露屬實(shí),那么Grok 4就算闖過了AI基準(zhǔn)測(cè)試領(lǐng)域最難的關(guān)卡之一。

由于在HLF的得分異常地高,Grok 4的發(fā)布再度引起了社區(qū)的廣泛討論。

是的,如果屬實(shí),這意味著該模型具有極其強(qiáng)大的世界知識(shí)。


看到如此之強(qiáng)的Grok 4,網(wǎng)友們已經(jīng)迫不及待了,紛紛在線催更:


Grok 4源代碼泄露

馬斯克此前的采訪中,曾經(jīng)透露說。

Grok 3.5 正在嘗試從第一性原理出發(fā)進(jìn)行推理,也就是將物理學(xué)的方法應(yīng)用到思維過程中。

Grok-3.5正是如今的Grok 4,老馬決定一步到位,從Grok-3直接到Grok 4,不再擠牙膏了。

這似乎預(yù)示著Grok 4的能力會(huì)非常大的突破!

幾天前,X上就有人發(fā)現(xiàn)在xAI控制臺(tái)源代碼中發(fā)現(xiàn)的2個(gè)Grok 4模型:Grok 4和Grok 4 Code

Grok 4:

  • 最新、最卓越的旗艦?zāi)P停谧匀徽Z言、數(shù)學(xué)及推理領(lǐng)域展現(xiàn)出無與倫比的性能,堪稱萬能的完美之選

Grok 4 Code:

  • 專為編程伴侶量身打造的模型。可以向它咨詢代碼相關(guān)的問題,或直接將其嵌入到代碼編輯器中


也有人持懷疑態(tài)度

當(dāng)然也有人似乎是被之前Grok 3的炒作「?jìng)噶诵摹埂?/p>

HLE的創(chuàng)建者Dan Hendrycks是xAI的親密顧問(相比其他實(shí)驗(yàn)室而言)。

網(wǎng)友們想知道Dan Hendrycks是否只提供了安全方面的建議,還是以某種方式給出了增強(qiáng)科學(xué)知識(shí)細(xì)節(jié)的具體研發(fā)建議。

這不禁讓人們聯(lián)想到此前Llama 4的翻車鬧劇,也是因?yàn)樘崆斑M(jìn)行了「針對(duì)性的訓(xùn)練」。


馬斯克親自帶貨

馬斯克曾在6月27日發(fā)帖稱,正和團(tuán)隊(duì)加班加點(diǎn)的研發(fā)Grok。

將在7月4日后發(fā)布Grok 4,按照美東時(shí)間,今天開始,任何時(shí)候都有可能見證Grok 4的發(fā)布。


馬斯克特地強(qiáng)調(diào)了,需要一次大型訓(xùn)練來開發(fā)了「特殊」的編碼模型。

在5月20日的微軟Build 2025大會(huì)上,馬斯克現(xiàn)場(chǎng)講述了Grok 3.5(Grok 4)將從第一性原理出發(fā)進(jìn)行構(gòu)建。


馬斯克:

尤其是在即將發(fā)布的Grok 3.5中,我們的目標(biāo)是讓模型從第一性原理出發(fā)進(jìn)行推理。

也就是說,像物理學(xué)家那樣思考,借用物理的工具來分析問題。

如果你想要探尋事物的本質(zhì)真相,就必須把問題分解到最基本、最可能正確的公理層面,然后再從這些基礎(chǔ)出發(fā)向上推理。

接著,你可以將最終結(jié)論與這些基本原理進(jìn)行校驗(yàn)。 在物理學(xué)中,如果你得出的結(jié)果違反了能量守恒或動(dòng)量守恒,那你要么發(fā)現(xiàn)了諾獎(jiǎng)級(jí)別的新理論,要么——更可能的是——你搞錯(cuò)了。

所以我們打造Grok 3.5的核心目標(biāo),就是以物理的基本原理為指導(dǎo),應(yīng)用這些方法來推理各種問題,力求以最小的誤差,接近真實(shí)。

當(dāng)然,出錯(cuò)是難免的,但我們的目標(biāo)是持續(xù)減少這些錯(cuò)誤。這個(gè)方向?qū)τ?AI 安全 至關(guān)重要。

我長久以來都在思考AI安全問題,而我最終得出的結(jié)論,其實(shí)可以用一句老話來概括:誠實(shí)是最好的策略

這不僅是道德要求,更是安全保障。 當(dāng)然我們也會(huì)犯錯(cuò),但我們承諾會(huì)盡快修正這些錯(cuò)誤。

我們也非常期待來自開發(fā)者社區(qū)的反饋——你們需要什么?我們哪里做錯(cuò)了?又該如何改進(jìn)?

我們希望Grok成為一個(gè)令開發(fā)者充滿期待的工具,一個(gè)他們的聲音能真正被聽到的平臺(tái)。

Grok將不斷進(jìn)化,努力滿足開發(fā)者的需求。

編碼能力成為必爭(zhēng)之地

根據(jù)Grok API此前的模型推測(cè),這次Grok 4 Code將是發(fā)布的重頭戲,也許還會(huì)有Grok 4 mini。


馬斯克特地提到Grok 4的編碼能力,也是受到如今各家的影響,編碼能力稱為了衡量新模型的試金石。

谷歌

  • Gemini2.5包括改進(jìn)的代碼生成、復(fù)雜代碼重構(gòu)/轉(zhuǎn)換、上下文管理、更好的PR評(píng)審能力,以及可定制命令等。

  • Gemini CLI是近期推出的命令行AI助手,基于Gemini2.5?Pro,可處理長達(dá)百萬token的上下文,支持包括代碼編寫、調(diào)試、內(nèi)容生成和任務(wù)管理于一體的多功能開發(fā)體驗(yàn)。

Anthropic

  • Claude 4(包含Opus與Sonnet)是Anthropic迄今最強(qiáng)大的模型系列,顯著提升編碼與AI agent能力。

  • Claude Code專注于終端環(huán)境使用,提供從代碼編輯、問題修復(fù)、架構(gòu)理解,到運(yùn)行測(cè)試、lint、git操作、PR創(chuàng)建的一站式工具。

OpenAI

  • 新版Codex是基于OpenAI o3微調(diào)而來的,用于自然語言翻譯代碼,延續(xù)迄今生成工具(如GitHubCopilot)的核心能力。

DeepSeek

  • DeepSeek?R1?0528是DeepSeek推出的R1最新版本,定位為全能推理與編碼能力提升模型。

既然老馬著重提到了編碼能力,那么也許這次是值得期待的。

參考資料:

https://x.com/WesRothMoney/status/1941227129875857869

https://x.com/legit_api/status/1941165728708874514


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
蒙B司機(jī)及乘客,在浙江高速熱暈!浙J車主砸窗相救

蒙B司機(jī)及乘客,在浙江高速熱暈!浙J車主砸窗相救

魯中晨報(bào)
2025-07-06 12:07:15
舉報(bào)后再發(fā):楊白勞借黃世仁錢的利息是多少?這又刺痛了多少人?

舉報(bào)后再發(fā):楊白勞借黃世仁錢的利息是多少?這又刺痛了多少人?

翻開歷史和現(xiàn)實(shí)
2025-04-28 14:48:17
哈登適應(yīng)新定位,快船補(bǔ)強(qiáng)內(nèi)線,更衣室氛圍提升

哈登適應(yīng)新定位,快船補(bǔ)強(qiáng)內(nèi)線,更衣室氛圍提升

廣西期刊傳媒
2025-07-06 12:21:02
第一次感受到“硫磺皂”的殺傷力,2塊錢竟能解決那么多生活痛點(diǎn)

第一次感受到“硫磺皂”的殺傷力,2塊錢竟能解決那么多生活痛點(diǎn)

裝修秀
2025-07-01 11:40:03
夏聯(lián)首日試訓(xùn)后!楊瀚森認(rèn)識(shí)到幾點(diǎn)不足,隊(duì)友主帥盛贊:聰明承受

夏聯(lián)首日試訓(xùn)后!楊瀚森認(rèn)識(shí)到幾點(diǎn)不足,隊(duì)友主帥盛贊:聰明承受

你的籃球頻道
2025-07-06 11:21:15
誰也沒想到,打敗彩禮的居然是社保

誰也沒想到,打敗彩禮的居然是社保

細(xì)說職場(chǎng)
2025-07-04 06:27:03
扛不住了!蘇梅危急,5國雇傭兵殺入包圍圈,俄軍徹底坐不住了

扛不住了!蘇梅危急,5國雇傭兵殺入包圍圈,俄軍徹底坐不住了

文雅筆墨
2025-07-06 05:01:18
羅體:若塔意外離世之后,那不勒斯決定暫停與利物浦談判努涅斯

羅體:若塔意外離世之后,那不勒斯決定暫停與利物浦談判努涅斯

雷速體育
2025-07-05 23:06:33
賣地救不了局,地方財(cái)政“緊張”遠(yuǎn)超大家想象,是真的沒錢了?

賣地救不了局,地方財(cái)政“緊張”遠(yuǎn)超大家想象,是真的沒錢了?

搬磚營Z
2025-07-04 15:38:34
“無兒無女”現(xiàn)象席卷全國,近7000萬女性終身不育,到底怎么破?

“無兒無女”現(xiàn)象席卷全國,近7000萬女性終身不育,到底怎么破?

青眼財(cái)經(jīng)
2025-05-23 22:25:27
獨(dú)居女子沉迷這事已花掉200萬元,兩套房都不夠用!她說背后有隱情……

獨(dú)居女子沉迷這事已花掉200萬元,兩套房都不夠用!她說背后有隱情……

新晚報(bào)
2025-07-05 07:46:07
女市委書記高速路上被警車別停,兩名便衣下車對(duì)其進(jìn)行搜身揩油

女市委書記高速路上被警車別停,兩名便衣下車對(duì)其進(jìn)行搜身揩油

神奇的錘子
2024-05-19 14:16:07
64歲富商四代同堂慶祝生日,小26歲妻抱兩歲兒子出鏡,前妻也在場(chǎng)

64歲富商四代同堂慶祝生日,小26歲妻抱兩歲兒子出鏡,前妻也在場(chǎng)

涵豆說娛
2025-07-06 11:34:16
劉玥,從清華才女,到第一流量女星,她經(jīng)歷了什么?

劉玥,從清華才女,到第一流量女星,她經(jīng)歷了什么?

閑侃閑侃
2025-07-06 09:49:48
4號(hào)臺(tái)風(fēng)大轉(zhuǎn)向,6省暴雨局地大暴雨,強(qiáng)降雨、高溫、大風(fēng)組合而來

4號(hào)臺(tái)風(fēng)大轉(zhuǎn)向,6省暴雨局地大暴雨,強(qiáng)降雨、高溫、大風(fēng)組合而來

老牛講
2025-07-06 00:10:58
中國工程師入境美國,因?yàn)椤皩?shí)話實(shí)說”被遣返,簽證也被吊銷

中國工程師入境美國,因?yàn)椤皩?shí)話實(shí)說”被遣返,簽證也被吊銷

華人生活網(wǎng)
2025-07-05 03:41:55
風(fēng)油精、清涼油、藿香正氣水……你用對(duì)了嗎?別讓“解暑”變“中招”!

風(fēng)油精、清涼油、藿香正氣水……你用對(duì)了嗎?別讓“解暑”變“中招”!

洪觀新聞
2025-07-03 15:28:31
想要復(fù)制“蘇超”,先問問自己能否容下那些虎狼之詞

想要復(fù)制“蘇超”,先問問自己能否容下那些虎狼之詞

元芳有看法
2025-06-10 15:12:45
小玥兒近照曝光很像大s,和汪小菲到廣州去旅游,馬筱梅被夸稱職

小玥兒近照曝光很像大s,和汪小菲到廣州去旅游,馬筱梅被夸稱職

小seven的囧囧啊
2025-07-06 12:42:06
大補(bǔ)的魚,不是帶魚和鯽魚,而是這4種魚,常吃補(bǔ)腦益智,強(qiáng)免疫

大補(bǔ)的魚,不是帶魚和鯽魚,而是這4種魚,常吃補(bǔ)腦益智,強(qiáng)免疫

秀廚娘
2025-07-05 17:24:39
2025-07-06 13:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13000文章數(shù) 66082關(guān)注度
往期回顧 全部

科技要聞

"大而美"法案連鎖反應(yīng):特斯拉或?qū)⑼?平價(jià)車"

頭條要聞

牛彈琴:馬斯克終于要大干一場(chǎng) 美國政壇巨震要開始了

頭條要聞

牛彈琴:馬斯克終于要大干一場(chǎng) 美國政壇巨震要開始了

體育要聞

梅西獻(xiàn)2神作:1V3一條龍 半場(chǎng)奔襲連過4人

娛樂要聞

2025上半年最能扛收視5位男演員排名?

財(cái)經(jīng)要聞

馬斯克宣布:美國黨成立了!

汽車要聞

阿斯頓·馬丁跑車陣容將齊聚2025古德伍德速度節(jié)

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
數(shù)碼
藝術(shù)
旅游

“生活不會(huì)一直都很好,但今天很好”

房產(chǎn)要聞

湖畔微醺夜,與全球大生活家共赴世界莊園理想生活之約

數(shù)碼要聞

華碩宣布北京時(shí)間 7 月 22 日舉行 Ascent GX10 迷你主機(jī)發(fā)布會(huì)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永川市| 翼城县| 饶阳县| 工布江达县| 台安县| 祥云县| 鲁山县| 龙泉市| 山阴县| 内黄县| 三门峡市| 财经| 青龙| 永清县| 兰西县| 德兴市| 安义县| 余干县| 二手房| 庆城县| 桐梓县| 临高县| 新郑市| 樟树市| 呼伦贝尔市| 林西县| 佛学| 临湘市| 遂川县| 阿勒泰市| 屯门区| 荔波县| 垦利县| 汉沽区| 靖西县| 宣城市| 托克逊县| 沙田区| 汶上县| 五原县| 凤山县|