網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克20萬(wàn)GPU訓(xùn)出史上最聰明AI，Grok 4重返地球之巔！人類博士全線潰敗

2025-07-10 15:40:15　來(lái)源: 新智元

北京舉報(bào)

分享至

　　新智元報(bào)道

　　編輯：編輯部

　　【新智元導(dǎo)讀】馬斯克手中的最后一張牌——Grok 4，終于打出來(lái)了。這個(gè)全球最聰明AI，一上線就刷爆全球榜單登頂TOP 1，把所有其他大模型都踩在腳下。重磅登場(chǎng)的Grok Heavy，月費(fèi)則達(dá)到了300刀。馬斯克已經(jīng)預(yù)言：明年Grok將發(fā)現(xiàn)新物理學(xué)。

　　馬斯克的背水一戰(zhàn)，大獲全勝！

　　就在剛剛的發(fā)布會(huì)上，xAI的重磅炸彈Grok 4，終于在千呼萬(wàn)喚中登場(chǎng)了。

　　而它，可以說(shuō)是全球最聰明的AI！

　　不僅超越了大多數(shù)人類研究生，甚至比博士都好。

　　左右滑動(dòng)查看

　　發(fā)布會(huì)全程1個(gè)小時(shí)，下面是太長(zhǎng)不看的簡(jiǎn)單總結(jié)：

　　現(xiàn)在，SuperGrok的用戶已經(jīng)可以用上了，普通版月費(fèi)30刀，Heavy版月費(fèi)300刀。

　　同時(shí)Grok 4 API也已向所有開(kāi)發(fā)者正式開(kāi)放，并將登錄第三方云平臺(tái)。

　　剛從政壇上鎩羽而歸，卻在AI界王者歸來(lái)。

　　果然，馬斯克還是那個(gè)傳說(shuō)中打不敗的男人。

　　完整直播可點(diǎn)擊觀看

　　20萬(wàn)塊GPU，成績(jī)刷爆HLE

　　在各種考試和基準(zhǔn)測(cè)試中，Grok 4的成績(jī)驚人。

　　比如，它在SAT中每次都能拿滿分，即使從未見(jiàn)過(guò)這些題目。

　　而在GRE考試中，它在所有學(xué)科領(lǐng)域，都能拿到近乎滿分，無(wú)論是人文學(xué)科、語(yǔ)言、數(shù)學(xué)、物理還是工程。

　　可以說(shuō)，在所有學(xué)科領(lǐng)域，Grok 4都比幾乎所有人類研究生都要聰明。

　　怎么做到的？馬斯克進(jìn)行了揭秘。

　　首先，比起Grok 2，Grok 4的訓(xùn)練時(shí)間達(dá)到了Grok 2的100倍。

　　從Grok 2到Grok 3，xAI投入的主要是預(yù)訓(xùn)練算力；但從Grok 3到Grok 4，大量算力已經(jīng)被投入到推理和強(qiáng)化學(xué)習(xí)中。

　　通過(guò)訓(xùn)練Grok 2，團(tuán)隊(duì)第一次大規(guī)模擴(kuò)展了預(yù)訓(xùn)練。

　　這讓他們意識(shí)到：如果對(duì)數(shù)據(jù)消融、基礎(chǔ)設(shè)施和算法進(jìn)行更細(xì)致的處理，將預(yù)訓(xùn)練的規(guī)?？梢栽偬嵘?0倍，從而打造出最頂尖的預(yù)訓(xùn)練基礎(chǔ)模型！

　　網(wǎng)友直呼：xAI在強(qiáng)化學(xué)習(xí)上投入的算力，竟然和預(yù)訓(xùn)練一樣多？這太瘋狂了！

　　這就是為什么，xAI要斥巨資建起有10萬(wàn)塊H100的世界級(jí)超算Colossus超算。

　　如果能收集可驗(yàn)證結(jié)果的獎(jiǎng)勵(lì)數(shù)據(jù)，就可以訓(xùn)練模型從第一性原理出發(fā)進(jìn)行思考、推理、糾正自身錯(cuò)誤，這就是Grok 2推理能力的由來(lái)。

　　那么，接下來(lái)，如果把Colossus超算的20萬(wàn)GPU全部都投入，會(huì)發(fā)生什么？

　　答案就是——Grok 4的誕生！

　　在「人類最后考試」HLE上，Grok 4直接成績(jī)刷爆，分?jǐn)?shù)驚人。

　　HLE總共有2500道問(wèn)題，涵蓋了多個(gè)學(xué)科，今年早些時(shí)候剛發(fā)布時(shí)，大多數(shù)模型的準(zhǔn)確率得分僅為個(gè)位數(shù)。

　　原因就在于，HLE的考題極難，比如下面這些題，分別是一道關(guān)于范疇論中自然變換的數(shù)學(xué)題、一道關(guān)于電環(huán)化反映的有機(jī)化學(xué)題，以及一道從希伯來(lái)語(yǔ)原文中區(qū)分閉音節(jié)和開(kāi)音節(jié)的語(yǔ)言學(xué)題。

　　顯然，這些題目已經(jīng)達(dá)到了博士級(jí)，甚至更前沿的難度。

　　幾乎沒(méi)有任何一個(gè)人類，能答對(duì)所有這些問(wèn)題，并且取得高分。如果能答對(duì)5%，就算人群中極聰明的人了。

　　然而，Grok 4卻在HLE的所有領(lǐng)域，都達(dá)到了博士級(jí)別，甚至勝過(guò)了大多數(shù)人類博士生，因?yàn)楹笳叽蟾怕识紩?huì)不及格。

　　當(dāng)然，如果要說(shuō)Grok 4目前有什么缺憾，就是還未發(fā)明出新的技術(shù)，或者發(fā)現(xiàn)新的物理學(xué)。

　　但馬斯克認(rèn)為，這只是時(shí)間問(wèn)題——最早在今年年底，Grok就會(huì)發(fā)明出新技術(shù)，明年它就會(huì)發(fā)現(xiàn)新的物理學(xué)。

　　海量算力，訓(xùn)出全球最聰明AI

　　團(tuán)隊(duì)研究者爆料說(shuō)，其實(shí)剛開(kāi)始，Grok 4的準(zhǔn)確率也只是個(gè)位數(shù)。

　　但隨著投入的算力越來(lái)越多，奇跡發(fā)生了！最終，它做出了HLE中1/4的難題，這還是在沒(méi)有工具輔助的情況下。

　　而在被賦予工具使用能力，將工具使用直接融入訓(xùn)練過(guò)程后，Grok 4的性能開(kāi)始了驚人的暴漲。

　　而且，目前Grok 4還未使用任何公司級(jí)的強(qiáng)大工具。

　　如果給它提供企業(yè)級(jí)的工具，比如特斯拉或Space X使用的有限元分析、計(jì)算流體力學(xué)、碰撞模擬，以及高精度的物理模擬器，那么毫無(wú)疑問(wèn)，Grok 4還將發(fā)生顛覆級(jí)的改變！

　　比如，如果把Grok和擎天柱結(jié)合，它就可以和真實(shí)世界互動(dòng)，提出假設(shè)，親手驗(yàn)證真?zhèn)巍?/p>

　　「重量級(jí)」Grok Heavy登場(chǎng)

　　除了算力的問(wèn)題，我們還需要解決的一大難題，就是如何突破數(shù)據(jù)瓶頸。

　　RL的原則，就是不僅要找到大量有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問(wèn)題，還要有可靠的信號(hào)告訴模型，它做對(duì)了還是做錯(cuò)了。

　　然而，如今我們已經(jīng)快找不到可用的測(cè)試題了！大多數(shù)人類無(wú)法解決的難題，對(duì)AI已經(jīng)開(kāi)始變得輕而易舉。

　　好在，我們還有一個(gè)絕佳的裁判，那就是現(xiàn)實(shí)。物理學(xué)是終極法則，對(duì)AI最終的推理測(cè)試，就是現(xiàn)實(shí)世界。

　　讓我們?cè)O(shè)想一下，如果單個(gè)AI智能體能解決40%的問(wèn)題，那么同時(shí)運(yùn)行多個(gè)智能體呢？

　　這，就是所謂的測(cè)試時(shí)計(jì)算（test-time compute）。隨著它的擴(kuò)展，Grok 4已經(jīng)能解決HLE中超50%的純文本題目。

　　而如果并行生成多個(gè)AI智能體，Grok 4 Heavy就誕生了！

　　這些智能體會(huì)獨(dú)立工作，互相比較各自的成果，決定哪個(gè)更好。一旦有智能體發(fā)現(xiàn)了關(guān)鍵解決方案，就會(huì)分享給其他智能體，最終它們通過(guò)交流，得出最終答案。

　　這就是Grok 4之所以「Heavy」的原因，因?yàn)闇y(cè)試和計(jì)算的規(guī)模擴(kuò)大了一個(gè)數(shù)量級(jí)。

　　· Grok 4 Heavy驚人演示

　　Grok 4 Heavy，已經(jīng)進(jìn)化到可以不止會(huì)考試，還能解決真實(shí)世界中各種刁鉆的問(wèn)題！

　　比如，我們可以讓它預(yù)測(cè)當(dāng)前美國(guó)職業(yè)棒球大聯(lián)盟（MLB）各隊(duì)的奪冠賠率。

　　它能計(jì)算出，洛杉磯道奇隊(duì)是今年的奪冠熱門，獲勝概率為21.6%。

　　并且，我們還能讓它生成兩個(gè)黑洞碰撞的可視化圖像。

　　在下圖中可以看到，從兩個(gè)黑洞相互旋進(jìn)開(kāi)始、合并、到達(dá)鈴振階段，這個(gè)碰撞過(guò)程大致是正確的。

　　尤為精彩的是，它使用了后牛頓近似法，而非計(jì)算黑洞中心附近的廣義相對(duì)論效應(yīng)。

　　也就是說(shuō)，它進(jìn)行了一個(gè)真實(shí)的模擬，對(duì)該使用的物理常數(shù)進(jìn)行了相當(dāng)多的推理。

　　另外，它還能發(fā)現(xiàn)X上頭像最詭異的xAI員工。

　　要知道，最神奇的地方就在于，它竟然理解了什么是「詭異」。

　　如果說(shuō)Grok 4有什么弱點(diǎn)的話，就是目前它還是「部分失明」，圖像理解能力和生成能力都比較弱。

　　不過(guò)令人期待的是，Grok 4是xAI目前訓(xùn)練的第六版模型，第七版已經(jīng)在訓(xùn)練中了！

　　對(duì)于所有AGI模型來(lái)說(shuō)，最權(quán)威的測(cè)試就是ARC-AGI了。

　　在直播前24小時(shí)，ARC-AGI團(tuán)隊(duì)接到xAI電話后，才開(kāi)始了Grok 4的跑分測(cè)試。

　　結(jié)果顯示，Grok 4是唯一一個(gè)成績(jī)突破10%的模型。

　　具體來(lái)說(shuō)，Grok 4（Thinking）在ARC-AGI-2刷新了SOTA，準(zhǔn)確率為15.9%。

　　在ARC-AGI-1上，它的成績(jī)達(dá)到了66.7%。同時(shí)，Grok 4實(shí)現(xiàn)了每美元智能成本的最優(yōu)化。

　　ChatGPT和Grok 4現(xiàn)場(chǎng)飚語(yǔ)音

　　此外，研究人員還改進(jìn)了Grok 4的「語(yǔ)音模式」，延遲率直接減半，還新增了兩種全新的音色——

　　Sal：擁有深沉的聲線

　　Eve：音色優(yōu)美的英倫女聲，能演繹豐富的情感

　　接下來(lái)，直接進(jìn)入demo。xAI員工打開(kāi)Grok問(wèn)道，「現(xiàn)在正在有數(shù)百萬(wàn)人觀看我們直播，你感到興奮嗎」？

　　Eve好像真的就在直播現(xiàn)場(chǎng)，激動(dòng)地表示，「這就像站在老維克劇院的舞臺(tái)上，看著臺(tái)下人山人?！?。

　　它還會(huì)低聲細(xì)語(yǔ)，說(shuō)了一些能夠讓xAI員工不再緊張的話。

　　不僅如此，Eve現(xiàn)場(chǎng)還獻(xiàn)上了一段非常優(yōu)美的歌劇，還能、即興表演隨時(shí)更換曲調(diào)，讓人聽(tīng)著陶醉。

　　更有趣的是，為了測(cè)試Grok 4的反應(yīng)速度，xAI員工直接讓ChatGPT和Grok同臺(tái)PK。

　　任務(wù)是，我說(shuō)一句，你說(shuō)一句，跟讀數(shù)字。

　　ChatGPT的反應(yīng)有些遲緩，而且并沒(méi)有依據(jù)指令跟讀，自主說(shuō)一些不相關(guān)的話。

　　此時(shí)，Grok的表現(xiàn)令人驚艷，一步一步跟著讀了下來(lái)。

　　最后，研究人員總結(jié)到，自Grok模型上線以來(lái)，在過(guò)去八周的時(shí)間，實(shí)現(xiàn)了端到端延遲提速2倍，新增了5種不同音色，活躍用戶量更是增長(zhǎng)了10倍。

　　足見(jiàn)，Grok語(yǔ)音功能正在飛速發(fā)展。

　　Grok 4賣貨，年入47億填補(bǔ)GPU巨銷

　　那么，Grok 4在現(xiàn)實(shí)生活中能做什么？

　　賺錢！?。?/p>

　　在Vending-Bench商業(yè)場(chǎng)景的基準(zhǔn)測(cè)試中，Grok 4能夠長(zhǎng)期運(yùn)營(yíng)自動(dòng)售貨機(jī)，并且成為了榜單第一。

　　在此過(guò)程中，它不僅要完成庫(kù)存管理，還得與供應(yīng)商談判、制作定價(jià)策略等任務(wù)。

　　這些任務(wù)看似簡(jiǎn)單，但要求模型「長(zhǎng)期持續(xù)運(yùn)營(yíng)」，只有Grok 4能夠賺到，凈資產(chǎn)也是所有模型兩倍。

　　發(fā)布會(huì)上，馬斯克半開(kāi)玩笑表示，「這下我們GPU算力開(kāi)銷有著落了。只需要部署100萬(wàn)臺(tái)自動(dòng)售貨機(jī)，年收入就能達(dá)47億美元」。

　　看來(lái)，下一步Grok 4也要為自己打工了。

　　此外，Grok 4的誕生，將帶來(lái)生物醫(yī)藥、金融等跨領(lǐng)域的突破，重塑商業(yè)AI范式。

　　如下demo所見(jiàn)，Grok正成為企業(yè)級(jí)的智能Copilot，擁有256k的上下文窗口，前沿的多模態(tài)推理，實(shí)時(shí)的數(shù)據(jù)搜索，以及企業(yè)級(jí)的安全能力。

　　4小時(shí)，肝出爆款射擊游戲

　　更令人激動(dòng)的是，Grok 4在AI游戲?qū)崟r(shí)生成領(lǐng)域，大有前途。

　　現(xiàn)場(chǎng)，員工展示了AI游戲設(shè)計(jì)師Danny Limanseta，在極限4小時(shí)內(nèi)，制作出了第一人稱射擊游戲。

　　馬斯克預(yù)言，「首個(gè)真正優(yōu)質(zhì)的AI電子游戲可能會(huì)在明年問(wèn)世，今年或許能看到半小時(shí)長(zhǎng)度的可觀看AI劇集，而首部AI電影很可能在明年誕生」。

　　在未來(lái)路線圖中，xAI還計(jì)劃發(fā)布編碼模型、多模態(tài)智能體和視頻生成模型。

　　發(fā)布會(huì)最后，屏幕上出現(xiàn)了道格拉斯·亞當(dāng)斯《銀河系搭車客指南》第四部的書名——《再見(jiàn)，謝謝所有的魚》。

　　果然，還是那個(gè)我們熟悉的科幻迷馬斯克。

　　文明奇點(diǎn)已至

　　馬斯克激動(dòng)表示，我們正處于智能大爆炸的起點(diǎn)。奇點(diǎn)時(shí)刻已經(jīng)到來(lái)，這是人類歷史上最激動(dòng)人心的時(shí)代。

　　而此時(shí)最重要的，就是打造一個(gè)好的AI，一個(gè)善良的AI，讓它去最大程度地追求真理。

　　如果把AI看作一個(gè)超級(jí)天才的孩子，它最終一定會(huì)比人類聰明，而我們能做的，就是開(kāi)始就給它灌輸正確的價(jià)值觀，讓它追求真實(shí)、正直、善良。

　　給AI算力，加上正確的工具，最終還要和物理世界互動(dòng)，到時(shí)，我們的經(jīng)濟(jì)體量將會(huì)是現(xiàn)在的數(shù)千倍，甚至數(shù)百萬(wàn)倍！

　　馬斯克說(shuō)，如果把文明進(jìn)程看作是完成卡爾達(dá)肖夫等級(jí)的百分比，那我們距離1級(jí)文明的10%還很遠(yuǎn)，可能只完成了1%或2%。

　　1級(jí)文明利用整個(gè)行星的能源；2級(jí)文明利用整個(gè)恒星的能源；3級(jí)文明利用整個(gè)星系的能源

　　如果文明沒(méi)有自我毀滅，我們就會(huì)邁向2級(jí)文明。跟那時(shí)相比，我們今天的經(jīng)濟(jì)水平，會(huì)像穴居人往火里扔木棍一樣原始。

　　馬斯克承認(rèn)，親手創(chuàng)造出這樣一個(gè)遠(yuǎn)超人類自身的智能，也令人有些不安——它對(duì)人類究竟是好是壞？

　　最終，他說(shuō)服了自己：這個(gè)AI大概率是好的，就算不是，自己也要活到親眼見(jiàn)證這一切發(fā)生的那一天。

　　馬斯克，背水一戰(zhàn)

　　如今，馬斯克真的是破釜沉舟，背水一戰(zhàn)了。

　　本來(lái)是特朗普競(jìng)選的最大功臣，最近他卻成了「大而美法案」的最大輸家，隨著「特馬同盟」的徹底崩塌，馬斯克似乎已經(jīng)無(wú)牌可出了。

　　首先，隨著「大而美法案」的出臺(tái)，7500美元的電動(dòng)汽車購(gòu)車稅收抵免，已經(jīng)提前至2025年9月30日終止，從此，特斯拉每年的利潤(rùn)損失將高達(dá)17億美元。

　　而DOGE前期的努力，也隨著大而美法案中的大規(guī)模赤字?jǐn)U張而付諸東流。

　　政壇的失意，讓馬斯克全美業(yè)務(wù)的關(guān)鍵布局，包括電動(dòng)汽車、Space X、腦機(jī)接口、加密貨幣等，商業(yè)利益全面被連累。

　　在這種背景下誕生的Grok 4，可以說(shuō)是馬斯克最后的希望。

　　終于，這次發(fā)布會(huì)上他用Grok 4告訴全世界：我手里還有最后一張牌。

　　Grok團(tuán)隊(duì)中，華人學(xué)者占據(jù)半壁江山

　　參考資料：

　　https://x.com/i/events/1942716886258528256

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.