新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】馬斯克手中的最后一張牌——Grok 4,終于打出來(lái)了。這個(gè)全球最聰明AI,一上線就刷爆全球榜單登頂TOP 1,把所有其他大模型都踩在腳下。重磅登場(chǎng)的Grok Heavy,月費(fèi)則達(dá)到了300刀。馬斯克已經(jīng)預(yù)言:明年Grok將發(fā)現(xiàn)新物理學(xué)。
馬斯克的背水一戰(zhàn),大獲全勝!
就在剛剛的發(fā)布會(huì)上,xAI的重磅炸彈Grok 4,終于在千呼萬(wàn)喚中登場(chǎng)了。
而它,可以說(shuō)是全球最聰明的AI!
不僅超越了大多數(shù)人類研究生,甚至比博士都好。
左右滑動(dòng)查看
左右滑動(dòng)查看
發(fā)布會(huì)全程1個(gè)小時(shí),下面是太長(zhǎng)不看的簡(jiǎn)單總結(jié):
現(xiàn)在,SuperGrok的用戶已經(jīng)可以用上了,普通版月費(fèi)30刀,Heavy版月費(fèi)300刀。
同時(shí)Grok 4 API也已向所有開(kāi)發(fā)者正式開(kāi)放,并將登錄第三方云平臺(tái)。
剛從政壇上鎩羽而歸,卻在AI界王者歸來(lái)。
果然,馬斯克還是那個(gè)傳說(shuō)中打不敗的男人。
完整直播可點(diǎn)擊觀看
20萬(wàn)塊GPU,成績(jī)刷爆HLE
在各種考試和基準(zhǔn)測(cè)試中,Grok 4的成績(jī)驚人。
比如,它在SAT中每次都能拿滿分,即使從未見(jiàn)過(guò)這些題目。
而在GRE考試中,它在所有學(xué)科領(lǐng)域,都能拿到近乎滿分,無(wú)論是人文學(xué)科、語(yǔ)言、數(shù)學(xué)、物理還是工程。
可以說(shuō),在所有學(xué)科領(lǐng)域,Grok 4都比幾乎所有人類研究生都要聰明。
怎么做到的?馬斯克進(jìn)行了揭秘。
首先,比起Grok 2,Grok 4的訓(xùn)練時(shí)間達(dá)到了Grok 2的100倍。
從Grok 2到Grok 3,xAI投入的主要是預(yù)訓(xùn)練算力;但從Grok 3到Grok 4,大量算力已經(jīng)被投入到推理和強(qiáng)化學(xué)習(xí)中。
通過(guò)訓(xùn)練Grok 2,團(tuán)隊(duì)第一次大規(guī)模擴(kuò)展了預(yù)訓(xùn)練。
這讓他們意識(shí)到:如果對(duì)數(shù)據(jù)消融、基礎(chǔ)設(shè)施和算法進(jìn)行更細(xì)致的處理,將預(yù)訓(xùn)練的規(guī)??梢栽偬嵘?0倍,從而打造出最頂尖的預(yù)訓(xùn)練基礎(chǔ)模型!
網(wǎng)友直呼:xAI在強(qiáng)化學(xué)習(xí)上投入的算力,竟然和預(yù)訓(xùn)練一樣多?這太瘋狂了!
這就是為什么,xAI要斥巨資建起有10萬(wàn)塊H100的世界級(jí)超算Colossus超算。
如果能收集可驗(yàn)證結(jié)果的獎(jiǎng)勵(lì)數(shù)據(jù),就可以訓(xùn)練模型從第一性原理出發(fā)進(jìn)行思考、推理、糾正自身錯(cuò)誤,這就是Grok 2推理能力的由來(lái)。
那么,接下來(lái),如果把Colossus超算的20萬(wàn)GPU全部都投入,會(huì)發(fā)生什么?
答案就是——Grok 4的誕生!
在 「人類最后考試」HLE上,Grok 4直接成績(jī)刷爆,分?jǐn)?shù)驚人。
HLE總共有2500道問(wèn)題,涵蓋了多個(gè)學(xué)科,今年早些時(shí)候剛發(fā)布時(shí),大多數(shù)模型的準(zhǔn)確率得分僅為個(gè)位數(shù)。
原因就在于,HLE的考題極難,比如下面這些題,分別是一道關(guān)于范疇論中自然變換的數(shù)學(xué)題、一道關(guān)于電環(huán)化反映的有機(jī)化學(xué)題,以及一道從希伯來(lái)語(yǔ)原文中區(qū)分閉音節(jié)和開(kāi)音節(jié)的語(yǔ)言學(xué)題。
顯然,這些題目已經(jīng)達(dá)到了博士級(jí),甚至更前沿的難度。
幾乎沒(méi)有任何一個(gè)人類,能答對(duì)所有這些問(wèn)題,并且取得高分。如果能答對(duì)5%,就算人群中極聰明的人了。
然而,Grok 4卻在HLE的所有領(lǐng)域,都達(dá)到了博士級(jí)別,甚至勝過(guò)了大多數(shù)人類博士生,因?yàn)楹笳叽蟾怕识紩?huì)不及格。
當(dāng)然,如果要說(shuō)Grok 4目前有什么缺憾,就是還未發(fā)明出新的技術(shù),或者發(fā)現(xiàn)新的物理學(xué)。
但馬斯克認(rèn)為,這只是時(shí)間問(wèn)題——最早在今年年底,Grok就會(huì)發(fā)明出新技術(shù),明年它就會(huì)發(fā)現(xiàn)新的物理學(xué)。
海量算力,訓(xùn)出全球最聰明AI
團(tuán)隊(duì)研究者爆料說(shuō),其實(shí)剛開(kāi)始,Grok 4的準(zhǔn)確率也只是個(gè)位數(shù)。
但隨著投入的算力越來(lái)越多,奇跡發(fā)生了!最終,它做出了HLE中1/4的難題,這還是在沒(méi)有工具輔助的情況下。
而在被賦予工具使用能力,將工具使用直接融入訓(xùn)練過(guò)程后,Grok 4的性能開(kāi)始了驚人的暴漲。
而且,目前Grok 4還未使用任何公司級(jí)的強(qiáng)大工具。
如果給它提供企業(yè)級(jí)的工具,比如特斯拉或Space X使用的有限元分析、計(jì)算流體力學(xué)、碰撞模擬,以及高精度的物理模擬器,那么毫無(wú)疑問(wèn),Grok 4還將發(fā)生顛覆級(jí)的改變!
比如,如果把Grok和擎天柱結(jié)合,它就可以和真實(shí)世界互動(dòng),提出假設(shè),親手驗(yàn)證真?zhèn)巍?/p>
「重量級(jí)」Grok Heavy登場(chǎng)
除了算力的問(wèn)題,我們還需要解決的一大難題,就是如何突破數(shù)據(jù)瓶頸。
RL的原則,就是不僅要找到大量有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問(wèn)題,還要有可靠的信號(hào)告訴模型,它做對(duì)了還是做錯(cuò)了。
然而,如今我們已經(jīng)快找不到可用的測(cè)試題了!大多數(shù)人類無(wú)法解決的難題,對(duì)AI已經(jīng)開(kāi)始變得輕而易舉。
好在,我們還有一個(gè)絕佳的裁判,那就是現(xiàn)實(shí)。物理學(xué)是終極法則,對(duì)AI最終的推理測(cè)試,就是現(xiàn)實(shí)世界。
讓我們?cè)O(shè)想一下,如果單個(gè)AI智能體能解決40%的問(wèn)題,那么同時(shí)運(yùn)行多個(gè)智能體呢?
這,就是所謂的測(cè)試時(shí)計(jì)算(test-time compute)。隨著它的擴(kuò)展,Grok 4已經(jīng)能解決HLE中超50%的純文本題目。
而如果并行生成多個(gè)AI智能體,Grok 4 Heavy就誕生了!
這些智能體會(huì)獨(dú)立工作,互相比較各自的成果,決定哪個(gè)更好。一旦有智能體發(fā)現(xiàn)了關(guān)鍵解決方案,就會(huì)分享給其他智能體,最終它們通過(guò)交流,得出最終答案。
這就是Grok 4之所以「Heavy」的原因,因?yàn)闇y(cè)試和計(jì)算的規(guī)模擴(kuò)大了一個(gè)數(shù)量級(jí)。
· Grok 4 Heavy驚人演示
Grok 4 Heavy,已經(jīng)進(jìn)化到可以不止會(huì)考試,還能解決真實(shí)世界中各種刁鉆的問(wèn)題!
比如,我們可以讓它預(yù)測(cè)當(dāng)前美國(guó)職業(yè)棒球大聯(lián)盟(MLB)各隊(duì)的奪冠賠率。
它能計(jì)算出,洛杉磯道奇隊(duì)是今年的奪冠熱門,獲勝概率為21.6%。
并且,我們還能讓它生成兩個(gè)黑洞碰撞的可視化圖像。
在下圖中可以看到,從兩個(gè)黑洞相互旋進(jìn)開(kāi)始、合并、到達(dá)鈴振階段,這個(gè)碰撞過(guò)程大致是正確的。
尤為精彩的是,它使用了后牛頓近似法,而非計(jì)算黑洞中心附近的廣義相對(duì)論效應(yīng)。
也就是說(shuō),它進(jìn)行了一個(gè)真實(shí)的模擬,對(duì)該使用的物理常數(shù)進(jìn)行了相當(dāng)多的推理。
另外,它還能發(fā)現(xiàn)X上頭像最詭異的xAI員工。
要知道,最神奇的地方就在于,它竟然理解了什么是「詭異」。
如果說(shuō)Grok 4有什么弱點(diǎn)的話,就是目前它還是「部分失明」,圖像理解能力和生成能力都比較弱。
不過(guò)令人期待的是,Grok 4是xAI目前訓(xùn)練的第六版模型,第七版已經(jīng)在訓(xùn)練中了!
對(duì)于所有AGI模型來(lái)說(shuō),最權(quán)威的測(cè)試就是ARC-AGI了。
在直播前24小時(shí),ARC-AGI團(tuán)隊(duì)接到xAI電話后,才開(kāi)始了Grok 4的跑分測(cè)試。
結(jié)果顯示,Grok 4是唯一一個(gè)成績(jī)突破10%的模型。
具體來(lái)說(shuō),Grok 4(Thinking)在ARC-AGI-2刷新了SOTA,準(zhǔn)確率為15.9%。
在ARC-AGI-1上,它的成績(jī)達(dá)到了66.7%。同時(shí),Grok 4實(shí)現(xiàn)了每美元智能成本的最優(yōu)化。
ChatGPT和Grok 4現(xiàn)場(chǎng)飚語(yǔ)音
此外,研究人員還改進(jìn)了Grok 4的「語(yǔ)音模式」,延遲率直接減半,還新增了兩種全新的音色——
Sal:擁有深沉的聲線
Eve:音色優(yōu)美的英倫女聲,能演繹豐富的情感
接下來(lái),直接進(jìn)入demo。xAI員工打開(kāi)Grok問(wèn)道,「現(xiàn)在正在有數(shù)百萬(wàn)人觀看我們直播,你感到興奮嗎」?
Eve好像真的就在直播現(xiàn)場(chǎng),激動(dòng)地表示,「這就像站在老維克劇院的舞臺(tái)上,看著臺(tái)下人山人?!?。
它還會(huì)低聲細(xì)語(yǔ),說(shuō)了一些能夠讓xAI員工不再緊張的話。
不僅如此,Eve現(xiàn)場(chǎng)還獻(xiàn)上了一段非常優(yōu)美的歌劇,還能、即興表演隨時(shí)更換曲調(diào),讓人聽(tīng)著陶醉。
更有趣的是,為了測(cè)試Grok 4的反應(yīng)速度,xAI員工直接讓ChatGPT和Grok同臺(tái)PK。
任務(wù)是,我說(shuō)一句,你說(shuō)一句,跟讀數(shù)字。
ChatGPT的反應(yīng)有些遲緩,而且并沒(méi)有依據(jù)指令跟讀,自主說(shuō)一些不相關(guān)的話。
此時(shí),Grok的表現(xiàn)令人驚艷,一步一步跟著讀了下來(lái)。
最后,研究人員總結(jié)到,自Grok模型上線以來(lái),在過(guò)去八周的時(shí)間,實(shí)現(xiàn)了端到端延遲提速2倍,新增了5種不同音色,活躍用戶量更是增長(zhǎng)了10倍。
足見(jiàn),Grok語(yǔ)音功能正在飛速發(fā)展。
Grok 4賣貨,年入47億填補(bǔ)GPU巨銷
那么,Grok 4在現(xiàn)實(shí)生活中能做什么?
賺錢!?。?/p>
在Vending-Bench商業(yè)場(chǎng)景的基準(zhǔn)測(cè)試中,Grok 4能夠長(zhǎng)期運(yùn)營(yíng)自動(dòng)售貨機(jī),并且成為了榜單第一。
在此過(guò)程中,它不僅要完成庫(kù)存管理,還得與供應(yīng)商談判、制作定價(jià)策略等任務(wù)。
這些任務(wù)看似簡(jiǎn)單,但要求模型「長(zhǎng)期持續(xù)運(yùn)營(yíng)」,只有Grok 4能夠賺到,凈資產(chǎn)也是所有模型兩倍。
發(fā)布會(huì)上,馬斯克半開(kāi)玩笑表示,「這下我們GPU算力開(kāi)銷有著落了。只需要部署100萬(wàn)臺(tái)自動(dòng)售貨機(jī),年收入就能達(dá)47億美元」。
看來(lái),下一步Grok 4也要為自己打工了。
此外,Grok 4的誕生,將帶來(lái)生物醫(yī)藥、金融等跨領(lǐng)域的突破,重塑商業(yè)AI范式。
如下demo所見(jiàn),Grok正成為企業(yè)級(jí)的智能Copilot,擁有256k的上下文窗口,前沿的多模態(tài)推理,實(shí)時(shí)的數(shù)據(jù)搜索,以及企業(yè)級(jí)的安全能力。
4小時(shí),肝出爆款射擊游戲
更令人激動(dòng)的是,Grok 4在AI游戲?qū)崟r(shí)生成領(lǐng)域,大有前途。
現(xiàn)場(chǎng),員工展示了AI游戲設(shè)計(jì)師Danny Limanseta,在極限4小時(shí)內(nèi),制作出了第一人稱射擊游戲。
馬斯克預(yù)言,「首個(gè)真正優(yōu)質(zhì)的AI電子游戲可能會(huì)在明年問(wèn)世,今年或許能看到半小時(shí)長(zhǎng)度的可觀看AI劇集,而首部AI電影很可能在明年誕生」。
在未來(lái)路線圖中,xAI還計(jì)劃發(fā)布編碼模型、多模態(tài)智能體和視頻生成模型。
發(fā)布會(huì)最后,屏幕上出現(xiàn)了道格拉斯·亞當(dāng)斯《銀河系搭車客指南》第四部的書名——《再見(jiàn),謝謝所有的魚》。
果然,還是那個(gè)我們熟悉的科幻迷馬斯克。
文明奇點(diǎn)已至
馬斯克激動(dòng)表示,我們正處于智能大爆炸的起點(diǎn)。奇點(diǎn)時(shí)刻已經(jīng)到來(lái),這是人類歷史上最激動(dòng)人心的時(shí)代。
而此時(shí)最重要的,就是打造一個(gè)好的AI,一個(gè)善良的AI,讓它去最大程度地追求真理。
如果把AI看作一個(gè)超級(jí)天才的孩子,它最終一定會(huì)比人類聰明,而我們能做的,就是開(kāi)始就給它灌輸正確的價(jià)值觀,讓它追求真實(shí)、正直、善良。
給AI算力,加上正確的工具,最終還要和物理世界互動(dòng),到時(shí),我們的經(jīng)濟(jì)體量將會(huì)是現(xiàn)在的數(shù)千倍,甚至數(shù)百萬(wàn)倍!
馬斯克說(shuō),如果把文明進(jìn)程看作是完成卡爾達(dá)肖夫等級(jí)的百分比,那我們距離1級(jí)文明的10%還很遠(yuǎn),可能只完成了1%或2%。
1級(jí)文明利用整個(gè)行星的能源;2級(jí)文明利用整個(gè)恒星的能源;3級(jí)文明利用整個(gè)星系的能源
如果文明沒(méi)有自我毀滅,我們就會(huì)邁向2級(jí)文明。跟那時(shí)相比,我們今天的經(jīng)濟(jì)水平,會(huì)像穴居人往火里扔木棍一樣原始。
馬斯克承認(rèn),親手創(chuàng)造出這樣一個(gè)遠(yuǎn)超人類自身的智能,也令人有些不安——它對(duì)人類究竟是好是壞?
最終,他說(shuō)服了自己:這個(gè)AI大概率是好的,就算不是,自己也要活到親眼見(jiàn)證這一切發(fā)生的那一天。
馬斯克,背水一戰(zhàn)
如今,馬斯克真的是破釜沉舟,背水一戰(zhàn)了。
本來(lái)是特朗普競(jìng)選的最大功臣,最近他卻成了「大而美法案」的最大輸家,隨著「特馬同盟」的徹底崩塌,馬斯克似乎已經(jīng)無(wú)牌可出了。
首先,隨著「大而美法案」的出臺(tái),7500美元的電動(dòng)汽車購(gòu)車稅收抵免,已經(jīng)提前至2025年9月30日終止,從此,特斯拉每年的利潤(rùn)損失將高達(dá)17億美元。
而DOGE前期的努力,也隨著大而美法案中的大規(guī)模赤字?jǐn)U張而付諸東流。
政壇的失意,讓馬斯克全美業(yè)務(wù)的關(guān)鍵布局,包括電動(dòng)汽車、Space X、腦機(jī)接口、加密貨幣等,商業(yè)利益全面被連累。
在這種背景下誕生的Grok 4,可以說(shuō)是馬斯克最后的希望。
終于,這次發(fā)布會(huì)上他用Grok 4告訴全世界:我手里還有最后一張牌。
Grok團(tuán)隊(duì)中,華人學(xué)者占據(jù)半壁江山
參考資料:
https://x.com/i/events/1942716886258528256
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.