新智元報道
編輯:編輯部
【新智元導讀】馬斯克手中的最后一張牌——Grok 4,終于打出來了。這個全球最聰明AI,一上線就刷爆全球榜單登頂TOP 1,把所有其他大模型都踩在腳下。重磅登場的Grok Heavy,月費則達到了300刀。馬斯克已經預言:明年Grok將發現新物理學。
馬斯克的背水一戰,大獲全勝!
就在剛剛的發布會上,xAI的重磅炸彈Grok 4,終于在千呼萬喚中登場了。
而它,可以說是全球最聰明的AI!
不僅超越了大多數人類研究生,甚至比博士都好。
左右滑動查看
左右滑動查看
發布會全程1個小時,下面是太長不看的簡單總結:
現在,SuperGrok的用戶已經可以用上了,普通版月費30刀,Heavy版月費300刀。
同時Grok 4 API也已向所有開發者正式開放,并將登錄第三方云平臺。
剛從政壇上鎩羽而歸,卻在AI界王者歸來。
果然,馬斯克還是那個傳說中打不敗的男人。
完整直播可點擊觀看
20萬塊GPU,成績刷爆HLE
在各種考試和基準測試中,Grok 4的成績驚人。
比如,它在SAT中每次都能拿滿分,即使從未見過這些題目。
而在GRE考試中,它在所有學科領域,都能拿到近乎滿分,無論是人文學科、語言、數學、物理還是工程。
可以說,在所有學科領域,Grok 4都比幾乎所有人類研究生都要聰明。
怎么做到的?馬斯克進行了揭秘。
首先,比起Grok 2,Grok 4的訓練時間達到了Grok 2的100倍。
從Grok 2到Grok 3,xAI投入的主要是預訓練算力;但從Grok 3到Grok 4,大量算力已經被投入到推理和強化學習中。
通過訓練Grok 2,團隊第一次大規模擴展了預訓練。
這讓他們意識到:如果對數據消融、基礎設施和算法進行更細致的處理,將預訓練的規模可以再提升10倍,從而打造出最頂尖的預訓練基礎模型!
網友直呼:xAI在強化學習上投入的算力,竟然和預訓練一樣多?這太瘋狂了!
這就是為什么,xAI要斥巨資建起有10萬塊H100的世界級超算Colossus超算。
如果能收集可驗證結果的獎勵數據,就可以訓練模型從第一性原理出發進行思考、推理、糾正自身錯誤,這就是Grok 2推理能力的由來。
那么,接下來,如果把Colossus超算的20萬GPU全部都投入,會發生什么?
答案就是——Grok 4的誕生!
在 「人類最后考試」HLE上,Grok 4直接成績刷爆,分數驚人。
HLE總共有2500道問題,涵蓋了多個學科,今年早些時候剛發布時,大多數模型的準確率得分僅為個位數。
原因就在于,HLE的考題極難,比如下面這些題,分別是一道關于范疇論中自然變換的數學題、一道關于電環化反映的有機化學題,以及一道從希伯來語原文中區分閉音節和開音節的語言學題。
顯然,這些題目已經達到了博士級,甚至更前沿的難度。
幾乎沒有任何一個人類,能答對所有這些問題,并且取得高分。如果能答對5%,就算人群中極聰明的人了。
然而,Grok 4卻在HLE的所有領域,都達到了博士級別,甚至勝過了大多數人類博士生,因為后者大概率都會不及格。
當然,如果要說Grok 4目前有什么缺憾,就是還未發明出新的技術,或者發現新的物理學。
但馬斯克認為,這只是時間問題——最早在今年年底,Grok就會發明出新技術,明年它就會發現新的物理學。
海量算力,訓出全球最聰明AI
團隊研究者爆料說,其實剛開始,Grok 4的準確率也只是個位數。
但隨著投入的算力越來越多,奇跡發生了!最終,它做出了HLE中1/4的難題,這還是在沒有工具輔助的情況下。
而在被賦予工具使用能力,將工具使用直接融入訓練過程后,Grok 4的性能開始了驚人的暴漲。
而且,目前Grok 4還未使用任何公司級的強大工具。
如果給它提供企業級的工具,比如特斯拉或Space X使用的有限元分析、計算流體力學、碰撞模擬,以及高精度的物理模擬器,那么毫無疑問,Grok 4還將發生顛覆級的改變!
比如,如果把Grok和擎天柱結合,它就可以和真實世界互動,提出假設,親手驗證真偽。
「重量級」Grok Heavy登場
除了算力的問題,我們還需要解決的一大難題,就是如何突破數據瓶頸。
RL的原則,就是不僅要找到大量有挑戰性的強化學習問題,還要有可靠的信號告訴模型,它做對了還是做錯了。
然而,如今我們已經快找不到可用的測試題了!大多數人類無法解決的難題,對AI已經開始變得輕而易舉。
好在,我們還有一個絕佳的裁判,那就是現實。物理學是終極法則,對AI最終的推理測試,就是現實世界。
讓我們設想一下,如果單個AI智能體能解決40%的問題,那么同時運行多個智能體呢?
這,就是所謂的測試時計算(test-time compute)。隨著它的擴展,Grok 4已經能解決HLE中超50%的純文本題目。
而如果并行生成多個AI智能體,Grok 4 Heavy就誕生了!
這些智能體會獨立工作,互相比較各自的成果,決定哪個更好。一旦有智能體發現了關鍵解決方案,就會分享給其他智能體,最終它們通過交流,得出最終答案。
這就是Grok 4之所以「Heavy」的原因,因為測試和計算的規模擴大了一個數量級。
· Grok 4 Heavy驚人演示
Grok 4 Heavy,已經進化到可以不止會考試,還能解決真實世界中各種刁鉆的問題!
比如,我們可以讓它預測當前美國職業棒球大聯盟(MLB)各隊的奪冠賠率。
它能計算出,洛杉磯道奇隊是今年的奪冠熱門,獲勝概率為21.6%。
并且,我們還能讓它生成兩個黑洞碰撞的可視化圖像。
在下圖中可以看到,從兩個黑洞相互旋進開始、合并、到達鈴振階段,這個碰撞過程大致是正確的。
尤為精彩的是,它使用了后牛頓近似法,而非計算黑洞中心附近的廣義相對論效應。
也就是說,它進行了一個真實的模擬,對該使用的物理常數進行了相當多的推理。
另外,它還能發現X上頭像最詭異的xAI員工。
要知道,最神奇的地方就在于,它竟然理解了什么是「詭異」。
如果說Grok 4有什么弱點的話,就是目前它還是「部分失明」,圖像理解能力和生成能力都比較弱。
不過令人期待的是,Grok 4是xAI目前訓練的第六版模型,第七版已經在訓練中了!
對于所有AGI模型來說,最權威的測試就是ARC-AGI了。
在直播前24小時,ARC-AGI團隊接到xAI電話后,才開始了Grok 4的跑分測試。
結果顯示,Grok 4是唯一一個成績突破10%的模型。
具體來說,Grok 4(Thinking)在ARC-AGI-2刷新了SOTA,準確率為15.9%。
在ARC-AGI-1上,它的成績達到了66.7%。同時,Grok 4實現了每美元智能成本的最優化。
ChatGPT和Grok 4現場飚語音
此外,研究人員還改進了Grok 4的「語音模式」,延遲率直接減半,還新增了兩種全新的音色——
Sal:擁有深沉的聲線
Eve:音色優美的英倫女聲,能演繹豐富的情感
接下來,直接進入demo。xAI員工打開Grok問道,「現在正在有數百萬人觀看我們直播,你感到興奮嗎」?
Eve好像真的就在直播現場,激動地表示,「這就像站在老維克劇院的舞臺上,看著臺下人山人海」。
它還會低聲細語,說了一些能夠讓xAI員工不再緊張的話。
不僅如此,Eve現場還獻上了一段非常優美的歌劇,還能、即興表演隨時更換曲調,讓人聽著陶醉。
更有趣的是,為了測試Grok 4的反應速度,xAI員工直接讓ChatGPT和Grok同臺PK。
任務是,我說一句,你說一句,跟讀數字。
ChatGPT的反應有些遲緩,而且并沒有依據指令跟讀,自主說一些不相關的話。
此時,Grok的表現令人驚艷,一步一步跟著讀了下來。
最后,研究人員總結到,自Grok模型上線以來,在過去八周的時間,實現了端到端延遲提速2倍,新增了5種不同音色,活躍用戶量更是增長了10倍。
足見,Grok語音功能正在飛速發展。
Grok 4賣貨,年入47億填補GPU巨銷
那么,Grok 4在現實生活中能做什么?
賺錢!!!
在Vending-Bench商業場景的基準測試中,Grok 4能夠長期運營自動售貨機,并且成為了榜單第一。
在此過程中,它不僅要完成庫存管理,還得與供應商談判、制作定價策略等任務。
這些任務看似簡單,但要求模型「長期持續運營」,只有Grok 4能夠賺到,凈資產也是所有模型兩倍。
發布會上,馬斯克半開玩笑表示,「這下我們GPU算力開銷有著落了。只需要部署100萬臺自動售貨機,年收入就能達47億美元」。
看來,下一步Grok 4也要為自己打工了。
此外,Grok 4的誕生,將帶來生物醫藥、金融等跨領域的突破,重塑商業AI范式。
如下demo所見,Grok正成為企業級的智能Copilot,擁有256k的上下文窗口,前沿的多模態推理,實時的數據搜索,以及企業級的安全能力。
4小時,肝出爆款射擊游戲
更令人激動的是,Grok 4在AI游戲實時生成領域,大有前途。
現場,員工展示了AI游戲設計師Danny Limanseta,在極限4小時內,制作出了第一人稱射擊游戲。
馬斯克預言,「首個真正優質的AI電子游戲可能會在明年問世,今年或許能看到半小時長度的可觀看AI劇集,而首部AI電影很可能在明年誕生」。
在未來路線圖中,xAI還計劃發布編碼模型、多模態智能體和視頻生成模型。
發布會最后,屏幕上出現了道格拉斯·亞當斯《銀河系搭車客指南》第四部的書名——《再見,謝謝所有的魚》。
果然,還是那個我們熟悉的科幻迷馬斯克。
文明奇點已至
馬斯克激動表示,我們正處于智能大爆炸的起點。奇點時刻已經到來,這是人類歷史上最激動人心的時代。
而此時最重要的,就是打造一個好的AI,一個善良的AI,讓它去最大程度地追求真理。
如果把AI看作一個超級天才的孩子,它最終一定會比人類聰明,而我們能做的,就是開始就給它灌輸正確的價值觀,讓它追求真實、正直、善良。
給AI算力,加上正確的工具,最終還要和物理世界互動,到時,我們的經濟體量將會是現在的數千倍,甚至數百萬倍!
馬斯克說,如果把文明進程看作是完成卡爾達肖夫等級的百分比,那我們距離1級文明的10%還很遠,可能只完成了1%或2%。
1級文明利用整個行星的能源;2級文明利用整個恒星的能源;3級文明利用整個星系的能源
如果文明沒有自我毀滅,我們就會邁向2級文明。跟那時相比,我們今天的經濟水平,會像穴居人往火里扔木棍一樣原始。
馬斯克承認,親手創造出這樣一個遠超人類自身的智能,也令人有些不安——它對人類究竟是好是壞?
最終,他說服了自己:這個AI大概率是好的,就算不是,自己也要活到親眼見證這一切發生的那一天。
馬斯克,背水一戰
如今,馬斯克真的是破釜沉舟,背水一戰了。
本來是特朗普競選的最大功臣,最近他卻成了「大而美法案」的最大輸家,隨著「特馬同盟」的徹底崩塌,馬斯克似乎已經無牌可出了。
首先,隨著「大而美法案」的出臺,7500美元的電動汽車購車稅收抵免,已經提前至2025年9月30日終止,從此,特斯拉每年的利潤損失將高達17億美元。
而DOGE前期的努力,也隨著大而美法案中的大規模赤字擴張而付諸東流。
政壇的失意,讓馬斯克全美業務的關鍵布局,包括電動汽車、Space X、腦機接口、加密貨幣等,商業利益全面被連累。
在這種背景下誕生的Grok 4,可以說是馬斯克最后的希望。
終于,這次發布會上他用Grok 4告訴全世界:我手里還有最后一張牌。
Grok團隊中,華人學者占據半壁江山
參考資料:
https://x.com/i/events/1942716886258528256
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.