網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeek R1數(shù)學(xué)屠榜！瘋狂復(fù)仇OpenAI

2025-02-18 14:51:45　來源: 新智元

北京舉報

分享至

新智元報道

編輯：編輯部 HNYZ

【新智元導(dǎo)讀】馬斯克口中全世界最聰明大模型Grok-3，終于震撼登場！20萬塊GPU訓(xùn)出的模型，實屬全球首次。果然，Grok-3已火速屠榜多個排行榜，擊敗o3-mini（high）和DeepSeek-R1。

人類史上首個在20萬塊GPU上訓(xùn)出的模型終于問世！

剛剛，馬斯克帶隊三位xAI成員在線開啟直播，官宣Grok-3全家桶——

Grok-3（Beta）、Grok-3 mini 首個推理模型Grok-3 Reasoning（Beta）、Grok-3 mini Reasoning：擊敗o3-mini/DeepSeek-R1，解鎖推理時計算首個AI智能體「DeepSearch」：聯(lián)網(wǎng)深入搜索

一股OpenAI發(fā)布會的味道撲面而來

據(jù)介紹，三代Grok的訓(xùn)練計算量竟是Grok-2的10倍，那么實際表現(xiàn)又如何？

世界最大超算集群Colossus已有20萬塊GPU：10萬塊GPU同步訓(xùn)練（第一階段用時122天搭建）；20萬GPU（第二階段用時92天）

在多項基準測試中，Grok-3在數(shù)學(xué)（AIME 2024）、科學(xué)問答（GPQA）、編碼（LCB）上刷新SOTA，大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上領(lǐng)先或媲美其他閉源/開源模型。

Grok-3的數(shù)學(xué)能力十分驚人，幾乎能完成大部分美國數(shù)學(xué)專業(yè)能力測試的題目。

更令人驚喜的是，Grok-3此次還帶來了推理模型——Grok-3 Reasoning，在回答問題時會展示出思維過程。

進入聊天入口，直接選擇「Think」模式，即可開啟魔法。

此外，還有「Big Brain」模式、智能體「深度搜索」（Deep Search）模式同步上線。

幾天前，馬斯克曾在預(yù)告中放出豪言，「這是地球上最聰明的AI」，此言不虛。

總愛搞點事情的奧特曼，一會兒說GPT-4.5讓自己深刻感受到AGI，一會兒又要開源模型全網(wǎng)投票。

甚至有網(wǎng)友提議，不如咱就7:30pm發(fā)布GPT-4.5吧！奧特曼：這不太好吧。

奧特曼的這番言論，擺明了是要擾亂軍心。據(jù)傳言，Grok-3發(fā)布這一歷史性時刻，OpenAI全員觀戰(zhàn)。

OpenAI前腳發(fā)布的o3-mini剛剛擊敗了R1，如今又被Grok-3追回。不知今晚，GPT-4.5會不會降臨？

暴擊o3-mini、DeepSeek-R1，解鎖測試時計算

有人說，Grok-3是終極的Scaling Law測試，如今看來，事實如此。

從2023年Grok-1首次面世，到Grok-1.5，再到Grok-2逐步迭代，模型推理性能飛速飆升的同時，還吞噬了大量的算力。

Grok-3家族，更是將「測試時計算」發(fā)揮到了極致。10萬塊H100超算，訓(xùn)出的野獸幾乎無「模」能敵。

它成為首個Elo評分打破1400的模型，在所有分類測試中位列第一。

在多項基準測試中，推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在數(shù)學(xué)、科學(xué)、編碼上，性能均大幅超越o3-mini（high）、o1、DeepSeek-R1，還有Gemi-2 Flash Thinking。

可以說，迄今為止最強「推理模型」，全部敗給了Grok-3 Reasoning，可以說，它是名副其實的「世界上最聰明的模型」。

團隊表示，允許Grok去進行更長時間的思考和推理。

在最新的數(shù)學(xué)基準AIME 2025上，Grok-3兩款新模型性能同樣刷新SOTA，分別拿下了93和90分。

順便提一句，Grok-3思維鏈和o3-mini套路一樣——防止被偷家xAI掩蓋了部分思考過程。

接下來，讓我們一睹Grok-3強大的推理能力。

高級推理Think

首先是一個太空飛船任務(wù)，生成一個地球發(fā)射、火星著陸以及下一次發(fā)射窗口返回地球的動畫3D代碼。

注意，這個問題的難點在于，過程中涉及到了大量數(shù)學(xué)和物理模型的計算。在此之前，團隊從未試過讓大模型去計算航天的發(fā)射窗口。

在「Think」模式下，可以看到Grok的思維痕跡，甚至可以進去看看Grok在解決問題時到底在想什么。

Grok 3很快生成了完整可運行的3D動畫。在代碼中，Grok-3數(shù)值上求解了開普勒定律。

下圖是3D動畫的畫面，直觀展示了任務(wù)過程中，太陽、地球、火星和飛船之間的位置關(guān)系。

甚至，宇航員可以據(jù)此直接算出出艙時間和距離。這上面有地球-火星往返的轉(zhuǎn)移路徑，這種穿越每26個月發(fā)生一次。接下來，我們現(xiàn)在正處于一個過渡窗口期。

研究者經(jīng)過檢查后激動表示：Grok-3給的答案完全正確！

最后馬斯克揭開謎底：其實，這就是SpaceX真正的探索軌道。他充滿信心地表示，兩年內(nèi)，地球和火星就會被連接在一起。

很快有網(wǎng)友評論，「可以確認，Grok-3強得離譜！」

與之相對比的是，o1、o1-pro、o3-mini（high）全都在這個問題上栽了：生成一段代碼，實現(xiàn)從地球發(fā)射、登陸火星，然后在下一個發(fā)射窗口返回地球的3D動畫。

「它們生成的代碼能跑是能跑，但很不幸，飛船根本就沒靠近過火星，更別說回來了。」該網(wǎng)友表示。

然后團隊又讓Grok-3制作一個游戲。要求是結(jié)合俄羅斯方塊和寶石迷陣兩個游戲的混合體。

「顯然，如果你讓AI去創(chuàng)作一款像俄羅斯方塊這樣的游戲，互聯(lián)網(wǎng)上有許多例子，或者類似寶石迷陣的游戲。它可以復(fù)制它們。」演示人員表示。

所以，現(xiàn)場他們讓Grok-3制作了一個結(jié)合了俄羅斯方塊和寶石迷陣兩個游戲的混合體，這次他們使用了「Big Brain」模式，可以使用更多計算能力的一種模式。

Grok-3隨后開始使用python編寫代碼，可以看出它調(diào)用了pygame、random和time這3個庫來完成游戲的編寫。

代碼完成后，Grok-3生成的俄羅斯方塊和寶石迷陣兩個游戲的混合體成功運行，雖然游戲邏輯有些隨意，但是界面挺美觀。

「我們在x.ai準備好成立一個游戲工作室了嗎？」演示人員激動地說道，「是的，所以我們正在x.ai啟動一個人工智能游戲工作室。」

在此過程中，研究者們討論道：最好的AI模型，必須像人類一樣思考，會去想所有可能的對策和解法，會自我批評、回溯，還會從第一性原理去思考。

甚至，Grok能夠了解自己的邏輯和推理過程中的一些失誤所在，更正自己的錯誤，將一些數(shù)學(xué)推理過程概念化，而現(xiàn)實生活中，也正是這些問題的延伸。

研究者表示，真正令人興奮的就是，可以用Grok-3去完成現(xiàn)實世界中的任務(wù)，比如打造一輛特斯拉，或者去發(fā)射火箭。

這正是Grok團隊目前正在思考的問題。

深度搜索DeepSearch

沒想到，這一次馬斯克還帶來了Grok-3首個智能體——DeepSearch。

DeepSearch是Grok的第一代智能體，能夠在互聯(lián)網(wǎng)上進行更深入的搜索。

它允許用戶對互聯(lián)網(wǎng)和X平臺進行全面搜索。該模式分析大量信息，并通過快速高效的搜索過程提供詳細、合理的答案。

此外，它的信息檢索過程對用戶更加透明。你可以直接告訴它只使用來自X的內(nèi)容，它會盡量遵守這個要求，因此可控性更強，也更智能。

我們可以問DeepSearch智能體：下一次星艦發(fā)射是什么時候？

可以看到，在左邊，它展示出了搜索和推理的過程，而在右邊，則展示出了深度思考過程，以及模型正在瀏覽什么樣的網(wǎng)址和網(wǎng)頁。

最終，智能體給出了答案：25年2月24日。

游戲玩家還可以提問：在Poe 2中最硬核的流派是什么？

除了給出答案——煉獄師召喚流之外，智能體還在回答中給出了如何獲得更多武器的攻略。

因此，比起現(xiàn)在普通的搜索引擎，使用Grok智能體能節(jié)約更多的時間。

Grok團隊表示，從此，或許所有實習(xí)生都要失業(yè)了，我們需要的只是向大模型下任務(wù)。每個月花40美元，就能帶來數(shù)十億美元的回報。

馬斯克：一周內(nèi)所有功能上線，幾個月內(nèi)全面開源

所以，Grok-3到底什么時候開放？

對此，馬斯克表示，訂閱Premium Plus的X用戶現(xiàn)在已經(jīng)可以用上了。

而Grok忠實粉絲則可以單獨訂閱SuperGrok，從而解鎖深度搜索和思考模型等先進功能，并成為早體驗新特性的那一波。

全新網(wǎng)址是grok.com，另外App Store里也可以下載了。

馬斯克強調(diào)，最新版本一定是網(wǎng)頁版，App Store里是比較落后的。

目前，Grok-3每天都在更新推理功能，馬斯克放話說：一周內(nèi)，Grok的所有功能都將上線！

傳送門：https://grok.com/

Q&A

什么時候出語音助手版？會花一周時間。

Grok-3 API什么時候上線？幾周內(nèi)。

Grok 3語音模式是原生的，還是文本轉(zhuǎn)語音？它是Grok-3的一個變體，能理解你說的話，并且直接生成音頻。

Grok-3能否將音頻轉(zhuǎn)錄成文本？沒問題。這個聲音模型不僅僅是語音轉(zhuǎn)文字那么簡單，它還具備對話記憶功能，能記得和你之前的交互記錄。

馬斯克表示，幾個月之后會對Grok-3進行全面的開源。

Grok-3最令人興奮的部分是什么？訓(xùn)練模型，以及百分百的邏輯推理，都是最難的部分，就像你需要隨時隨地設(shè)計宇宙的最新進展。

如何設(shè)計這樣一個史上最難推理模型？研究者表示，我們花了24個月去打磨這個模型，確定它在邏輯推理上有了最新進展，同時他們使用了一個廢棄工廠，數(shù)據(jù)中心之所以落地在孟菲斯，是因為既需要算力，又需要能源功能，需要1/4吉瓦來向GPU供能，同時還需要冷卻設(shè)施。

此前，從沒有人真正在數(shù)據(jù)中心實現(xiàn)過液冷，但Grok團隊做到了！

為了進一步對數(shù)據(jù)中心供能，我們使用了特斯拉的Megapacks，并且重新計算了建筑物的能源供給。最終證明：團隊的計算是有效的！

而且，過程中還需要把不同計算機聯(lián)結(jié)在一起，共享信息。在此過程中，團隊會看到模型之間供給不平衡的情況。

一方面，是對建筑供能和節(jié)能的重新設(shè)計；另一方面，團隊設(shè)計了大模型，設(shè)計了全新的算法過程。

研究者表示，不知道其他大模型是否也像Grok-3一樣，需要如此多的人力和物力。

當(dāng)然，團隊也希望在接下來，減少模型的能耗，把數(shù)據(jù)中心的耗能從1/4吉瓦降低下來，或許需要重新設(shè)計，讓它成為世界上效率最高的數(shù)據(jù)中心。

AI大牛高度好評：Grok-3成就驚人

提前拿到內(nèi)測資格后，AI大佬Karpathy展開了一番評測，分享的感悟比一篇文章還要長。

總結(jié)來說，Grok-3推理模型最領(lǐng)先，解決了卡坦島（Settler's of Catan）難題。上傳GPT-2論文后，Grok-3完成了簡單的查找問題。

它沒有解決黎曼假設(shè)難題，僅是說「這是一個偉大未解決的難題」。

在體驗「深度搜索」功能時，結(jié)合了思考+深度研究的能力，能對需要研究、查找的問題提供高質(zhì)量回答，并給出參考鏈接。

最后，Karpathy給出的評價是，「Grok-3 + Thinking表現(xiàn)似乎達到了與o1 Pro（每月200美元）相當(dāng)?shù)乃剑⑶衣詢?yōu)于DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大約一年前，xAI團隊從0開始的，這么短時間內(nèi)就達到了頂尖水平，這是前所未有的驚人成就。

Grok-3同樣通過了物理模擬測試，效果堪比o3-mini。

xAI聯(lián)創(chuàng)同樣表示，「我們改進模型和系統(tǒng)的速度，比任何單一的里程碑都更重要。Grok-3證明了我們能夠在19個月內(nèi)從零起步達到了最先進的水平」。

此外，xAI工程師還曝出了即將上線的「高級語音模式」

Grok-3橫空出世，再次把xAI帶回到世界第一梯隊。

用馬斯克的一句話做個總結(jié)——要判斷哪家公司會在技術(shù)競爭中勝出，你只需要關(guān)注其創(chuàng)新速度的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。

xAI團隊勝利的這一刻，值得被記錄。

奧特曼的AGI也準備就緒。

參考資料：

https://x.com/i/broadcasts/1gqGvjeBljOGB

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

馬斯克還沒做到的事，居然讓他干成了！

華商韜略 2025-02-11 10:04:46
0 跟貼 0
AI也會鬧情緒了！Gemini代碼調(diào)試不成功直接擺爛，馬斯克都來圍觀

量子位 2025-06-22 13:50:35
8 跟貼 8

SpaceX星鏈，對于特斯拉FSD有什么用？

不看車bukanche 2025-06-20 17:29:25
5 跟貼 5

AI芯片“功耗懸崖”：大模型催生的冷卻技術(shù)革命

鈦媒體APP 2025-05-06 08:45:41
12 跟貼 12
恒享花推出官網(wǎng)最新公布客服客戶服務(wù)用戶

寫作好思會 2025-06-22 16:19:33
0 跟貼 0

馬斯克搞的星鏈，本以為是科技噱頭，沒想到這么牛掰

搞笑小同志 2025-06-21 19:04:44
1 跟貼 1

OpenAI CEO深度訪談：吐槽Meta1億美金挖墻角，透露造“AI伴侶”

智東西 2025-06-22 18:45:53
6 跟貼 6
OpenAI底層AGI技術(shù)被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2

36氪研究院 | 2024年中國人工智能之自然語言處理（NLP）技術(shù)洞察

36氪 2024-12-31 07:32:08
2 跟貼 2
物流業(yè)deepseek時刻，中國無人車火爆全球

華商韜略 2025-06-17 10:58:23
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應(yīng)

量子位 2025-05-18 12:49:08
1 跟貼 1
馬斯克稱不習(xí)慣政治環(huán)境，能回到科技圈很開心

財聯(lián)社 2025-06-20 21:25:26
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
馬斯克都砍不掉的屏，人類真的離不開嗎？

智東西 2025-05-14 18:29:51
0 跟貼 0
科大訊飛：AI孫悟空用日語回答日本老爺爺?shù)奶釂?/a>

智東西 2025-04-18 23:31:04
0 跟貼 0
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
知識儲備≠模型能力！DeepMind強化學(xué)習(xí)微調(diào)：大幅縮小「知行差距」

新智元 2025-06-21 17:34:06
0 跟貼 0
00后投身具身智能創(chuàng)業(yè)，劍指機器人界Model 3！推出21個自由度手

量子位 2025-06-22 12:58:30
1 跟貼 1
AI輔助編碼帶來思維方式轉(zhuǎn)變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學(xué)

財聯(lián)社 2025-02-25 23:59:43
0 跟貼 0
5年白領(lǐng)下崗，AGI靠RL一飛沖天？網(wǎng)友：這是讓狗學(xué)會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2
12名工程師，估值190億，AI黑馬的夢幻故事

智東西 2025-01-14 20:23:26
45 跟貼 45
大模型正在打破教育領(lǐng)域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
中國團隊提出SRDA，一種專為AI大模型訓(xùn)推設(shè)計的下一代計算架構(gòu)

量子位 2025-06-09 17:50:16
0 跟貼 0
人人都能做開發(fā)者！連小學(xué)生都能輕松上手的0代碼開發(fā)平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
AI正大大降低動漫等虛擬內(nèi)容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
網(wǎng)友實測Veo3視頻旋風(fēng)：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
研發(fā)自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
挖掘DiT位置解耦特性,Personalize Anything免訓(xùn)練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
1 跟貼 1
宇樹科技王興興：做一棵照亮別人的“科技樹”

澎湃新聞 2025-06-22 08:01:41
359 跟貼 359
16款大模型為自保竟泄露機密，Anthropic緊急報告AI自主暗藏風(fēng)險

DeepTech深科技 2025-06-22 23:05:32
1 跟貼 1
大模型月級迭代下，金融AI Agent如何平衡創(chuàng)新與風(fēng)險合規(guī)

每日經(jīng)濟新聞 2025-05-19 23:01:58
0 跟貼 0
大鵝竟然要給馬斯克提供政治庇護

空景孤擾人心 2025-06-22 02:40:29
0 跟貼 0
ChatGPT 越用人越傻？ MIT 最新實驗揭秘，過度依賴 AI 大腦活躍度顯著降低

愛范兒 2025-06-22 19:17:28
0 跟貼 0

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

12929文章數(shù) 66077關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時尚

親子

家居

手機

手機 / 數(shù)碼

房產(chǎn) / 家居

馬斯克20萬塊GPU煉出Grok-3，暴擊DeepSeek R1數(shù)學(xué)屠榜！瘋狂復(fù)仇OpenAI

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

中國女排0-3意大利 香港站3勝1負收官

離婚四年！趙麗穎被曝新戀情惹爭議

蘋果后院起火

態(tài)度原創(chuàng)

2026qs排名完整名單公布后，申請難度會暴漲的幾所英國大學(xué)！

伊姐周日熱推：電視劇《完美的救贖》；電視劇《書卷一夢》......

我與兒子與同學(xué)之間的稱呼

山水之間 墨染風(fēng)雨云間

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

伊朗投入5萬億美元的核項目遭摧毀哈梅內(nèi)伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀哈梅內(nèi)伊面臨抉擇

中國女排0-3意大利香港站3勝1負收官

山水之間墨染風(fēng)雨云間