99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克20萬塊GPU煉出Grok-3,暴擊DeepSeek R1數(shù)學(xué)屠榜!瘋狂復(fù)仇OpenAI

0
分享至


新智元報道

編輯:編輯部 HNYZ

【新智元導(dǎo)讀】馬斯克口中全世界最聰明大模型Grok-3,終于震撼登場!20萬塊GPU訓(xùn)出的模型,實屬全球首次。果然,Grok-3已火速屠榜多個排行榜,擊敗o3-mini(high)和DeepSeek-R1。

人類史上首個在20萬塊GPU上訓(xùn)出的模型終于問世!

剛剛,馬斯克帶隊三位xAI成員在線開啟直播,官宣Grok-3全家桶——

Grok-3(Beta)、Grok-3 mini 首個推理模型Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:擊敗o3-mini/DeepSeek-R1,解鎖推理時計算 首個AI智能體「DeepSearch」:聯(lián)網(wǎng)深入搜索


一股OpenAI發(fā)布會的味道撲面而來

據(jù)介紹,三代Grok的訓(xùn)練計算量竟是Grok-2的10倍,那么實際表現(xiàn)又如何?



世界最大超算集群Colossus已有20萬塊GPU:10萬塊GPU同步訓(xùn)練(第一階段用時122天搭建);20萬GPU(第二階段用時92天)

在多項基準測試中,Grok-3在數(shù)學(xué)(AIME 2024)、科學(xué)問答(GPQA)、編碼(LCB)上刷新SOTA,大幅超越DeepSeek-V3、Gemini-2 Pro、GPT-4o。

Grok-3 mini的性能基本上領(lǐng)先或媲美其他閉源/開源模型。

Grok-3的數(shù)學(xué)能力十分驚人,幾乎能完成大部分美國數(shù)學(xué)專業(yè)能力測試的題目。


更令人驚喜的是,Grok-3此次還帶來了推理模型——Grok-3 Reasoning,在回答問題時會展示出思維過程。

進入聊天入口,直接選擇「Think」模式,即可開啟魔法。

此外,還有「Big Brain」模式、智能體「深度搜索」(Deep Search)模式同步上線。


幾天前,馬斯克曾在預(yù)告中放出豪言,「這是地球上最聰明的AI」,此言不虛。


總愛搞點事情的奧特曼,一會兒說GPT-4.5讓自己深刻感受到AGI,一會兒又要開源模型全網(wǎng)投票。


甚至有網(wǎng)友提議,不如咱就7:30pm發(fā)布GPT-4.5吧!奧特曼:這不太好吧。

奧特曼的這番言論,擺明了是要擾亂軍心。據(jù)傳言,Grok-3發(fā)布這一歷史性時刻,OpenAI全員觀戰(zhàn)。


OpenAI前腳發(fā)布的o3-mini剛剛擊敗了R1,如今又被Grok-3追回。不知今晚,GPT-4.5會不會降臨?

暴擊o3-mini、DeepSeek-R1,解鎖測試時計算

有人說,Grok-3是終極的Scaling Law測試,如今看來,事實如此。


從2023年Grok-1首次面世,到Grok-1.5,再到Grok-2逐步迭代,模型推理性能飛速飆升的同時,還吞噬了大量的算力。



Grok-3家族,更是將「測試時計算」發(fā)揮到了極致。10萬塊H100超算,訓(xùn)出的野獸幾乎無「模」能敵。

它成為首個Elo評分打破1400的模型,在所有分類測試中位列第一。


在多項基準測試中,推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在數(shù)學(xué)、科學(xué)、編碼上,性能均大幅超越o3-mini(high)、o1、DeepSeek-R1,還有Gemi-2 Flash Thinking。

可以說,迄今為止最強「推理模型」,全部敗給了Grok-3 Reasoning,可以說,它是名副其實的「世界上最聰明的模型」。

團隊表示,允許Grok去進行更長時間的思考和推理。


在最新的數(shù)學(xué)基準AIME 2025上,Grok-3兩款新模型性能同樣刷新SOTA,分別拿下了93和90分。


順便提一句,Grok-3思維鏈和o3-mini套路一樣——防止被偷家xAI掩蓋了部分思考過程。



接下來,讓我們一睹Grok-3強大的推理能力。

高級推理Think

首先是一個太空飛船任務(wù),生成一個地球發(fā)射、火星著陸以及下一次發(fā)射窗口返回地球的動畫3D代碼。

注意,這個問題的難點在于,過程中涉及到了大量數(shù)學(xué)和物理模型的計算。在此之前,團隊從未試過讓大模型去計算航天的發(fā)射窗口。

在「Think」模式下,可以看到Grok的思維痕跡,甚至可以進去看看Grok在解決問題時到底在想什么。



Grok 3很快生成了完整可運行的3D動畫。在代碼中,Grok-3數(shù)值上求解了開普勒定律。


下圖是3D動畫的畫面,直觀展示了任務(wù)過程中,太陽、地球、火星和飛船之間的位置關(guān)系。

甚至,宇航員可以據(jù)此直接算出出艙時間和距離。這上面有地球-火星往返的轉(zhuǎn)移路徑,這種穿越每26個月發(fā)生一次。接下來,我們現(xiàn)在正處于一個過渡窗口期。

研究者經(jīng)過檢查后激動表示:Grok-3給的答案完全正確!

最后馬斯克揭開謎底:其實,這就是SpaceX真正的探索軌道。他充滿信心地表示,兩年內(nèi),地球和火星就會被連接在一起。


很快有網(wǎng)友評論,「可以確認,Grok-3強得離譜!」

與之相對比的是,o1、o1-pro、o3-mini(high)全都在這個問題上栽了:生成一段代碼,實現(xiàn)從地球發(fā)射、登陸火星,然后在下一個發(fā)射窗口返回地球的3D動畫。

「它們生成的代碼能跑是能跑,但很不幸,飛船根本就沒靠近過火星,更別說回來了。」該網(wǎng)友表示。


然后團隊又讓Grok-3制作一個游戲。要求是結(jié)合俄羅斯方塊和寶石迷陣兩個游戲的混合體。

「顯然,如果你讓AI去創(chuàng)作一款像俄羅斯方塊這樣的游戲,互聯(lián)網(wǎng)上有許多例子,或者類似寶石迷陣的游戲。它可以復(fù)制它們。」演示人員表示。

所以,現(xiàn)場他們讓Grok-3制作了一個結(jié)合了俄羅斯方塊和寶石迷陣兩個游戲的混合體,這次他們使用了「Big Brain」模式,可以使用更多計算能力的一種模式。

Grok-3隨后開始使用python編寫代碼,可以看出它調(diào)用了pygame、random和time這3個庫來完成游戲的編寫。


代碼完成后,Grok-3生成的俄羅斯方塊和寶石迷陣兩個游戲的混合體成功運行,雖然游戲邏輯有些隨意,但是界面挺美觀。

「我們在x.ai準備好成立一個游戲工作室了嗎?」演示人員激動地說道,「是的,所以我們正在x.ai啟動一個人工智能游戲工作室。」


在此過程中,研究者們討論道:最好的AI模型,必須像人類一樣思考,會去想所有可能的對策和解法,會自我批評、回溯,還會從第一性原理去思考。

甚至,Grok能夠了解自己的邏輯和推理過程中的一些失誤所在,更正自己的錯誤,將一些數(shù)學(xué)推理過程概念化,而現(xiàn)實生活中,也正是這些問題的延伸。

研究者表示,真正令人興奮的就是,可以用Grok-3去完成現(xiàn)實世界中的任務(wù),比如打造一輛特斯拉,或者去發(fā)射火箭。

這正是Grok團隊目前正在思考的問題。

深度搜索DeepSearch

沒想到,這一次馬斯克還帶來了Grok-3首個智能體——DeepSearch。


DeepSearch是Grok的第一代智能體,能夠在互聯(lián)網(wǎng)上進行更深入的搜索。

它允許用戶對互聯(lián)網(wǎng)和X平臺進行全面搜索。該模式分析大量信息,并通過快速高效的搜索過程提供詳細、合理的答案。

此外,它的信息檢索過程對用戶更加透明。你可以直接告訴它只使用來自X的內(nèi)容,它會盡量遵守這個要求,因此可控性更強,也更智能。


我們可以問DeepSearch智能體:下一次星艦發(fā)射是什么時候?

可以看到,在左邊,它展示出了搜索和推理的過程,而在右邊,則展示出了深度思考過程,以及模型正在瀏覽什么樣的網(wǎng)址和網(wǎng)頁。


最終,智能體給出了答案:25年2月24日。


游戲玩家還可以提問:在Poe 2中最硬核的流派是什么?

除了給出答案——煉獄師召喚流之外,智能體還在回答中給出了如何獲得更多武器的攻略。


因此,比起現(xiàn)在普通的搜索引擎,使用Grok智能體能節(jié)約更多的時間。

Grok團隊表示,從此,或許所有實習(xí)生都要失業(yè)了,我們需要的只是向大模型下任務(wù)。每個月花40美元,就能帶來數(shù)十億美元的回報。

馬斯克:一周內(nèi)所有功能上線,幾個月內(nèi)全面開源

所以,Grok-3到底什么時候開放?

對此,馬斯克表示,訂閱Premium Plus的X用戶現(xiàn)在已經(jīng)可以用上了。

而Grok忠實粉絲則可以單獨訂閱SuperGrok,從而解鎖深度搜索和思考模型等先進功能,并成為早體驗新特性的那一波。

全新網(wǎng)址是grok.com,另外App Store里也可以下載了。

馬斯克強調(diào),最新版本一定是網(wǎng)頁版,App Store里是比較落后的。

目前,Grok-3每天都在更新推理功能,馬斯克放話說:一周內(nèi),Grok的所有功能都將上線!



傳送門:https://grok.com/

Q&A

什么時候出語音助手版?會花一周時間。

Grok-3 API什么時候上線?幾周內(nèi)。

Grok 3語音模式是原生的,還是文本轉(zhuǎn)語音?它是Grok-3的一個變體,能理解你說的話,并且直接生成音頻。

Grok-3能否將音頻轉(zhuǎn)錄成文本?沒問題。這個聲音模型不僅僅是語音轉(zhuǎn)文字那么簡單,它還具備對話記憶功能,能記得和你之前的交互記錄。

馬斯克表示,幾個月之后會對Grok-3進行全面的開源。

Grok-3最令人興奮的部分是什么?訓(xùn)練模型,以及百分百的邏輯推理,都是最難的部分,就像你需要隨時隨地設(shè)計宇宙的最新進展。

如何設(shè)計這樣一個史上最難推理模型?研究者表示,我們花了24個月去打磨這個模型,確定它在邏輯推理上有了最新進展,同時他們使用了一個廢棄工廠,數(shù)據(jù)中心之所以落地在孟菲斯,是因為既需要算力,又需要能源功能,需要1/4吉瓦來向GPU供能,同時還需要冷卻設(shè)施。

此前,從沒有人真正在數(shù)據(jù)中心實現(xiàn)過液冷,但Grok團隊做到了!

為了進一步對數(shù)據(jù)中心供能,我們使用了特斯拉的Megapacks,并且重新計算了建筑物的能源供給。最終證明:團隊的計算是有效的!

而且,過程中還需要把不同計算機聯(lián)結(jié)在一起,共享信息。在此過程中,團隊會看到模型之間供給不平衡的情況。

一方面,是對建筑供能和節(jié)能的重新設(shè)計;另一方面,團隊設(shè)計了大模型,設(shè)計了全新的算法過程。

研究者表示,不知道其他大模型是否也像Grok-3一樣,需要如此多的人力和物力。

當(dāng)然,團隊也希望在接下來,減少模型的能耗,把數(shù)據(jù)中心的耗能從1/4吉瓦降低下來,或許需要重新設(shè)計,讓它成為世界上效率最高的數(shù)據(jù)中心。

AI大牛高度好評:Grok-3成就驚人

提前拿到內(nèi)測資格后,AI大佬Karpathy展開了一番評測,分享的感悟比一篇文章還要長。

總結(jié)來說,Grok-3推理模型最領(lǐng)先,解決了卡坦島(Settler's of Catan)難題。上傳GPT-2論文后,Grok-3完成了簡單的查找問題。

它沒有解決黎曼假設(shè)難題,僅是說「這是一個偉大未解決的難題」。

在體驗「深度搜索」功能時,結(jié)合了思考+深度研究的能力,能對需要研究、查找的問題提供高質(zhì)量回答,并給出參考鏈接。

最后,Karpathy給出的評價是,「Grok-3 + Thinking表現(xiàn)似乎達到了與o1 Pro(每月200美元)相當(dāng)?shù)乃剑⑶衣詢?yōu)于DeepSeek-R1和Gemini 2.0 Flash Thinking」。

大約一年前,xAI團隊從0開始的,這么短時間內(nèi)就達到了頂尖水平,這是前所未有的驚人成就。


Grok-3同樣通過了物理模擬測試,效果堪比o3-mini。



xAI聯(lián)創(chuàng)同樣表示,「我們改進模型和系統(tǒng)的速度,比任何單一的里程碑都更重要。Grok-3證明了我們能夠在19個月內(nèi)從零起步達到了最先進的水平」。


此外,xAI工程師還曝出了即將上線的「高級語音模式」


Grok-3橫空出世,再次把xAI帶回到世界第一梯隊。

用馬斯克的一句話做個總結(jié)——要判斷哪家公司會在技術(shù)競爭中勝出,你只需要關(guān)注其創(chuàng)新速度的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。


xAI團隊勝利的這一刻,值得被記錄。


奧特曼的AGI也準備就緒。


參考資料:

https://x.com/i/broadcasts/1gqGvjeBljOGB

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
那爾那茜,調(diào)查結(jié)果正式公布!

那爾那茜,調(diào)查結(jié)果正式公布!

藍鉆故事
2025-06-21 23:58:12
吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

吃霸王婚宴的錢總“社會性死亡”了,生意被曝,新婚女兒也被連累

知鑒明史
2025-06-19 16:42:38
荔枝的“死對頭”,醫(yī)生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫(yī)生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
特朗普服軟了?6枚重型鉆地彈落地后,美國向伊朗做出兩大保證

特朗普服軟了?6枚重型鉆地彈落地后,美國向伊朗做出兩大保證

涼羽亭
2025-06-22 10:43:54
唯品會副總裁因貪腐問題被調(diào)查,在公司工作超十年,曾主導(dǎo)周杰倫出任CJO項目

唯品會副總裁因貪腐問題被調(diào)查,在公司工作超十年,曾主導(dǎo)周杰倫出任CJO項目

紅星資本局
2025-06-22 16:29:04
餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

五元講堂
2025-06-18 15:02:24
發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
一場0:3完敗后,中國女排卻收獲3大利好消息 董禹含一戰(zhàn)成名

一場0:3完敗后,中國女排卻收獲3大利好消息 董禹含一戰(zhàn)成名

說說史事
2025-06-22 22:41:09
“難怪小學(xué)女老師,十個有九個單身”,一段聊天記錄,揭露了真相

“難怪小學(xué)女老師,十個有九個單身”,一段聊天記錄,揭露了真相

妍妍教育日記
2025-06-03 20:00:38
從7月起,需做好“潮水退去”后的準備?房地產(chǎn)或?qū)⒊霈F(xiàn)5個趨勢

從7月起,需做好“潮水退去”后的準備?房地產(chǎn)或?qū)⒊霈F(xiàn)5個趨勢

平說財經(jīng)
2025-06-21 07:14:09
72老太一輩子沒結(jié)婚,病重住院后中年男子趕來:媽,我們來了

72老太一輩子沒結(jié)婚,病重住院后中年男子趕來:媽,我們來了

雨仔講故事
2025-05-17 18:53:05
其實,很多單位已經(jīng)爛透了!

其實,很多單位已經(jīng)爛透了!

大道微言
2025-06-16 20:00:39
醫(yī)院生娃,孩子頭直接被醫(yī)生拔掉了?父母請專家尸檢,結(jié)果專家直接把圖發(fā)網(wǎng)上了?!

醫(yī)院生娃,孩子頭直接被醫(yī)生拔掉了?父母請專家尸檢,結(jié)果專家直接把圖發(fā)網(wǎng)上了?!

英國那些事兒
2025-06-22 23:16:00
為什么說對大自然要保持敬畏之心,看完網(wǎng)友的各種分享,讓人后怕

為什么說對大自然要保持敬畏之心,看完網(wǎng)友的各種分享,讓人后怕

熱鬧的河馬
2024-11-01 14:00:16
即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業(yè)!

即將HWG!羅馬諾:32歲博格巴自由加盟摩納哥,時隔兩年再就業(yè)!

直播吧
2025-06-23 02:28:30
外交部發(fā)布雙語視頻回家: 縱有萬里歸途 ,祖國一定接你回家

外交部發(fā)布雙語視頻回家: 縱有萬里歸途 ,祖國一定接你回家

每日經(jīng)濟新聞
2025-06-22 16:10:23
某局大崩潰:管理人員都發(fā)不出工資了!

某局大崩潰:管理人員都發(fā)不出工資了!

黯泉
2025-06-11 22:00:11
陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

陳羽凡現(xiàn)狀:低調(diào)生活,50歲胖到認不出,17歲兒子1米8長得像媽

果娛
2025-05-14 12:19:32
違規(guī)吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔(dān)責(zé)

違規(guī)吃喝標準確定!杜絕“一刀切”式整治,誰亂加碼誰擔(dān)責(zé)

王五說說看
2025-06-22 16:07:36
A股:大家要做好心理預(yù)期,明天(6月23日),股市很可能這樣變化

A股:大家要做好心理預(yù)期,明天(6月23日),股市很可能這樣變化

財經(jīng)大拿
2025-06-22 07:10:07
2025-06-23 02:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經(jīng)要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

教育
時尚
親子
家居
手機

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學(xué)!

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

親子要聞

我與兒子與同學(xué)之間的稱呼

家居要聞

山水之間 墨染風(fēng)雨云間

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 西畴县| 玉门市| 固始县| 靖远县| 溧水县| 维西| 宝山区| 卢氏县| 绥芬河市| 麦盖提县| 无为县| 诸城市| 安宁市| 岚皋县| 布尔津县| 罗甸县| 从江县| 九寨沟县| 保德县| 临江市| 盐山县| 宁晋县| 静海县| 弥渡县| 益阳市| 绍兴市| 崇礼县| 定边县| 婺源县| 大名县| 平凉市| 漳浦县| 花莲县| 昌都县| 北宁市| 夏河县| 灵川县| 定陶县| 北辰区| 龙南县| 威远县|