中午12點,預告了兩三天的Grok3的發布會,終于來了。
前天馬斯克就在X上吆喝,說Grok 3是“地球上最聰明的人工智能”。
甚至還在迪拜世界政府峰會說:“Grok 3的推理表現優于我們所知的任何已發布的模型,這是個好跡象。”
而今天,在燈等等燈等的小音樂聲中,馬斯克習慣性的遲到后,四個大兄弟也坐在了現場,給大家演示Grok 3。
中間C位又是兩個華人。
看完全程以后,我只能說,OpenAI現在是真的慘,前腳被DeepSeek,而后腳,又全部被Grok 3給干碎了。。。
是的,連那個遙遙無期的期貨o3,都被Grok 3干碎了,而Grok 3,今天XPremium用戶可是就可以用了。。。
一文來帶大家迅速過一遍,Grok 3的能力。
主要分成3塊,Grok 3、Grok 3 Reasoning、Agents。
1. Grok 3
Grok這次是直接沖著OpenAI來的。研發團隊一開始就直接甩了Grok和GPT的迭代時間對比。
從Grok0到Grok3,確實是進步飛速。
馬斯克嘚啵嘚的意思,就一句話:Grok只用了兩年多,就能匹敵GPT五六年的能力。
23年xAI成立后發布了33B的Grok 0,比肩70B的Llama 2。同年11月份,又馬不停蹄的發了Grok 1模型。
24年他們不僅發布了Grok 1.5和Grok 2,還發布了xAI的第一個多模態模型Grok-1.5V。
從Grok0到2024 年 8 月 13 日發布的Grok2,再到今天2025年2月的Grok3,Grok的迭代確實很迅速。
關注度這么高的發布會,馬斯克也是忍不住炫耀一下自家的十萬卡集群Colossus。
老馬起初找了數據中心供應商,問他們要在一個地方有序運行10萬個Gpu需要多長時間?供應商給的時間范圍是從18個月到24個月。
老馬直接不樂意了,所以直接自己做。
最終這個集群只用了122天建成,第一階段是10萬塊NVIDIA H100 GPU,訓練了122天。后來擴展到20萬塊GPU(含新增的5萬塊H100與5萬塊H200),又訓練了92天。由田納西河流域管理局(TVA)提供超過100兆瓦的電力支持。
最終,有了Grok 3這個超級產物。
半個多小時的發布會沒啥實際應用的展示,不過光看跑分grok表現也是挺亮眼的。
在他們內部的測試里,數學、科學和代碼三個領域的跑分,Grok 3都是最高的。
不帶推理能力的Grok,Benchmarks跑分遙遙領先。
在Chatbot Arena競技場,Grok3直接拿下第一,分數也高得驚人。
帶推理能力的Grok,也是直接沖著目前最好的推理模型去的。分數遠高于o3和DeepSeek-R1,拉著就是比。
尤其是Grok解數學題的能力,馬斯克在發布會上也特意強調他們會給模型更多時間讓它自己思考。
在Chatbot Arena競技場,Grok3直接拿下第一,分數也高得驚人。
不僅第一,還是目前唯一1400分以上的模型,直接把沒火多久的Gemini2.0甩開一大截。
2.Grok 3Reasoning
下一個,reasoning,也就是grok 3的推理模型。
但是因為還沒有具體實測到,所以我不知道,他是類似DeepSeek v3和DeepSeek R1這種兩套模型的區別,還是類似于Claude在傳的那種混合模型的區別,但是我個人感覺大概率還是兩套。
然后上來展示這UI設計,好眼熟。
大家都在群里瘋狂吐槽,deepseek是你嗎。
在跑分上,還是我們熟悉的三領域:數學、科學、代碼。
和o3 mini、DeepSeek R1相比,Grok 3 reasoning都取得了領先地位。
特別是o3 mini,直接被干碎了。
5天前,完成了AIME2025的測試,分數最高。
并且還有類似于o1 pro的功能,可以調高參數,允許Grok 3用更長的時間去推理,讓大模型花更多時間思考,直到得出結論。
展示的第一個編程例子,動態宇宙模型,思考了114s。
效果看起來還挺好的,感覺馬斯克離他的老家火星又進了一步。
第二個展示了Grok的游戲代碼,俄羅斯方塊演示(視頻有點長,我們這里直接五倍速)
case本身難度也不怎么高,具體實測還不知道是個什么情況,具體詳情得測試看,如果確實跟跑分一致,老馬沒吹牛逼,那Grok 3就是地表最強。
3. Agent
最后一個。
老馬決定繼續按著OpenAI的頭打,推出了他們的Agent工具,DeepSearch,也就是深度搜索。
明顯就是前段時間OpenAI Deep Research的翻版。
但是效果上,看了下說實話不太像是能對標OpenAI Deep Research的,更偏向于搜索而不是研究,比OpenAI Deep Research的成品和質量還是差的有點遠。
更像是Perplexity出的那個。
他們也跑了一個demo。
點擊左側的答案,會有進度條,思考時間不算特別長。
右側是當前模型的一些摘要,可以看到模型正在瀏覽哪些網站,并且會交叉驗證不同的來源。
可以同時問好幾個問題,一起運行。
4. 寫在最后
最后的QA環節,直播也解答了大家最關心的幾個問題。
Q:什么時候發布Grok3?
A:X上的預先訂閱用戶可以最早體驗,預計一周后陸續發布,推薦大家關注Grok的動態。
Q:現在的新的網址?
A: grok.com
Q:有語音功能嗎?
A:有。(但是現場也只是說有語音功能,支持語音轉文字,不知道是不是語音通話,但具體的效果如何,還是等上線吧。)
馬斯克在發布會上是說,一周后會陸續上線grok 3的所有功能。也就是說Grok 3、Grok 3的推理模型、DeepResearch、包括app端。
這個畫面總讓我幻視直播帶貨,感覺馬斯克應該說一句“老鐵們記得訂閱”。
行,信一回,等著下周上手玩玩了。
老馬還說,之后會開源上一代模型,也就是Grok 2,那我也坐等。
無論如何,新王已到,江湖又得重新排座次了。
AI圈,變得就是如此之快。
AI一天,人間一年。
我們,拭目以待。
>/ 作者:卡茲克、穩穩、小瑞、dongyi
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.