— Hi everyone. My name is Igor, lead engineering at X.
— I'm Jimmy, leading research.
— I'm Tony, working on the recent team.
— All right. I'm Elon. I don't do anything. I just show up occasionally.
作者|蘇霍伊
DeepSeek攪動(dòng)的混天綾,又一次在人工智能的海域卷起了巨浪。讓OpenAI、xAI等一眾公司都坐不住了。
美西時(shí)間2月17號(hào),埃隆·馬斯克(Elon Musk)的人工智能初創(chuàng)公司xAI推出Grok-3模型,并十分高調(diào)地宣稱,這是“地表最聰明的AI”。
馬斯克與三位工程師共同完成了演示,其中左一的工程團(tuán)隊(duì)負(fù)責(zé)人伊戈?duì)?巴布什金(Igor Babuschkin),原是DeepMind 的高級(jí)研究員;左二的研究負(fù)責(zé)人Jimmy Ba是杰弗里·辛頓 (Geoffrey Hinton) 的學(xué)生;右二的Tony吳宇懷(Yuhuai Wu)是近期加入團(tuán)隊(duì)的成員。
團(tuán)隊(duì)透露,Grok-3的計(jì)算能力是前代產(chǎn)品的“10倍以上”。據(jù)悉,Grok-3是在今年1月初完成預(yù)訓(xùn)練,目前還在不斷優(yōu)化中。馬斯克表示:“我們每天都在改進(jìn)模型,所以24小時(shí)內(nèi)能看到進(jìn)步。”
他也在直播中表示,“Grok”的名字來自羅伯特·海因萊因(Robert Anson Heinlein)的小說《異鄉(xiāng)異客》,主角是在火星上長(zhǎng)大的人類,“Grok”也是一個(gè)“火星詞”,代表充分而深刻地理解事物。
隨后他說道,xAI和 Grok的使命就是理解宇宙。“我們希望解答最宏大的問題:外星人在哪里?生命的意義是什么?宇宙如何終結(jié)?”
根據(jù)xAI數(shù)據(jù),Grok-3在數(shù)學(xué)(AIME’24)、科學(xué)(GPQA)以及編程(LCB Oct-Feb)三大基準(zhǔn)測(cè)試中的表現(xiàn)還不錯(cuò)。數(shù)據(jù)上是超越了所有主流模型,包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。
各大模型在Chatbot Arena成績(jī)比較
以數(shù)學(xué)測(cè)試為例,Grok-3取得了52分的最高成績(jī),而同屬xAI陣營(yíng)的Grok-3 mini則拿到40分,DeepSeek-V3以39分緊隨其后;Gemini-2 Pro拿到36分,Claude 3.5 Sonnet和GPT-4o分別只有16分和9分。
科學(xué)和編程測(cè)試的情況也大同小異。Grok-3都以較大優(yōu)勢(shì)領(lǐng)先其他模型,Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。
Grok-3與其他模型在數(shù)學(xué)、科學(xué)和編程基準(zhǔn)測(cè)試的比較
除了Grok-3,xAI還推出了一款名為DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3開發(fā),具備推理能力,并提供完整地思考過程。在演示中,DeepSearch展示了其在研究、頭腦風(fēng)暴和數(shù)據(jù)分析等場(chǎng)景中的應(yīng)用潛力。
Grok-3依托由20萬(wàn)塊NVIDIA H100 GPU構(gòu)建的Colossus超算集群,計(jì)算能力是前代Grok-2的10倍,預(yù)訓(xùn)練階段的消耗相當(dāng)于一座核電站7%的月發(fā)電量。Colossus從籌建到上線僅用了122天,xAI計(jì)劃將Colossus的規(guī)模擴(kuò)大十倍,整合超過100萬(wàn)塊GPU,用以超越谷歌、OpenAI等競(jìng)爭(zhēng)對(duì)手。
相比之下,DeepSeek-V3的算法優(yōu)化路徑僅使用了2048塊英偉達(dá)H800 GPU,耗費(fèi)了557.6萬(wàn)美元就完成了訓(xùn)練,比同等規(guī)模的模型(如GPT-4、GPT-4o、Llama 3.1),訓(xùn)練成本大幅降低。同時(shí),Grok 3還是非開源模型,需要付費(fèi)。
DeepSeek-V3的訓(xùn)練成本(假設(shè)H800的租賃價(jià)格為2美元/GPU小時(shí)),圖片來源:DeepSeek-V3技術(shù)報(bào)告
1.Grok 3 聰明在哪兒?
xAI表示,Grok-3聰明的原因是它背后依托了Colossus,通過“突破光速”的研發(fā)模式實(shí)現(xiàn)了技術(shù)飛躍。
“最優(yōu)秀的人工智能不僅依賴大規(guī)模預(yù)訓(xùn)練,更需要具備類人推理能力,即能夠獨(dú)立思考解決方案、自我批判、驗(yàn)證、回溯,并從第一性原理出發(fā)。”根據(jù)這一思路,xAI在預(yù)訓(xùn)練模型的基礎(chǔ)上引入了強(qiáng)化學(xué)習(xí),希望進(jìn)一步推進(jìn)模型的推理能力。
在Chatbot Arena LMSYS基準(zhǔn)測(cè)試中,Grok-3獲得了1400分的最高成績(jī),遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手——Claude 3約1360分,GPT-4約1340分。
據(jù)xAI最新公開資料顯示,在一場(chǎng)針對(duì)AGI核心引擎的純粹盲測(cè)中,用戶在不知答案來源的情況下提交同一查詢,并對(duì)兩個(gè)不同模型的回答進(jìn)行投票。結(jié)果顯示,Grok-3的早期版本在這一測(cè)試中獲得了1,400 ELO分,遠(yuǎn)超其他競(jìng)爭(zhēng)對(duì)手,如Claude 3和GPT-4等。這一盲測(cè)方式僅考察模型本身的推理能力,而非依賴外部數(shù)據(jù)或提示。
除了Grok-3和Grok-3 mini,xAI團(tuán)隊(duì)還推出了兩個(gè)專門用于推理的模型。其中,Grok-3 mini Reasoning已經(jīng)相對(duì)成熟,而Grok-3 Reasoning Beta仍處于測(cè)試階段。
在直播演示中,馬斯克和研發(fā)團(tuán)隊(duì)測(cè)試了物理和游戲兩個(gè)案例。
首先團(tuán)隊(duì)僅輸入一行指令,讓Grok-3編寫代碼,生成一段模擬火箭從地球發(fā)射、降落火星,并在合適的發(fā)射窗口返回地球的3D動(dòng)畫。Grok-3在考慮了開普勒定律后,不但生成了可以繪制出動(dòng)畫的代碼,還生成了一段模擬火箭發(fā)射軌跡的3D動(dòng)畫。
馬斯克解釋道:“Grok正在模擬兩個(gè)不同的行星——地球和火星。綠色的球體代表飛船,在地球與火星之間穿梭。你可以看到從地球到火星的旅程,最終宇航員安全返回。”
同時(shí)他也插播了一句:“如果一切順利,SpaceX 將在未來兩年把星艦火箭送往火星,搭載Optimus機(jī)器人和Grok。”
給Grok-3的第二個(gè)問題是:設(shè)計(jì)一個(gè)結(jié)合俄羅斯方塊和寶石迷陣玩法的混合游戲。并提示代碼可能較長(zhǎng),還要“insanely great”。經(jīng)過思考,Grok 3設(shè)計(jì)出了既有俄羅斯方塊的消除機(jī)制,又有寶石迷陣特點(diǎn)的游戲。
xAI也讓Grok-3去做了AIME 2025競(jìng)賽。最終Grok-3 Reasoning Beta以93分的高分拔得頭籌,Grok-3 mini Reasoning也取得了90分,均領(lǐng)先于其他參賽模型。相比之下,o3mini(高精度版)得分為87,o1為79,DeepSeek-R1為75,而Gemini-2 Flash Thinking僅獲得54分。
乍一看,Grok-3似乎已經(jīng)坐穩(wěn)了數(shù)學(xué)推理領(lǐng)域的“頭把交椅”。但仔細(xì)推敲,這些成績(jī)是否真的能證明Grok-3的絕對(duì)領(lǐng)先地位?或許還不能輕易下結(jié)論,畢竟測(cè)試環(huán)境和數(shù)據(jù)集的選擇可能對(duì)結(jié)果產(chǎn)生影響,單一測(cè)試并不能全面反映模型的綜合性能。同時(shí)Grok-3 Reasoning Beta仍處于測(cè)試階段,穩(wěn)定性和可靠性尚未經(jīng)過廣泛驗(yàn)證。
此外,xAI還推出了一款名為DeepSearch的新型智能搜索引擎。它能搜索網(wǎng)頁(yè)、查找資料和推測(cè)用戶意圖并思考,并在交叉比對(duì)后確保返回正確的信息。
馬斯克表示:“Grok-3能減少AI幻覺。”實(shí)現(xiàn)方式是反復(fù)檢查數(shù)據(jù)并確保邏輯一致,他也透露,Grok-3訓(xùn)練時(shí)使用的算力遠(yuǎn)超之前版本,并大量采用了合成數(shù)據(jù)。自2023年7月成立xAI以來,xAI先后于2023年11月和2024年8月發(fā)布了Grok-1和Grok-2,前者擁有3140億參數(shù),成為當(dāng)時(shí)參數(shù)量最大的開源大模型。
xAI宣布,Grok-3將于美國(guó)當(dāng)?shù)刂芤徽酵瞥觯着w驗(yàn)者為X的Premium Plus訂閱用戶,同時(shí)還推出了名為Super Grok的獨(dú)立訂閱服務(wù),為忠實(shí)粉絲提供先進(jìn)功能和最新特性訪問權(quán)限。
發(fā)布后最后,馬斯克預(yù)告,或許一周后Grok-3將推出語(yǔ)音模式。后面Grok-3將通過xAI的企業(yè)API提供和DeepSearch功能。
2.馬斯克最近很忙
馬斯克近期又多了一個(gè)身份,即現(xiàn)任“政府效率部”(DOGE)部長(zhǎng)。
馬斯克發(fā)布政府效率部(DOGE)LOGO
自上任以來,馬斯克一個(gè)接一個(gè)地錘向國(guó)際開發(fā)署、教育部和國(guó)土安全部等機(jī)構(gòu)。不僅睡在辦公室,還帶領(lǐng)為數(shù)不多的手下每天工作17小時(shí)。其網(wǎng)站稱,DOGE近期宣布削減550億美元開支。
同時(shí),他在與OpenAI的“恩怨”上也沒閑著。
就在這個(gè)月,馬斯克領(lǐng)導(dǎo)的投資財(cái)團(tuán)向OpenAI提出了974億美元的收購(gòu)要約,表示要“將OpenAI重新定位為非營(yíng)利性研究機(jī)構(gòu)”。根據(jù)收購(gòu)計(jì)劃,交易后OpenAI會(huì)與xAI合并。
OpenAI首席執(zhí)行官薩姆·奧爾特曼(Samuel Altman)隨后便在X上隔空回懟:“不了,謝謝。不過如果你愿意的話,我們?cè)敢庖?7.4億美元的價(jià)格收購(gòu)?fù)铺亍!?/p>
馬斯克與奧爾特曼已經(jīng)有過多輪法律戰(zhàn)和公關(guān)戰(zhàn)。去年馬斯克起訴了奧爾特曼,OpenAI隨后便發(fā)布了一篇名為《OpenAI與埃隆·馬斯克》的博文回應(yīng)了指控。馬斯克也不甘示弱,在社交媒體上表示如果OpenAI將名稱更改為“ClosedAI”,他將撤回對(duì)其的訴訟。
高端的商戰(zhàn)往往就是這么樸實(shí)無(wú)華。
在Grok-3發(fā)布之際,不知是否有意為之,奧特曼也在同一日宣布GPT4.5已經(jīng)進(jìn)入測(cè)試階段,AGI 的時(shí)刻即將來臨,正式發(fā)布也指日可待。
與此同時(shí),Anthropic也宣布即將發(fā)布Claude-4系列。隨著OpenAI、Anthropic、Meta和Google等不斷推出更先進(jìn)的AI產(chǎn)品,未來的競(jìng)爭(zhēng)只會(huì)越發(fā)激烈。
近年來,人工智能領(lǐng)域的每一次突破似乎都被冠以“世界第一”、“革命性”、“顛覆性”等夸張的標(biāo)簽。從OpenAI的GPT系列到Google的Gemini,再到xAI的Grok-3,每一款新模型的發(fā)布都被媒體包裝成“改變游戲規(guī)則”的里程碑。但真正的科技創(chuàng)新是需要被客觀思考的,只有這樣才能深入理解其背后的復(fù)雜性和實(shí)際應(yīng)用價(jià)值。
其實(shí)不加“世界第一”“地表最聰明AI”等定語(yǔ),也可以開產(chǎn)品開發(fā)布會(huì)。而當(dāng)AI被“世界第一”淹沒,我們是否迷失在華麗辭藻中?
至于誰(shuí)能否真正脫穎而出、成為行業(yè)領(lǐng)軍者,還需時(shí)間和市場(chǎng)來驗(yàn)證。
(文中未備注圖片皆來自xAI或X)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.