網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

馬斯克推出Grok-3，欲與ChatGPT和DeepSeek角逐｜甲子光年

2025-02-18 19:06:21　來源: 甲子光年

北京舉報(bào)

分享至

— Hi everyone. My name is Igor, lead engineering at X.

— I'm Jimmy, leading research.

— I'm Tony, working on the recent team.

— All right. I'm Elon. I don't do anything. I just show up occasionally.

作者｜蘇霍伊

DeepSeek攪動(dòng)的混天綾，又一次在人工智能的海域卷起了巨浪。讓OpenAI、xAI等一眾公司都坐不住了。

美西時(shí)間2月17號(hào)，埃隆·馬斯克（Elon Musk）的人工智能初創(chuàng)公司xAI推出Grok-3模型，并十分高調(diào)地宣稱，這是“地表最聰明的AI”。

馬斯克與三位工程師共同完成了演示，其中左一的工程團(tuán)隊(duì)負(fù)責(zé)人伊戈?duì)?巴布什金（Igor Babuschkin），原是DeepMind 的高級(jí)研究員；左二的研究負(fù)責(zé)人Jimmy Ba是杰弗里·辛頓 (Geoffrey Hinton) 的學(xué)生；右二的Tony吳宇懷（Yuhuai Wu）是近期加入團(tuán)隊(duì)的成員。

團(tuán)隊(duì)透露，Grok-3的計(jì)算能力是前代產(chǎn)品的“10倍以上”。據(jù)悉，Grok-3是在今年1月初完成預(yù)訓(xùn)練，目前還在不斷優(yōu)化中。馬斯克表示：“我們每天都在改進(jìn)模型，所以24小時(shí)內(nèi)能看到進(jìn)步。”

他也在直播中表示，“Grok”的名字來自羅伯特·海因萊因（Robert Anson Heinlein）的小說《異鄉(xiāng)異客》，主角是在火星上長(zhǎng)大的人類，“Grok”也是一個(gè)“火星詞”，代表充分而深刻地理解事物。

隨后他說道，xAI和 Grok的使命就是理解宇宙。“我們希望解答最宏大的問題：外星人在哪里？生命的意義是什么？宇宙如何終結(jié)？”

根據(jù)xAI數(shù)據(jù)，Grok-3在數(shù)學(xué)（AIME’24）、科學(xué)（GPQA）以及編程（LCB Oct-Feb）三大基準(zhǔn)測(cè)試中的表現(xiàn)還不錯(cuò)。數(shù)據(jù)上是超越了所有主流模型，包括GPT-4o、Claude 3.5 Sonnet、DeepSeek-V3和Gemini-2 Pro等。

各大模型在Chatbot Arena成績(jī)比較

以數(shù)學(xué)測(cè)試為例，Grok-3取得了52分的最高成績(jī)，而同屬xAI陣營(yíng)的Grok-3 mini則拿到40分，DeepSeek-V3以39分緊隨其后；Gemini-2 Pro拿到36分，Claude 3.5 Sonnet和GPT-4o分別只有16分和9分。

科學(xué)和編程測(cè)試的情況也大同小異。Grok-3都以較大優(yōu)勢(shì)領(lǐng)先其他模型，Grok-3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet以及GPT-4o各自分列二至六名。

Grok-3與其他模型在數(shù)學(xué)、科學(xué)和編程基準(zhǔn)測(cè)試的比較

除了Grok-3，xAI還推出了一款名為DeepSearch的新型智能搜索引擎。DeepSearch基于Grok-3開發(fā)，具備推理能力，并提供完整地思考過程。在演示中，DeepSearch展示了其在研究、頭腦風(fēng)暴和數(shù)據(jù)分析等場(chǎng)景中的應(yīng)用潛力。

Grok-3依托由20萬(wàn)塊NVIDIA H100 GPU構(gòu)建的Colossus超算集群，計(jì)算能力是前代Grok-2的10倍，預(yù)訓(xùn)練階段的消耗相當(dāng)于一座核電站7%的月發(fā)電量。Colossus從籌建到上線僅用了122天，xAI計(jì)劃將Colossus的規(guī)模擴(kuò)大十倍，整合超過100萬(wàn)塊GPU，用以超越谷歌、OpenAI等競(jìng)爭(zhēng)對(duì)手。

相比之下，DeepSeek-V3的算法優(yōu)化路徑僅使用了2048塊英偉達(dá)H800 GPU，耗費(fèi)了557.6萬(wàn)美元就完成了訓(xùn)練，比同等規(guī)模的模型（如GPT-4、GPT-4o、Llama 3.1），訓(xùn)練成本大幅降低。同時(shí)，Grok 3還是非開源模型，需要付費(fèi)。

DeepSeek-V3的訓(xùn)練成本（假設(shè)H800的租賃價(jià)格為2美元/GPU小時(shí)），圖片來源：DeepSeek-V3技術(shù)報(bào)告

1.Grok 3 聰明在哪兒？

xAI表示，Grok-3聰明的原因是它背后依托了Colossus，通過“突破光速”的研發(fā)模式實(shí)現(xiàn)了技術(shù)飛躍。

“最優(yōu)秀的人工智能不僅依賴大規(guī)模預(yù)訓(xùn)練，更需要具備類人推理能力，即能夠獨(dú)立思考解決方案、自我批判、驗(yàn)證、回溯，并從第一性原理出發(fā)。”根據(jù)這一思路，xAI在預(yù)訓(xùn)練模型的基礎(chǔ)上引入了強(qiáng)化學(xué)習(xí)，希望進(jìn)一步推進(jìn)模型的推理能力。

在Chatbot Arena LMSYS基準(zhǔn)測(cè)試中，Grok-3獲得了1400分的最高成績(jī)，遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手——Claude 3約1360分，GPT-4約1340分。

據(jù)xAI最新公開資料顯示，在一場(chǎng)針對(duì)AGI核心引擎的純粹盲測(cè)中，用戶在不知答案來源的情況下提交同一查詢，并對(duì)兩個(gè)不同模型的回答進(jìn)行投票。結(jié)果顯示，Grok-3的早期版本在這一測(cè)試中獲得了1,400 ELO分，遠(yuǎn)超其他競(jìng)爭(zhēng)對(duì)手，如Claude 3和GPT-4等。這一盲測(cè)方式僅考察模型本身的推理能力，而非依賴外部數(shù)據(jù)或提示。

除了Grok-3和Grok-3 mini，xAI團(tuán)隊(duì)還推出了兩個(gè)專門用于推理的模型。其中，Grok-3 mini Reasoning已經(jīng)相對(duì)成熟，而Grok-3 Reasoning Beta仍處于測(cè)試階段。

在直播演示中，馬斯克和研發(fā)團(tuán)隊(duì)測(cè)試了物理和游戲兩個(gè)案例。

首先團(tuán)隊(duì)僅輸入一行指令，讓Grok-3編寫代碼，生成一段模擬火箭從地球發(fā)射、降落火星，并在合適的發(fā)射窗口返回地球的3D動(dòng)畫。Grok-3在考慮了開普勒定律后，不但生成了可以繪制出動(dòng)畫的代碼，還生成了一段模擬火箭發(fā)射軌跡的3D動(dòng)畫。

馬斯克解釋道：“Grok正在模擬兩個(gè)不同的行星——地球和火星。綠色的球體代表飛船，在地球與火星之間穿梭。你可以看到從地球到火星的旅程，最終宇航員安全返回。”

同時(shí)他也插播了一句：“如果一切順利，SpaceX 將在未來兩年把星艦火箭送往火星，搭載Optimus機(jī)器人和Grok。”

給Grok-3的第二個(gè)問題是：設(shè)計(jì)一個(gè)結(jié)合俄羅斯方塊和寶石迷陣玩法的混合游戲。并提示代碼可能較長(zhǎng)，還要“insanely great”。經(jīng)過思考，Grok 3設(shè)計(jì)出了既有俄羅斯方塊的消除機(jī)制，又有寶石迷陣特點(diǎn)的游戲。

xAI也讓Grok-3去做了AIME 2025競(jìng)賽。最終Grok-3 Reasoning Beta以93分的高分拔得頭籌，Grok-3 mini Reasoning也取得了90分，均領(lǐng)先于其他參賽模型。相比之下，o3mini（高精度版）得分為87，o1為79，DeepSeek-R1為75，而Gemini-2 Flash Thinking僅獲得54分。

乍一看，Grok-3似乎已經(jīng)坐穩(wěn)了數(shù)學(xué)推理領(lǐng)域的“頭把交椅”。但仔細(xì)推敲，這些成績(jī)是否真的能證明Grok-3的絕對(duì)領(lǐng)先地位？或許還不能輕易下結(jié)論，畢竟測(cè)試環(huán)境和數(shù)據(jù)集的選擇可能對(duì)結(jié)果產(chǎn)生影響，單一測(cè)試并不能全面反映模型的綜合性能。同時(shí)Grok-3 Reasoning Beta仍處于測(cè)試階段，穩(wěn)定性和可靠性尚未經(jīng)過廣泛驗(yàn)證。

此外，xAI還推出了一款名為DeepSearch的新型智能搜索引擎。它能搜索網(wǎng)頁(yè)、查找資料和推測(cè)用戶意圖并思考，并在交叉比對(duì)后確保返回正確的信息。

馬斯克表示：“Grok-3能減少AI幻覺。”實(shí)現(xiàn)方式是反復(fù)檢查數(shù)據(jù)并確保邏輯一致，他也透露，Grok-3訓(xùn)練時(shí)使用的算力遠(yuǎn)超之前版本，并大量采用了合成數(shù)據(jù)。自2023年7月成立xAI以來，xAI先后于2023年11月和2024年8月發(fā)布了Grok-1和Grok-2，前者擁有3140億參數(shù)，成為當(dāng)時(shí)參數(shù)量最大的開源大模型。

xAI宣布，Grok-3將于美國(guó)當(dāng)?shù)刂芤徽酵瞥觯着w驗(yàn)者為X的Premium Plus訂閱用戶，同時(shí)還推出了名為Super Grok的獨(dú)立訂閱服務(wù)，為忠實(shí)粉絲提供先進(jìn)功能和最新特性訪問權(quán)限。

發(fā)布后最后，馬斯克預(yù)告，或許一周后Grok-3將推出語(yǔ)音模式。后面Grok-3將通過xAI的企業(yè)API提供和DeepSearch功能。

2.馬斯克最近很忙

馬斯克近期又多了一個(gè)身份，即現(xiàn)任“政府效率部”（DOGE）部長(zhǎng)。

馬斯克發(fā)布政府效率部（DOGE）LOGO

自上任以來，馬斯克一個(gè)接一個(gè)地錘向國(guó)際開發(fā)署、教育部和國(guó)土安全部等機(jī)構(gòu)。不僅睡在辦公室，還帶領(lǐng)為數(shù)不多的手下每天工作17小時(shí)。其網(wǎng)站稱，DOGE近期宣布削減550億美元開支。

同時(shí)，他在與OpenAI的“恩怨”上也沒閑著。

就在這個(gè)月，馬斯克領(lǐng)導(dǎo)的投資財(cái)團(tuán)向OpenAI提出了974億美元的收購(gòu)要約，表示要“將OpenAI重新定位為非營(yíng)利性研究機(jī)構(gòu)”。根據(jù)收購(gòu)計(jì)劃，交易后OpenAI會(huì)與xAI合并。

OpenAI首席執(zhí)行官薩姆·奧爾特曼（Samuel Altman）隨后便在X上隔空回懟：“不了，謝謝。不過如果你愿意的話，我們?cè)敢庖?7.4億美元的價(jià)格收購(gòu)?fù)铺亍！?/p>

馬斯克與奧爾特曼已經(jīng)有過多輪法律戰(zhàn)和公關(guān)戰(zhàn)。去年馬斯克起訴了奧爾特曼，OpenAI隨后便發(fā)布了一篇名為《OpenAI與埃隆·馬斯克》的博文回應(yīng)了指控。馬斯克也不甘示弱，在社交媒體上表示如果OpenAI將名稱更改為“ClosedAI”，他將撤回對(duì)其的訴訟。

高端的商戰(zhàn)往往就是這么樸實(shí)無(wú)華。

在Grok-3發(fā)布之際，不知是否有意為之，奧特曼也在同一日宣布GPT4.5已經(jīng)進(jìn)入測(cè)試階段，AGI 的時(shí)刻即將來臨，正式發(fā)布也指日可待。

與此同時(shí)，Anthropic也宣布即將發(fā)布Claude-4系列。隨著OpenAI、Anthropic、Meta和Google等不斷推出更先進(jìn)的AI產(chǎn)品，未來的競(jìng)爭(zhēng)只會(huì)越發(fā)激烈。

近年來，人工智能領(lǐng)域的每一次突破似乎都被冠以“世界第一”、“革命性”、“顛覆性”等夸張的標(biāo)簽。從OpenAI的GPT系列到Google的Gemini，再到xAI的Grok-3，每一款新模型的發(fā)布都被媒體包裝成“改變游戲規(guī)則”的里程碑。但真正的科技創(chuàng)新是需要被客觀思考的，只有這樣才能深入理解其背后的復(fù)雜性和實(shí)際應(yīng)用價(jià)值。

其實(shí)不加“世界第一”“地表最聰明AI”等定語(yǔ)，也可以開產(chǎn)品開發(fā)布會(huì)。而當(dāng)AI被“世界第一”淹沒，我們是否迷失在華麗辭藻中？

至于誰(shuí)能否真正脫穎而出、成為行業(yè)領(lǐng)軍者，還需時(shí)間和市場(chǎng)來驗(yàn)證。

（文中未備注圖片皆來自xAI或X）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.