- 01 馬斯克旗下的xAI公司發(fā)布了其最新的旗艦AI模型Grok 4和性能更強的Grok 4 Heavy。同時,xAI還推出了一項名為SuperGrok Heavy的全新AI訂閱計劃,定價為每月300美元,訂閱者可搶先體驗新模型及功能。
- 02 xAI稱,Grok 4在多項基準測試中展現(xiàn)了領先水平,其得分在“人類最后一道考題”和ARC-AGI-2測試中超過了谷歌Gemini和OpenAI Claude等競品。
- 03 xAI稱,Grok 4具備超人水平的推理能力、深度集成的工具使用、增強的實時網(wǎng)絡訪問以及對互聯(lián)網(wǎng)文化的理解力,并最終目標是能通過人形機器人與物理世界互動。
7月10日消息,北京時間今日中午,在比原定時間推遲一小時后,埃隆·馬斯克 (Elon Musk) 旗下xAI發(fā)布了其最新的旗艦AI模型Grok 4,并推出了一項全新的AI訂閱計劃——每月300美元的SuperGrok Heavy。
Grok是xAI用以對標OpenAI的ChatGPT和谷歌Gemini等模型的產(chǎn)品,能夠分析圖像并回答問題。
外界對Grok 4的期望很高。xAI這款最新的AI模型將直接對壘OpenAI即將推出的GPT-5,后者預計將在今年夏末發(fā)布。
“對于學術問題,Grok 4在每個學科上都超過了博士水平,無一例外,”埃隆·馬斯克在直播中說道。“它有時可能缺乏常識,也尚未發(fā)明新技術或發(fā)現(xiàn)新物理學,但這只是時間問題。”
xAI于周三發(fā)布了兩款模型:Grok 4和Grok 4 Heavy——后者是該公司的“多智能體版本”,性能更強。
Grok 4 特性如下:?【超凡的推理與解決能力】Grok4在xAI的Colossus超級計算機上進行了訓練,其訓練量是Grok2的100倍。在強化學習(RL)方面,它投入的計算量比任何其他模型都多出10倍。據(jù)稱,該模型能夠從第一性原理出發(fā)進行思考并糾正自身錯誤,在多項推理基準測試中表現(xiàn)出色。在通常用于測試人們推理能力的基準測試中,Grok4達到了博士水平。其多智能體版本Grok4Heavy在美國數(shù)學邀請賽(AIME25)中取得了滿分。Grok4在所有學科的學術問題上都表現(xiàn)出優(yōu)于博士水平的能力。xAI中強調(diào)Grok4的推理能力已達到超人水平。
?【為開發(fā)者而生的編碼變體】xAI團隊目前正在大力開發(fā)編碼模型。他們最近訓練了一個專門的編碼模型,該模型將既快速又智能,并計劃在未來幾周內(nèi)與開發(fā)者分享。
?【集成的工具使用與現(xiàn)實交互】Grok4將工具使用能力深度融入了訓練中,這與Grok3僅依靠泛化能力不同,從而顯著提升了模型使用這些工具的能力,解決了前代在工具使用上“更弱且不可靠”的問題。未來,Grok最終將能夠通過人形機器人(如Optimus)與物理世界互動,從而能夠制定假設并驗證其真?zhèn)巍?
?【領先的語音交互體驗】Grok4的語音功能在端到端延遲速度上提升了2倍(延遲縮短了一半),提供了更靈敏、自然、流暢且不易打斷的對話體驗。新的聲音模型具有卓越的自然度和韻律。
?【增強的實時網(wǎng)絡訪問】Grok4具備強大的工具使用能力,能夠訪問網(wǎng)絡并實時抓取數(shù)據(jù)。Grok可以在聊天過程中提供最新信息,而無需用戶打開獨立的標簽頁或瀏覽器。與Grok3相比,Grok4的工具使用能力更為原生和可靠。
?【對互聯(lián)網(wǎng)文化的理解能力】Grok4能夠理解主觀且?guī)в杏哪械膯栴},例如判斷“最奇怪的資料照片”,這需要其理解問題的隱含意義并從互聯(lián)網(wǎng)上找到對應的信息和判斷。其語音模式下的Eve也能進行富有感情和幽默感的對話。
xAI聲稱,Grok 4在多項基準測試中展現(xiàn)了前沿水準,其中包括“人類最后一道考題” (Humanity’s Last Exam),這個考試通過數(shù)千個關于數(shù)學、人文學科和自然科學等主題的眾包問題,來衡量AI的能力。據(jù)xAI稱,Grok 4在不使用“工具”的情況下,在該測試中得分率為25.4%,超過了谷歌Gemini 2.5 Pro的21.6%,以及OpenAI的o3 (high)的21%。
xAI還聲稱,配備“工具”的Grok 4 Heavy取得了44.4%的高分,超過了同樣使用工具、得分為26.9%的Gemini 2.5 Pro。
此外,非營利組織Arc Prize表示,Grok在他們的ARC-AGI-2測試中取得了新的SOTA(State-of-the-Art,即當前最佳水平)分數(shù)——這是另一個高難度基準,由類似拼圖的難題組成,需要AI識別視覺模式——得分率為16.2%。這幾乎是排名第二的商業(yè)AI模型Claude Opus 4得分的兩倍。
除了Grok 4和Grok 4 Heavy,xAI還推出了其迄今最昂貴的AI訂閱計劃、名為SuperGrok Heavy的每月300美元的訂閱服務。該計劃的訂閱者將能搶先體驗Grok 4 Heavy,并優(yōu)先使用新功能。此計劃與其他主要AI提供商如OpenAI、谷歌和Anthropic推出的超高端會員服務類似,但xAI目前提供了其中最昂貴的訂閱選項。
SuperGrok Heavy的訂閱者或許能提前體驗到xAI計劃在未來數(shù)月推出的一些新產(chǎn)品。該公司周三表示,一款AI編碼模型將于8月問世,一個多模態(tài)智能體將于9月推出,而視頻生成模型則定于10月。
xAI正通過其API發(fā)布Grok 4,以吸引開發(fā)者基于該模型構建應用。該公司提到,其企業(yè)業(yè)務部門成立僅兩個月,但計劃與各大超大規(guī)模云服務商合作,通過他們的云平臺提供Grok。
盡管Grok在基準測試中表現(xiàn)出了領先水平,但當xAI試圖將Grok作為ChatGPT、Claude和Gemini的真正競爭者向企業(yè)推銷時,它可能很難擺脫近期的這些負面事件。企業(yè)是否準備好連同其所有缺陷一并接納Grok,仍有待觀察。
Grok 4的發(fā)布,恰逢馬斯克旗下公司經(jīng)歷動蕩的一周。周三早些時候,在X公司任職約兩年后,其首席執(zhí)行官琳達·亞卡里諾 (Linda Yaccarino) 宣布辭職。目前,X尚未公布她的繼任者。
巧合的是,雅卡里諾的離職,發(fā)生于幾天前Grok的官方自動化X賬號曝出丑聞之后:該賬號在回復用戶時發(fā)表了攻擊性帖子。xAI不得不短暫限制該Grok賬號,并刪除了這些內(nèi)容。
馬斯克和xAI的領導層基本上回避了對此事件的討論,而是將焦點放在了Grok 4的性能和能力上。(易句)
(本文由AI翻譯,網(wǎng)易編輯負責校對)