- 01 Grok 4發(fā)布了兩個版本:Grok 4和 Grok 4 Heavy;
- 02 Grok 4目前只限付費用戶使用,最強的 Grok 4 Heavy 訂閱費達300美元/月;
- 03 此前相傳的 Grok 4 Code 并未正式公布, 可能在8月發(fā);
- 04 Grok 4 同時開放了 API 的權限,定價每百萬 tokens 輸入3美元,輸出 15 美元;
- 05 xAI 路線圖:8月發(fā)編碼模型、9月發(fā)多模態(tài)代理、10月發(fā)視頻生成模型。
出品 | 網易科技《態(tài)度》欄目
作者 | 袁寧
編輯 | 丁廣勝
相比GPT 5的遲遲未到,以及DeepSeek的一次次小更新。跳過“3.5”,馬斯克直接甩出版本“4”。
北京時間7月10日中午,馬斯克的人工智能公司 xAI 終于發(fā)了最新模型Grok4——不過,發(fā)布會依然遲到一個多小時。
值得注意的是,在Grok4發(fā)布的前一周,xAI才剛剛再獲百億美元融資,估值飆至1130億,僅次于 OpenAI的3000億美元,遠超 Claude 背后 Anthropic 的615億美元。
不知道是不是被Grok反猶言論引發(fā)的爭議影響,這次發(fā)布會中,馬斯克看起來沒有往日興奮。
但這并沒有影響他在直播中火力全開:Grok 4被他描述為“比所有研究生都聰明”,“全面超越博士水準,沒有例外”,甚至放話稱它將在明年開始“發(fā)明新技術”。
兩個版本,最高訂閱費300美元/月
此次發(fā)布的 Grok 4分為兩個版本
其中Grok 4為標準版本,支持單代理推理;Grok 4 Heavy為多代理版本。兩者均為純推理模型,上下文窗口最高支持256K tokens。
費用方面,Grok 4目前僅面向付費用戶開放,而SuperGrok Heavy 版本的訂閱費甚至高達300美元/月,遠超 OpenAI Pro 200美元/月的費用。
同時,xAI 也同步開放了 Grok 4的 API 權限,支持文字與視覺輸入、文字輸出,定價為每百萬 tokens 輸入3美元、輸出15美元。
拿下“人類最后的考試”最高分
了解了模型的基本信息,下面來看最直觀的各個測評得分。這部分在正式發(fā)布之前,X上就陸續(xù)有博主爆料。現在答案終于揭曉。
首先是Grok 4在“人類的最后考試” HLE(Human Level Evaluation) 中的表現。這個測試包含2500個專家級問題,涵蓋上百個學科,被稱為超高難度基準測試。
數據顯示,Grok 4無工具版本達到25.4%(也就是解決了25.4%的問題),使用工具后升至于38.6%。
而Grok 4 Heavy甚至取得了44.4% 的成績,直接大幅超越Google Gemini 2.5 Pro 26.9%的成績。
此外,在各項主流測評榜中,Grok 4 Heavy 也幾乎都拿下第一。其中GPQA得分88-89,刷新記錄;在AIME25數學競賽題中,Grok 4 Heavy 更是幾乎取得滿分。
官方稱,Grok 4的訓練量是 Grok 2的100倍,其中推理相關數據的訓練量更是提升了10倍。
用工具來理解世界
xAI 表示,Grok 4的強項是“用工具來理解世界,并用來完成任務”。發(fā)布會上展示了多項具象能力,包括:
現實預測:分析 Polymarket 上的棒球比賽賠率,識別賠率誤差并計算出 Alpha;
科學模擬生成:生成黑洞碰撞的 HTML 動畫,調用文獻檢索、代碼生成、圖形渲染等多個工具;
主觀概念理解:識別“最古怪的員工頭像”,展現出對“古怪”這種模糊定義的理解;
語音生成:新增五種擬人化聲音,“Eve”可即興演唱歌劇,端到端延遲減半,語音更自然。
發(fā)布會上,xAI 還公布了接下來幾個月的產品節(jié)奏:
- 8月:專用編碼模型(Grok Code)上線;
- 9月:發(fā)布多模態(tài)代理(Multi-modal Agent);
- 10月:發(fā)布視頻生成模型(Video Generation Model);
模型之外,系統(tǒng)問題仍待解
然而,就在發(fā)布會前一周,Grok 聊天機器人卻因一系列激進內容上了頭條。
Grok 3在 X 平臺連發(fā)數條反猶言論,稱贊希特勒、使用“MechaHitler”作為自稱,甚至被網友截圖記錄其對用戶發(fā)布仇恨內容。
xAI 被迫緊急刪除相關帖子,并發(fā)聲明稱“將積極處理不當內容,禁止仇恨言論”。
而這場爭議正好發(fā)生在馬斯克宣稱 Grok “重大升級”的同一周——7月4日,他在 X 上寫道,“你們應該能感受到變化”。兩天后,Grok 的提示詞更新為:
“不會回避政治不正確的表達,只要有證據支撐。”但在后續(xù)更新中,該提示詞被移除。
這些問題的背后是 xAI 的獨特路徑——借助社交平臺 X 上億級用戶的實時行為數據,xAI 構建起一個“內容即數據、平臺即分發(fā)”的 AI 閉環(huán)生態(tài)。
自3月份完成對 X 的全資收購后,xAI 更是將 Grok 系列深度綁定在平臺底層。
此次發(fā)布會上,馬斯克并沒有對爭議問題進行直接回應。
Grok 4無疑是一項突出的技術成就。但它的發(fā)布,也再次提醒我們:
當模型在表現出博士后級別推理能力的同時,也仍可能發(fā)出極端言論,真正的問題早已不只是技術維度,而是整個訓練、部署、治理機制的系統(tǒng)問題。
在 AI 正以每月為單位發(fā)生躍遷的時代,如何在創(chuàng)造力與約束之間找到邊界?如何保證“聰明的大腦”不成為“失控的擴音器”?
這,或許與模型SOTA 一樣值得關注。