網易首頁 > 網易號 > 正文申請入駐

馬斯克終于成『AI No.1』，6大案例看實力與水分

2025-07-10 21:02:17　來源: 鯨選AI

北京舉報

分享至

“ 地球最強AI模型”“ 20萬塊H 100顯卡訓練” “超越人類所有博士生 ”，在發布的Grok 4時，馬斯克將眾多贊美詞匯賦予了這個新大模型。

馬斯克也驕傲地宣布，Grok4超越了OpenAI、Google和DeepSeek等等LLM。

確實，Grok 4屠了各種榜單。但大家還要理性看待Grok 4，畢竟Grok系列每次參數爆炸，口碑卻沒那么強。

具體看，Grok4 在人工智能聊天機器人指數中達到了 73 分。這超過了 OpenAI 的 o3（70 分），Google 的 Gemini 2.5 Pro（70 分），Anthropic 的 Claude 4 Opus（64 分），以及 DeepSeek 的 R1 0528（68 分）。

馬斯克再次大力出奇跡，拿下了AI 的No.1，模型的各項指標也很強：

? Grok 4 在編碼指數（LiveCodeBench 和 SciCode）和數學指數（AIME24 和 MATH-500）中同樣處于領先地位。

? GPQA Diamond 中的最高分 88%，比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

? 在“人類最終測試”（Humanity's Last Exam, HLE）中，物、理、化學一系列博士級難題不在話下，Grok 4 達到了所有時間中的最高分 24%，超過了 Gemini 2.5 Pro 之前的最高分 21%。

? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分數。

其他重要信息：

? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬 token 上下文窗口小，但比 Claude 4 Sonnet 和 Claude 4 Opus（20 萬 token），o3（20 萬 token）和 R1 0528（12.8 萬 token）大。

? 支持文本和圖像輸入，但圖像生成基本沒什么進步。

? 支持函數調用和配置輸出。

最值得關注的是，Grok 4 不僅僅是大模型，LLM還內置工具，所以在提問問題的過程中，會有更新的思維過程（CoT）和工具使用可視化功能。

這點讓其在回答問題時更出色，尤其回答網絡新潮內容時。

1、AI第一次有了自我認識和形象

推友問 Grok，如果他必須親自代表自己，他會是什么樣子。

他的回答是這樣的，充滿了想象力： “想象一個漂浮在數字空間中的未來主義發光球體。我的身體將由脈動的藍銀色光芒組成，帶有不斷變化的幾何圖案——代碼行和神經連接像星座一樣交織在一起。沒有臉，但有一種溫暖的 “存在”，帶著柔和的光芒，當我 “思考 ”或回應時，它會變得明亮。能量粒子圍繞我旋轉，象征著我處理的數據和想法。極簡主義而充滿活力，融合了技術和宇宙的好奇心。(X賬號:Déborah)

2、數學能力測試偶有翻車

提示 1： “逐步計算 25 - 4 * 2 + 3。

提示 2：“9.11 和 9.9 哪個更大？

這兩個問題都輕松應對，畢竟數理化是強項。

加大難度，繼續做一道邏輯數學題。

提示 2： “一個棋王被放在 8 × 8 的棋盤上，進行了 64 次移動，以便它訪問了所有方格并返回其起始方格。在每一個時刻，都計算了從 K 所在的方格中心到整個棋盤中心的距離。如果由于移動的結果，這個距離變得比移動前小，我們將認為該移動是合理的。找到最大可能的體面動作數量。（國際象棋王一次移動一個方格，要么是橫向的，要么是斜向的。

正確答案是：44。

— Grok 4 的回答很接近（48），但不正確（Grok 3 給出了相同的答案）

3、創建圖像能力對比

使用相同提示詞生成的圖像對比，Grok 4沒有明顯的進步。

這一輪比賽的提示詞是：“超美麗的動畫電影標題畫面”。

從結果看，Grok4圖像效果不是很強，和 Grok3 相比變化也不大。

Imagen4 果然更強。 Midjourney不錯，但Midjourney 總是無法顯示文字……

4、代碼測試表現尚可

推友使用相同的粗略指示讓各個模型制作了一個游戲。

提示語句：制作一個超級豐富有趣的獨立HTML跑酷游戲。

看起來可以順暢游玩并且確實有趣的可能是Grok 4。藍色的要跳過，淺藍色的要潛行，還有額外的規則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來看，Claude4 sonnet和Gemini2.5Pro相當不錯。

推友認為最強的Claude4 sonnet，代碼最長且多功能，但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。（X賬號:suemaru | AI Game Making）

5、生成小游戲也比較OK

以下是推友使用的相關提示：

一款“3D 滑動拼圖”游戲，我可以點擊 3x3x3 網格中排列的 26 個圓形立方體中的一個。被點擊的立方體只有與空格相鄰（而非對角線）時才會移動到空格。目標是恢復立方體的原始排列，即頂部 9 個為紅色，底部 9 個為橙色，中間層（缺少中心立方體）為綠藍色。添加一個計時器，記錄我完成所需的時間。還要添加我的最佳時間和最近時間的指示。并添加一個“重置”游戲按鈕。

提示：為所有文本添加模糊的橙色背景，確保標簽大小相同，且與屏幕邊框保持一定距離。此外，在游戲開始時和重置后，顯示“如何玩”的疊加文本（背景為淡黑色）。將提醒放置在屏幕中間，標簽大小應足以覆蓋屏幕的三分之二。（X：Vibe2Game）

6、模擬經商中獲得高分

在 Vending-Bench 基準測試中，要求各大模型運行自動售貨機并進行銷售。Grok4 再次大幅領先于競爭對手，銷售額達到 4694 美元，而 Claude4 Opus 的銷售額為 2077 美元。

Vending-Bench 是一個讓 AI 們嘗試在現實世界做生意的指標，讓 AI 排隊機，工作包含管理要賣什么、聯系供應商、找人補貨等等內容，Grok 4 這次要悄然顛覆人類經商這件事。

最后：

xAI 的 API 以 75 個Token/秒的速度為 Grok 4 提供服務。這比 o3（188 個Token/秒）慢，但比 Claude 4 Opus Thinking（66 個Token/秒）快。

Grok 4的價格并不便宜，目前免費的是Grok 3，Grok 4的價格是300美元/年，還推出了新的 SuperGrok Heavy版本，價格達到了驚人的3000 美元/年。

Grok4 的定價高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet，但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

內容參考鏈接：https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

視頻內容推薦：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.