“Grok”一詞不是馬斯克原創,而是源于科幻作家羅伯特·海因萊因 (Robert A. Heinlein) 1961年的經典小說《異鄉異客》(Stranger in a Strange Land)。在小說中,“Grok”是一個火星詞匯,其含義遠超“理解”,它代表著一種深刻、直觀、感同身受的領悟,一種與被理解對象融為一體的境界。
放棄去火星的馬斯克連時間觀念也丟了。
如果說AI界要有自己的脫口秀的話,我投馬斯克這次Grok4發布會一票,
整整推遲一小時,我開始思考午飯吃什么了。
來都來了,還是一起來看看這場時長還沒推遲的時間長、背景全黑、全員黑衣服、全場主要靠運動鞋打光、發布前24小時還在測試性能,
發布前一周馬斯克還專門去XAI搭帳篷盯著開發的、
得分豪華到把所有模型按在地上打的、
(別一口氣讀完,我差點上不來氣。)
Grok4發布會吧!
我會先用一小段篇幅快速煸干發布會的水分,以及我充了215塊/月的Grok4基礎版在各種任務下真實表現。
還有就是做了一個表格,把這次沒放出來的案例整理進去了,大家有啥想跑的case也貼上去,我定時跑,冤大頭能救一個是一個。公眾號回復“grok”就ok啦!
Here we go!
01|Grok4紙面實力
這次Grok更新了兩個新的訂閱套餐,對應Grok4和Grok4 Heavy,平均價格比隔壁OpenAI上漲了50%。我充的Grok4還沒有 DeepSearch(深度搜索)和 Deeper search(深深度搜索)的功能。
功能不多,上下文也不咋樣。
Grok4的上下文是130k,Heavy版本是256k,只有隔壁Gemini 2.5 pro的13%到25%。
那么貴的話表現不好的話我包噴的。
還有就是哪個天才把攝像頭對準演示那哥們的電腦的,四五個案例只有兩個完整跑出來了,其他都是看的中間結果,等待過程還要跟馬斯克尬聊,感覺這哥們都要碎了。
從Grok3訓練到Grok4,計算量增加了10倍,
有工具的Grok4表現能提升12%
有工具還能多思考的Grok4還能提升10%,
高中數學競賽數據集 AIME25 直接刷到100%了,離譜。。。比Claude4 Opus高了25個點。
在視覺推理測試機 ARC-AGI 也刷到了 SOTA
在 Vending-Bench 商業模擬中,Grok 4 通過高銷量+高利潤率策略,將平均凈資產提高到第二名的兩倍以上,比人工操作、Claude、Gemini、o3都要好。
所以代碼?
我那么多代碼評測集被你馬斯克吞了嗎?
總結一下放出來的評分集中在數學、物理、長上下文(這個就搞笑的)、自然科學、人文科學和視覺推理。
是真的一點代碼都沒提到,發布會演示的時候唯二成功的還是代碼和數學案例。。。
02|Grok4真實實力
平時用 Claude4 都習慣了,我都不帶測貪吃蛇了,上來先手一個3D小貓,
使用three.js 生成一個由立方體組成的貓咪,然后貓咪在一個平面上原地奔跑的動畫,所有代碼放在一個html文件里面
很好,四只腿一起跳很有精神。。。
不然試試看做個網頁?
只有基礎聯網搜索的Grok4連自己發布會的信息都沒整理全。
我不信!一定還有別的方法用回這215塊。
如果我不給Grok4任何限制,就讓它出一個炫酷的網頁給我呢?
現在知道為什么后續八月第一個要發布會Grok4的代碼模型版本了,
Grok4是真不會寫代碼。。。
那要不測測看多模態能力?畢竟視覺推理里Grok4也是“第一”了,
好消息,圖像生成輸出很快,
壞消息,圖像質量倒退兩年,
說不定是可以做圖像推理呢?
卡擦一張圖就把所有要買的東西算好賬了,卡擦一張圖就把數量算好了,
很好,也答錯了。這里面確實有幾個是重疊的,所以我決定降低難度。
我沒有去掉圖像的水印,想說給Grok4買個破綻。
淚目了,終于答對了,還可以根據水印去找圖片的來源了,但這個任務我已經有o3了。Grok4你沒用了。
有沒有充了Grok Heavy的朋友分享一下自己的案例,我嚴重懷疑Grok4刷分了,
03|還有啥?
被馬斯克偷走215塊的我嘗試找找發布會沒有的信息,
看看能不能回回本,
這次出了一組新的聲音, Sal 和 Eve。估計也是只支持英文的了。沒用,pass。
Grok4上線支持了API,每 100 萬個tokens是 21-107。沒有價格優勢,pass。
太失望了,Grok系列本來還是相當不錯的,
從OpenRouter統計的數據里看,在編程領域上Grok-3-Beta的使用量能排到第六,
現在看來有可能是因為前段時間頻繁送的1000塊API做出來的數據錯覺,
Grok3被馬斯克稱為“地球上最聰明的人工智能”,Grok4更是帶著“重寫全人類的在線知識庫”使命誕生(馬斯克自己說的不是我說的),
現在看來時間太早、制作太趕、
趕緊把Grok4回爐重造一下吧,
Grok3我用起來都沒感覺那么爛。
時間我都給你安排好了,
你就在Coding Model發布的那天,
宣布推出Grok4.1,然后說Grok4運算成本太高,后面只在API出現,
然后把這個模型偽裝成Grok4-mini,
再把套餐價格跟OpenAI拉平。
這樣還能回點口碑。
謝謝就不用了都是從奧特曼那學來的,
記得把我215塊退給我就行了。。。
@ 作者 / 卡爾@ 動手學AI / learnprompt.pro
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.