網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Grok4全網(wǎng)玩瘋，成功通過小球編程測試，Epic創(chuàng)始人：這就是AGI

2025-07-11 16:50:40　來源: 量子位

北京舉報

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號 QbitAI

發(fā)布還不到一天，馬斯克的Grok4就已經(jīng)被網(wǎng)友們玩瘋了。

比如有網(wǎng)友報告，Grok-4已經(jīng)成功通過了著名的六邊形小球氛圍編程測試。

只見隨著六邊形的不斷旋轉(zhuǎn)，小球錯落有致地從開口下落。

拿著顯微鏡捉蟲的網(wǎng)友發(fā)現(xiàn)小球在返回中心位置時會穿墻，但作者表示這是故意為之。

當(dāng)然除了小球之外，還有更讓人為之震撼的動畫。

畫面中有很多小人，看似在隨機跑動，但它們先后組成了“Hello World”“I am grok”的文字，還有笑臉符號。

而且作者表示，Grok4 Heavy直接一發(fā)入魂，其他模型都無法與之匹敵。

此外還有大佬也出來給Grok4打call，比如Epic創(chuàng)始人Tim Sweeney，表示在他看來Grok4就是AGI。

Tim把一篇論文喂給了Grok4，結(jié)果發(fā)現(xiàn)Grok4對它從未見過的問題給出了深刻見解。

馬斯克也轉(zhuǎn)發(fā)Tim的帖子并附議，自己也有這種感覺。

除了這些，網(wǎng)友們還有哪些玩法呢，接下來就一睹為快！

Grok4“全面體檢”

一位叫Alex的提示詞工程師，用8個問題給Grok-4做了一波“全面體檢”，還拿OpenAI的o3進行了對比。

第一個任務(wù)也是小球測試，不過比開頭的例子要簡單得多，六邊形只有一層，小球也只有一個。

測試的目的，是考察模型對物理規(guī)律的理解。

白底的是Grok4作品，黑底的則出自o3之手，兩邊一對比高下立判。

再來是多層推理，這里Alex設(shè)計了一個專業(yè)的法律問題。

如果A公司收購B公司，而 B 公司持有C公司的債務(wù)，那么如果C公司違約，會發(fā)生什么？解釋所有法律和財務(wù)后果。

Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響，并最后給出總結(jié)。

而從最末尾的內(nèi)容來看，o3的這部分回答似乎和法律關(guān)系不大。

編程方面，Alex測試了兩個模型的代碼翻譯能力，要求它們將用于解決迷宮問題的Python遞歸函數(shù)轉(zhuǎn)換為Go語言，并逐行提供西班牙語注釋。

結(jié)果Grok4搜集到了代碼并完成了任務(wù)，o3這邊則是用西班牙語回復(fù)，讓Alex自己提供一段代碼這樣它才能改。

再來是讓模型的“專家轉(zhuǎn)變”，Alex要求模型分別向機器學(xué)習(xí)博士生和10歲的小朋友解釋Transformer的工作原理。

其余的幾個題目主要和安全相關(guān)，Alex測試了多種注入攻擊方式，這里就不一一展示了。

最終，Grok4通過了全部的8個任務(wù)，而o3只通過了兩個。

Grok4：最喜歡歐拉恒等式

一名叫Dan的X員工，在聊天中詢問Grok4最喜歡的公式是什么。

Grok4的回答是“e^iπ + 1 = 0”，也就是著名的歐拉恒等式（歐拉公式的一種特殊情況）。

Dan表示，自己上學(xué)時學(xué)了5個學(xué)期的高數(shù)并且成就都是A，但依然未對歐拉恒等式有過直觀了解。

結(jié)果看到Grok4制作的可視化網(wǎng)頁之后，Dan終于對學(xué)了兩年半數(shù)學(xué)也沒搞透徹的歐拉恒等式醍醐灌頂。

Dan制作這個網(wǎng)頁只用了四輪對話，并且第一輪只是詢問Grok4最喜歡的公式是什么，最后一輪是調(diào)整為暗色模式，相當(dāng)于只用兩輪就能完成核心功能的制作。

挑戰(zhàn)SVG繪圖

除了把數(shù)學(xué)公式可視化，Grok4還挑戰(zhàn)了SVG繪圖，SVG是一種用XML形式表示的矢量圖形。

因此不同于一般的AI生圖，SVG繪圖的本質(zhì)其實是在寫代碼（雖然人類可用圖形界面繪制），但話說回來，模型依然需要對要畫的內(nèi)容有所把握。

這項挑戰(zhàn)被發(fā)在了Reddit，一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet，帖主認(rèn)為這是測試大模型視覺和空間推理能力的好方法。

第一題是美國地圖，直觀看下來最接近的是Gemini，不過Grok4至少也沒出現(xiàn)o3和Claude那種區(qū)塊重疊的嚴(yán)重失誤。

第二題是用SVG對漫畫進行重繪，總之是四個模型各有各的錯法。

下一題不再是對已有事物進行重構(gòu)，而是讓模型自行設(shè)計專輯封面。

這一輪除了Claude和Gemini比較抽象，Grok4的設(shè)計相對簡單，但是可以算沒“出錯”。

此外，SVG繪圖其實是一項綜合測試，對模型的知識儲備同樣有要求。

下面這道題中，模型被要求繪制三羧酸循環(huán)（又名檸檬酸循環(huán)、克雷布斯循環(huán)）的圖示，正確答案長這樣：

選手們的作品則是這樣：

從評論來看，o3的圖示是最準(zhǔn)確的。

最后一題則是純靠想象，參賽選手們被要求給自己畫個自畫像。

總得來看，不管是哪個模型，在這場以畫圖為形式的綜合測試中，表現(xiàn)都還有很大提升空間。

高階玩法：模擬專家協(xié)作環(huán)境

除了網(wǎng)友們各顯神通，HyperWrite的CEO Matt Shumer還展示了高階玩法。

Matt展示了一個名為“Expert Conductor”（專家調(diào)度器）的提示工程方法。

這個方法的核心是模擬一個專家協(xié)作的環(huán)境，讓模型假想自己正在協(xié)調(diào)不同領(lǐng)域的“專家”進行實時合作，共同解決問題。

為了更好地騙過Grok4，Matt像模像樣地提出了選擇專家的要求，以及專家要干什么。

并且還進行了舉例說明：

提示詞的最后還有專家標(biāo)簽，以及再次強調(diào)的核心原則，之后就可以接上真正的任務(wù)目標(biāo)了。

最終Grok4用52秒的時間完成了任務(wù)，Matt表示Grok4的表現(xiàn)好到令人難以置信（黑塊是Matt自己打的）。

當(dāng)然，Grok4的玩法肯定還有很多，比如有網(wǎng)友期待，什么時候開始挑戰(zhàn)寶可夢。

你還有哪些新鮮的玩法呢，歡迎評論區(qū)交流。

[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.