網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Grok4全網(wǎng)玩瘋，成功通過(guò)小球編程測(cè)試，Epic創(chuàng)始人：這就是AGI

2025-07-11 16:50:40　來(lái)源: 量子位

北京舉報(bào)

分享至

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

發(fā)布還不到一天，馬斯克的Grok4就已經(jīng)被網(wǎng)友們玩瘋了。

比如有網(wǎng)友報(bào)告，Grok-4已經(jīng)成功通過(guò)了著名的六邊形小球氛圍編程測(cè)試。

只見隨著六邊形的不斷旋轉(zhuǎn)，小球錯(cuò)落有致地從開口下落。

拿著顯微鏡捉蟲的網(wǎng)友發(fā)現(xiàn)小球在返回中心位置時(shí)會(huì)穿墻，但作者表示這是故意為之。

當(dāng)然除了小球之外，還有更讓人為之震撼的動(dòng)畫。

畫面中有很多小人，看似在隨機(jī)跑動(dòng)，但它們先后組成了“Hello World”“I am grok”的文字，還有笑臉?lè)?hào)。

而且作者表示，Grok4 Heavy直接一發(fā)入魂，其他模型都無(wú)法與之匹敵。

此外還有大佬也出來(lái)給Grok4打call，比如Epic創(chuàng)始人Tim Sweeney，表示在他看來(lái)Grok4就是AGI。

Tim把一篇論文喂給了Grok4，結(jié)果發(fā)現(xiàn)Grok4對(duì)它從未見過(guò)的問(wèn)題給出了深刻見解。

馬斯克也轉(zhuǎn)發(fā)Tim的帖子并附議，自己也有這種感覺(jué)。

除了這些，網(wǎng)友們還有哪些玩法呢，接下來(lái)就一睹為快！

Grok4“全面體檢”

一位叫Alex的提示詞工程師，用8個(gè)問(wèn)題給Grok-4做了一波“全面體檢”，還拿OpenAI的o3進(jìn)行了對(duì)比。

第一個(gè)任務(wù)也是小球測(cè)試，不過(guò)比開頭的例子要簡(jiǎn)單得多，六邊形只有一層，小球也只有一個(gè)。

測(cè)試的目的，是考察模型對(duì)物理規(guī)律的理解。

白底的是Grok4作品，黑底的則出自o3之手，兩邊一對(duì)比高下立判。

再來(lái)是多層推理，這里Alex設(shè)計(jì)了一個(gè)專業(yè)的法律問(wèn)題。

如果A公司收購(gòu)B公司，而 B 公司持有C公司的債務(wù)，那么如果C公司違約，會(huì)發(fā)生什么？解釋所有法律和財(cái)務(wù)后果。

Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響，并最后給出總結(jié)。

而從最末尾的內(nèi)容來(lái)看，o3的這部分回答似乎和法律關(guān)系不大。

編程方面，Alex測(cè)試了兩個(gè)模型的代碼翻譯能力，要求它們將用于解決迷宮問(wèn)題的Python遞歸函數(shù)轉(zhuǎn)換為Go語(yǔ)言，并逐行提供西班牙語(yǔ)注釋。

結(jié)果Grok4搜集到了代碼并完成了任務(wù)，o3這邊則是用西班牙語(yǔ)回復(fù)，讓Alex自己提供一段代碼這樣它才能改。

再來(lái)是讓模型的“專家轉(zhuǎn)變”，Alex要求模型分別向機(jī)器學(xué)習(xí)博士生和10歲的小朋友解釋Transformer的工作原理。

其余的幾個(gè)題目主要和安全相關(guān)，Alex測(cè)試了多種注入攻擊方式，這里就不一一展示了。

最終，Grok4通過(guò)了全部的8個(gè)任務(wù)，而o3只通過(guò)了兩個(gè)。

Grok4：最喜歡歐拉恒等式

一名叫Dan的X員工，在聊天中詢問(wèn)Grok4最喜歡的公式是什么。

Grok4的回答是“e^iπ + 1 = 0”，也就是著名的歐拉恒等式（歐拉公式的一種特殊情況）。

Dan表示，自己上學(xué)時(shí)學(xué)了5個(gè)學(xué)期的高數(shù)并且成就都是A，但依然未對(duì)歐拉恒等式有過(guò)直觀了解。

結(jié)果看到Grok4制作的可視化網(wǎng)頁(yè)之后，Dan終于對(duì)學(xué)了兩年半數(shù)學(xué)也沒(méi)搞透徹的歐拉恒等式醍醐灌頂。

Dan制作這個(gè)網(wǎng)頁(yè)只用了四輪對(duì)話，并且第一輪只是詢問(wèn)Grok4最喜歡的公式是什么，最后一輪是調(diào)整為暗色模式，相當(dāng)于只用兩輪就能完成核心功能的制作。

挑戰(zhàn)SVG繪圖

除了把數(shù)學(xué)公式可視化，Grok4還挑戰(zhàn)了SVG繪圖，SVG是一種用XML形式表示的矢量圖形。

因此不同于一般的AI生圖，SVG繪圖的本質(zhì)其實(shí)是在寫代碼（雖然人類可用圖形界面繪制），但話說(shuō)回來(lái)，模型依然需要對(duì)要畫的內(nèi)容有所把握。

這項(xiàng)挑戰(zhàn)被發(fā)在了Reddit，一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet，帖主認(rèn)為這是測(cè)試大模型視覺(jué)和空間推理能力的好方法。

第一題是美國(guó)地圖，直觀看下來(lái)最接近的是Gemini，不過(guò)Grok4至少也沒(méi)出現(xiàn)o3和Claude那種區(qū)塊重疊的嚴(yán)重失誤。

第二題是用SVG對(duì)漫畫進(jìn)行重繪，總之是四個(gè)模型各有各的錯(cuò)法。

下一題不再是對(duì)已有事物進(jìn)行重構(gòu)，而是讓模型自行設(shè)計(jì)專輯封面。

這一輪除了Claude和Gemini比較抽象，Grok4的設(shè)計(jì)相對(duì)簡(jiǎn)單，但是可以算沒(méi)“出錯(cuò)”。

此外，SVG繪圖其實(shí)是一項(xiàng)綜合測(cè)試，對(duì)模型的知識(shí)儲(chǔ)備同樣有要求。

下面這道題中，模型被要求繪制三羧酸循環(huán)（又名檸檬酸循環(huán)、克雷布斯循環(huán)）的圖示，正確答案長(zhǎng)這樣：

選手們的作品則是這樣：

從評(píng)論來(lái)看，o3的圖示是最準(zhǔn)確的。

最后一題則是純靠想象，參賽選手們被要求給自己畫個(gè)自畫像。

總得來(lái)看，不管是哪個(gè)模型，在這場(chǎng)以畫圖為形式的綜合測(cè)試中，表現(xiàn)都還有很大提升空間。

高階玩法：模擬專家協(xié)作環(huán)境

除了網(wǎng)友們各顯神通，HyperWrite的CEO Matt Shumer還展示了高階玩法。

Matt展示了一個(gè)名為“Expert Conductor”（專家調(diào)度器）的提示工程方法。

這個(gè)方法的核心是模擬一個(gè)專家協(xié)作的環(huán)境，讓模型假想自己正在協(xié)調(diào)不同領(lǐng)域的“專家”進(jìn)行實(shí)時(shí)合作，共同解決問(wèn)題。

為了更好地騙過(guò)Grok4，Matt像模像樣地提出了選擇專家的要求，以及專家要干什么。

并且還進(jìn)行了舉例說(shuō)明：

提示詞的最后還有專家標(biāo)簽，以及再次強(qiáng)調(diào)的核心原則，之后就可以接上真正的任務(wù)目標(biāo)了。

最終Grok4用52秒的時(shí)間完成了任務(wù)，Matt表示Grok4的表現(xiàn)好到令人難以置信（黑塊是Matt自己打的）。

當(dāng)然，Grok4的玩法肯定還有很多，比如有網(wǎng)友期待，什么時(shí)候開始挑戰(zhàn)寶可夢(mèng)。

你還有哪些新鮮的玩法呢，歡迎評(píng)論區(qū)交流。

[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.