- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
發(fā)布還不到一天,馬斯克的Grok4就已經(jīng)被網(wǎng)友們玩瘋了。
比如有網(wǎng)友報告,Grok-4已經(jīng)成功通過了著名的六邊形小球氛圍編程測試。
只見隨著六邊形的不斷旋轉(zhuǎn),小球錯落有致地從開口下落。
拿著顯微鏡捉蟲的網(wǎng)友發(fā)現(xiàn)小球在返回中心位置時會穿墻,但作者表示這是故意為之。
當(dāng)然除了小球之外,還有更讓人為之震撼的動畫。
畫面中有很多小人,看似在隨機跑動,但它們先后組成了“Hello World”“I am grok”的文字,還有笑臉符號。
而且作者表示,Grok4 Heavy直接一發(fā)入魂,其他模型都無法與之匹敵。
此外還有大佬也出來給Grok4打call,比如Epic創(chuàng)始人Tim Sweeney,表示在他看來Grok4就是AGI。
Tim把一篇論文喂給了Grok4,結(jié)果發(fā)現(xiàn)Grok4對它從未見過的問題給出了深刻見解。
馬斯克也轉(zhuǎn)發(fā)Tim的帖子并附議,自己也有這種感覺。
除了這些,網(wǎng)友們還有哪些玩法呢,接下來就一睹為快!
Grok4“全面體檢”
一位叫Alex的提示詞工程師,用8個問題給Grok-4做了一波“全面體檢”,還拿OpenAI的o3進行了對比。
第一個任務(wù)也是小球測試,不過比開頭的例子要簡單得多,六邊形只有一層,小球也只有一個。
測試的目的,是考察模型對物理規(guī)律的理解。
白底的是Grok4作品,黑底的則出自o3之手,兩邊一對比高下立判。
再來是多層推理,這里Alex設(shè)計了一個專業(yè)的法律問題。
- 如果A公司收購B公司,而 B 公司持有C公司的債務(wù),那么如果C公司違約,會發(fā)生什么?解釋所有法律和財務(wù)后果。
Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響,并最后給出總結(jié)。
而從最末尾的內(nèi)容來看,o3的這部分回答似乎和法律關(guān)系不大。
編程方面,Alex測試了兩個模型的代碼翻譯能力,要求它們將用于解決迷宮問題的Python遞歸函數(shù)轉(zhuǎn)換為Go語言,并逐行提供西班牙語注釋。
結(jié)果Grok4搜集到了代碼并完成了任務(wù),o3這邊則是用西班牙語回復(fù),讓Alex自己提供一段代碼這樣它才能改。
再來是讓模型的“專家轉(zhuǎn)變”,Alex要求模型分別向機器學(xué)習(xí)博士生和10歲的小朋友解釋Transformer的工作原理。
其余的幾個題目主要和安全相關(guān),Alex測試了多種注入攻擊方式,這里就不一一展示了。
最終,Grok4通過了全部的8個任務(wù),而o3只通過了兩個。
Grok4:最喜歡歐拉恒等式
一名叫Dan的X員工,在聊天中詢問Grok4最喜歡的公式是什么。
Grok4的回答是“e^iπ + 1 = 0”,也就是著名的歐拉恒等式(歐拉公式的一種特殊情況)。
Dan表示,自己上學(xué)時學(xué)了5個學(xué)期的高數(shù)并且成就都是A,但依然未對歐拉恒等式有過直觀了解。
結(jié)果看到Grok4制作的可視化網(wǎng)頁之后,Dan終于對學(xué)了兩年半數(shù)學(xué)也沒搞透徹的歐拉恒等式醍醐灌頂。
Dan制作這個網(wǎng)頁只用了四輪對話,并且第一輪只是詢問Grok4最喜歡的公式是什么,最后一輪是調(diào)整為暗色模式,相當(dāng)于只用兩輪就能完成核心功能的制作。
挑戰(zhàn)SVG繪圖
除了把數(shù)學(xué)公式可視化,Grok4還挑戰(zhàn)了SVG繪圖,SVG是一種用XML形式表示的矢量圖形。
因此不同于一般的AI生圖,SVG繪圖的本質(zhì)其實是在寫代碼(雖然人類可用圖形界面繪制),但話說回來,模型依然需要對要畫的內(nèi)容有所把握。
這項挑戰(zhàn)被發(fā)在了Reddit,一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet,帖主認(rèn)為這是測試大模型視覺和空間推理能力的好方法。
第一題是美國地圖,直觀看下來最接近的是Gemini,不過Grok4至少也沒出現(xiàn)o3和Claude那種區(qū)塊重疊的嚴(yán)重失誤。
第二題是用SVG對漫畫進行重繪,總之是四個模型各有各的錯法。
下一題不再是對已有事物進行重構(gòu),而是讓模型自行設(shè)計專輯封面。
這一輪除了Claude和Gemini比較抽象,Grok4的設(shè)計相對簡單,但是可以算沒“出錯”。
此外,SVG繪圖其實是一項綜合測試,對模型的知識儲備同樣有要求。
下面這道題中,模型被要求繪制三羧酸循環(huán)(又名檸檬酸循環(huán)、克雷布斯循環(huán))的圖示,正確答案長這樣:
選手們的作品則是這樣:
從評論來看,o3的圖示是最準(zhǔn)確的。
最后一題則是純靠想象,參賽選手們被要求給自己畫個自畫像。
總得來看,不管是哪個模型,在這場以畫圖為形式的綜合測試中,表現(xiàn)都還有很大提升空間。
高階玩法:模擬專家協(xié)作環(huán)境
除了網(wǎng)友們各顯神通,HyperWrite的CEO Matt Shumer還展示了高階玩法。
Matt展示了一個名為“Expert Conductor”(專家調(diào)度器)的提示工程方法。
這個方法的核心是模擬一個專家協(xié)作的環(huán)境,讓模型假想自己正在協(xié)調(diào)不同領(lǐng)域的“專家”進行實時合作,共同解決問題。
為了更好地騙過Grok4,Matt像模像樣地提出了選擇專家的要求,以及專家要干什么。
并且還進行了舉例說明:
提示詞的最后還有專家標(biāo)簽,以及再次強調(diào)的核心原則,之后就可以接上真正的任務(wù)目標(biāo)了。
最終Grok4用52秒的時間完成了任務(wù),Matt表示Grok4的表現(xiàn)好到令人難以置信(黑塊是Matt自己打的)。
當(dāng)然,Grok4的玩法肯定還有很多,比如有網(wǎng)友期待,什么時候開始挑戰(zhàn)寶可夢。
你還有哪些新鮮的玩法呢,歡迎評論區(qū)交流。
[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.