- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
發(fā)布還不到一天,馬斯克的Grok4就已經(jīng)被網(wǎng)友們玩瘋了。
比如有網(wǎng)友報(bào)告,Grok-4已經(jīng)成功通過(guò)了著名的六邊形小球氛圍編程測(cè)試。
只見隨著六邊形的不斷旋轉(zhuǎn),小球錯(cuò)落有致地從開口下落。
拿著顯微鏡捉蟲的網(wǎng)友發(fā)現(xiàn)小球在返回中心位置時(shí)會(huì)穿墻,但作者表示這是故意為之。
當(dāng)然除了小球之外,還有更讓人為之震撼的動(dòng)畫。
畫面中有很多小人,看似在隨機(jī)跑動(dòng),但它們先后組成了“Hello World”“I am grok”的文字,還有笑臉?lè)?hào)。
而且作者表示,Grok4 Heavy直接一發(fā)入魂,其他模型都無(wú)法與之匹敵。
此外還有大佬也出來(lái)給Grok4打call,比如Epic創(chuàng)始人Tim Sweeney,表示在他看來(lái)Grok4就是AGI。
Tim把一篇論文喂給了Grok4,結(jié)果發(fā)現(xiàn)Grok4對(duì)它從未見過(guò)的問(wèn)題給出了深刻見解。
馬斯克也轉(zhuǎn)發(fā)Tim的帖子并附議,自己也有這種感覺(jué)。
除了這些,網(wǎng)友們還有哪些玩法呢,接下來(lái)就一睹為快!
Grok4“全面體檢”
一位叫Alex的提示詞工程師,用8個(gè)問(wèn)題給Grok-4做了一波“全面體檢”,還拿OpenAI的o3進(jìn)行了對(duì)比。
第一個(gè)任務(wù)也是小球測(cè)試,不過(guò)比開頭的例子要簡(jiǎn)單得多,六邊形只有一層,小球也只有一個(gè)。
測(cè)試的目的,是考察模型對(duì)物理規(guī)律的理解。
白底的是Grok4作品,黑底的則出自o3之手,兩邊一對(duì)比高下立判。
再來(lái)是多層推理,這里Alex設(shè)計(jì)了一個(gè)專業(yè)的法律問(wèn)題。
- 如果A公司收購(gòu)B公司,而 B 公司持有C公司的債務(wù),那么如果C公司違約,會(huì)發(fā)生什么?解釋所有法律和財(cái)務(wù)后果。
Grok4用表格的形式整理了ABC三方和其他方面可能受到的影響,并最后給出總結(jié)。
而從最末尾的內(nèi)容來(lái)看,o3的這部分回答似乎和法律關(guān)系不大。
編程方面,Alex測(cè)試了兩個(gè)模型的代碼翻譯能力,要求它們將用于解決迷宮問(wèn)題的Python遞歸函數(shù)轉(zhuǎn)換為Go語(yǔ)言,并逐行提供西班牙語(yǔ)注釋。
結(jié)果Grok4搜集到了代碼并完成了任務(wù),o3這邊則是用西班牙語(yǔ)回復(fù),讓Alex自己提供一段代碼這樣它才能改。
再來(lái)是讓模型的“專家轉(zhuǎn)變”,Alex要求模型分別向機(jī)器學(xué)習(xí)博士生和10歲的小朋友解釋Transformer的工作原理。
其余的幾個(gè)題目主要和安全相關(guān),Alex測(cè)試了多種注入攻擊方式,這里就不一一展示了。
最終,Grok4通過(guò)了全部的8個(gè)任務(wù),而o3只通過(guò)了兩個(gè)。
Grok4:最喜歡歐拉恒等式
一名叫Dan的X員工,在聊天中詢問(wèn)Grok4最喜歡的公式是什么。
Grok4的回答是“e^iπ + 1 = 0”,也就是著名的歐拉恒等式(歐拉公式的一種特殊情況)。
Dan表示,自己上學(xué)時(shí)學(xué)了5個(gè)學(xué)期的高數(shù)并且成就都是A,但依然未對(duì)歐拉恒等式有過(guò)直觀了解。
結(jié)果看到Grok4制作的可視化網(wǎng)頁(yè)之后,Dan終于對(duì)學(xué)了兩年半數(shù)學(xué)也沒(méi)搞透徹的歐拉恒等式醍醐灌頂。
Dan制作這個(gè)網(wǎng)頁(yè)只用了四輪對(duì)話,并且第一輪只是詢問(wèn)Grok4最喜歡的公式是什么,最后一輪是調(diào)整為暗色模式,相當(dāng)于只用兩輪就能完成核心功能的制作。
挑戰(zhàn)SVG繪圖
除了把數(shù)學(xué)公式可視化,Grok4還挑戰(zhàn)了SVG繪圖,SVG是一種用XML形式表示的矢量圖形。
因此不同于一般的AI生圖,SVG繪圖的本質(zhì)其實(shí)是在寫代碼(雖然人類可用圖形界面繪制),但話說(shuō)回來(lái),模型依然需要對(duì)要畫的內(nèi)容有所把握。
這項(xiàng)挑戰(zhàn)被發(fā)在了Reddit,一同參與的還有o3、Gemini 2.5 Pro和Claude 4 Sonnet,帖主認(rèn)為這是測(cè)試大模型視覺(jué)和空間推理能力的好方法。
第一題是美國(guó)地圖,直觀看下來(lái)最接近的是Gemini,不過(guò)Grok4至少也沒(méi)出現(xiàn)o3和Claude那種區(qū)塊重疊的嚴(yán)重失誤。
第二題是用SVG對(duì)漫畫進(jìn)行重繪,總之是四個(gè)模型各有各的錯(cuò)法。
下一題不再是對(duì)已有事物進(jìn)行重構(gòu),而是讓模型自行設(shè)計(jì)專輯封面。
這一輪除了Claude和Gemini比較抽象,Grok4的設(shè)計(jì)相對(duì)簡(jiǎn)單,但是可以算沒(méi)“出錯(cuò)”。
此外,SVG繪圖其實(shí)是一項(xiàng)綜合測(cè)試,對(duì)模型的知識(shí)儲(chǔ)備同樣有要求。
下面這道題中,模型被要求繪制三羧酸循環(huán)(又名檸檬酸循環(huán)、克雷布斯循環(huán))的圖示,正確答案長(zhǎng)這樣:
選手們的作品則是這樣:
從評(píng)論來(lái)看,o3的圖示是最準(zhǔn)確的。
最后一題則是純靠想象,參賽選手們被要求給自己畫個(gè)自畫像。
總得來(lái)看,不管是哪個(gè)模型,在這場(chǎng)以畫圖為形式的綜合測(cè)試中,表現(xiàn)都還有很大提升空間。
高階玩法:模擬專家協(xié)作環(huán)境
除了網(wǎng)友們各顯神通,HyperWrite的CEO Matt Shumer還展示了高階玩法。
Matt展示了一個(gè)名為“Expert Conductor”(專家調(diào)度器)的提示工程方法。
這個(gè)方法的核心是模擬一個(gè)專家協(xié)作的環(huán)境,讓模型假想自己正在協(xié)調(diào)不同領(lǐng)域的“專家”進(jìn)行實(shí)時(shí)合作,共同解決問(wèn)題。
為了更好地騙過(guò)Grok4,Matt像模像樣地提出了選擇專家的要求,以及專家要干什么。
并且還進(jìn)行了舉例說(shuō)明:
提示詞的最后還有專家標(biāo)簽,以及再次強(qiáng)調(diào)的核心原則,之后就可以接上真正的任務(wù)目標(biāo)了。
最終Grok4用52秒的時(shí)間完成了任務(wù),Matt表示Grok4的表現(xiàn)好到令人難以置信(黑塊是Matt自己打的)。
當(dāng)然,Grok4的玩法肯定還有很多,比如有網(wǎng)友期待,什么時(shí)候開始挑戰(zhàn)寶可夢(mèng)。
你還有哪些新鮮的玩法呢,歡迎評(píng)論區(qū)交流。
[1]https://x.com/flavioAd/status/1943192967453511699
[2]https://x.com/mckaywrigley/status/1943385794414334032
[3]https://x.com/elonmusk/status/1943411225553240206
[4]https://x.com/alex_prompter/status/1943231978779877514
[5]https://x.com/KettlebellDan/status/1943342507468951668
[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/
[7]https://x.com/mattshumer_/status/1943433960798740777
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.