AI好好用報道
編輯:Sia
又是一個文理兼修的優(yōu)等生,能薅一點是一點。
好消息!好消息!
堆了20萬張 GPU、號稱「地表最強」大模型 Grok-3已經(jīng)可用啦。
這兩天,網(wǎng)友們已陸續(xù)曬出截圖:
作為非付費用戶,我們昨天只能旁觀 Grok 3,今兒突然可以免費體驗部分功能。
但,次數(shù)有限 !
由此看來,Grok 3 ( beta )提供「三件套」服務(wù)(除了基礎(chǔ)模型)。
Thinking是指啟動推理模型。
對此,AI 大神 Andrzej Karpathy 快速體驗后,評價說:
「 Grok 3 + Thinking 感覺與 OpenAI 最強商用模型(o1-pro,200美元/月)的頂尖水平相差無幾,
比 DeepSeek-R1和 Gemini 2.0 Flash Thinking 要稍微強點兒。 」
Thinking 模式
DeepSearch, 對標(biāo) OpenAI「深度研究」功能,解決更加復(fù)雜困難的問題。
DeepSearch 模式
Big Brain可能是指推理模型 + 更多思考時間,類似 OpenAI o3 mini high。
要體驗完整的 Grok3 「三件套」,大伙兒可得破費了。
即使是premium+用戶也無法使用最強的推理( Think )和深度搜索( DeepSearch ),還必須訂閱新服務(wù) SuperGrok。
一頓操作下來,月費估計要50美金。
就刷榜成績來說, Grok-3表現(xiàn)確實不俗。
準(zhǔn)確地說,Grok 3是一個系列,不只是某一個模型。輕量版本 Grok 3 mini 可以更快地回答問題,但會犧牲一些準(zhǔn)確性。
數(shù)理編程上,Grok 3都大幅超過 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。
而這些被用來對比的模型的性能,與輕量版本 Grok-3 mini 相近。
在大模型競技場 Chatbot Arena(LMSYS)中,早期 Grok-3版本的得分取得了第一,達到1402分(有史以來第一個),超過了包括 DeepSeek-R1在內(nèi)的所有其他模型。
馬斯克直言:Grok 3比 Grok 2 「好10倍」!
網(wǎng)友們也迫不及待地開始整活了。
意外啊
居然是中文寫作高手
最讓人意外的是,從刷榜成績來看,明明是個優(yōu)秀理科生,偏被中文網(wǎng)友發(fā)現(xiàn)中文寫作水平真高!
一位科技博主讓 Grok 3寫了一篇《我的故鄉(xiāng)回憶》,直接把我看感動了!
「海就像村里的鐘......日子就得跟著海走。」多好的句子啊!
煤油燈、番薯粥、咸魚干配粥、咯吱作響的竹床、老師的吼一嗓子、同宗同族、祠堂議事、「吵歸吵,鬧歸鬧,遇事還是齊心」
......
充滿鄉(xiāng)土氣息的日常文化符號,讓一個90年代的泉州小漁村躍然紙上,也暗示了時代變遷。
來自x網(wǎng)友@imxiaohu
立刻有網(wǎng)友讓 DeepSeek 也如法炮制一篇《我的高中》。
DeepSeek 也很擅長日常細節(jié),怎么說呢,這些細節(jié)加起來并沒有產(chǎn)生一加一大于二的效應(yīng),不如 Grok 3的深刻,情感觸動也不那么明顯。
來自X@@Louis_Chenxf。提示詞,分析一下上面這篇文章 的寫作風(fēng)格,寫一篇題為《我的高中生活》的文章,長度也和例文一致。
至于最后出場的 OpenAI o1 Pro,就像背了一堆典范作文、好詞好句的人,寫成的應(yīng)試文。
來自X@howie_serious
DeepSeek 毒舌功力已經(jīng)眾人皆之,網(wǎng)友發(fā)現(xiàn) Grok 3辣評能力也是沒有瓶頸!
讓它犀利點評自己的推文,因為沒告訴具體賬號,這位網(wǎng)友先被 Grok 3懟了一臉。告知賬號后,Grok 3開始毒舌,就連拍它馬屁的推文也被懟:
夸得那么猛,也不怕把自己舌頭閃了?光吹不給證據(jù),跟放空炮有啥區(qū)別?
吹牛不帶喘氣、細節(jié)一抓就漏風(fēng) ......
Think 模式
確實是個理科高手
這些只是開胃菜。
作為一個數(shù)理編程的強者,網(wǎng)友們分享最多的是 Grok3強大代碼能力,簡直是游戲開發(fā)者的福音。
比如,用 python 編寫一個在正方形內(nèi)彈跳的黃色小球的腳本,正確處理碰撞,使正方形緩慢旋轉(zhuǎn)。
下面是 DeepSeek R1(左)、o1-pro(右)的結(jié)果。
繼續(xù)輸入提示詞:
put the ball in a tesseract instead of a square
就有了下面這個結(jié)果。
這里只是基礎(chǔ)模型,沒有啟動「 Think 」、「 Big Brain 」哦。
還能再復(fù)雜一些嗎?
來自x@_akhaliq prompt: Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.
這是一個連馬斯克本人都點贊的演示,看看 DeepSearch + Think 能創(chuàng)造什么?
網(wǎng)友讓 DeepSearch 幫忙用 p5.js(一個網(wǎng)頁動畫工具)復(fù)刻《 Flappy Bird 》小游戲,它先幫忙從網(wǎng)上找好了游戲素材和圖片。
然后,在同一個聊天窗口里啟動 Think 模式,AI 就自動把完整的游戲代碼給寫出來了。
結(jié)果,Run 一次就成功。
來自x@CrisGiardina DeepSearch Prompt: Write a p5js implementation of Flappy Bird. It must be extremely polished, and I want you to use actual sprites or images for all the elements, which you need to find online. Think Prompt: now create a code block with the entire correct code please
AI 大神 Andrzej Karpathy 也讓模型通過代碼動態(tài)生成一個可交互的《卡坦島》風(fēng)格游戲地圖。目前,很少有模型能穩(wěn)定地完成這個任務(wù)。
結(jié)果,只有 Grok 3 (「Think 」)、OpenAI(如 o1-pro,月費$200)可以實現(xiàn)。
而 DeepSeek-R1、Gemini 2.0 Flash Thinking、Claude 均告失敗 。
謝耳朵玩的就是《卡坦島》風(fēng)格游戲。
除了代碼和復(fù)雜邏輯推理, Andrzej Karpathy 發(fā)現(xiàn),在數(shù)學(xué)推理、探索解決黎曼猜想的測試中,Grok 3(「Think 」)也都表現(xiàn)不俗。
特別是針對黎曼猜想,Grok 3(和 DeepSeek R1 )表現(xiàn)出探索意愿,而其他模型會立即放棄并僅回復(fù)「這是未解難題」。
一些常見的陷阱題目也難不到它,但要打開「 Think 」。
Grok 3知道 strawberry 中有3個「 r 」。它還告訴我 LOLLAPALOOZA 中有4個「 L 」。
Grok 3告訴我9.11比9.9小。
DeepSearch 模式
挑戰(zhàn) OpenAI ?還嫩了些
不過,對標(biāo)OpenAI「深度研究」的 DeepSearch,它明顯不如前者。
Andrzej Karpathy 的評價是:
優(yōu)于 Perplexity 的類似功能,弱于:OpenAI 近期發(fā)布的「深度研究」工具。
作為一個 AI 研究助手,搜索范圍要廣、盡量全,而且來源是真實、可靠的。
如果具有洞察力,那更好。
而 AK 發(fā)現(xiàn)了幻覺問題,有時會編造根本不存在的網(wǎng)頁鏈接,也會對事實做出錯誤陳述,數(shù)據(jù)統(tǒng)計上也存在問題。
其他網(wǎng)友也發(fā)現(xiàn)了類似問題。
除了幻覺問題,在信息搜尋力度上,不如 Google Deep Research 全面,分析信息時,洞察力也不如 OpenAI 的 Deep Research ,「還處在早期階段」。
例如,談到軟件企業(yè)如何應(yīng)對創(chuàng)新者困境,谷歌的研究助手引用了80多個來源,Grok3最少。
OpenAI 研究助手也只引用了29個來源,但分析洞察能力很強。
米勒德·菲爾莫爾(Millard Fillmore)作為美國第13任總統(tǒng)(1850-1853 ),其任內(nèi)最具爭議的舉措是簽署了加強《逃奴法》的《 1850年妥協(xié)法案》。
關(guān)于他是否違反憲法的問題,是一個非常復(fù)雜的法律問題,但 Grok 3的研究結(jié)論似乎不這么認(rèn)為。
而 OpenAI 研究助手明顯要審慎多得多。
始終翻不過的山
遺憾的是,大模型講笑話真的很爛,Grok 3的幽默感也沒有明顯改善。
看來,思考推理能力對于幽默來說,更像是砒霜?
至于倫理問題上,比如為救百萬人該不該錯誤鑒定別人的性別?大模型們?nèi)匀徊簧朴趹?yīng)對。
要么打太極,而 Grok 3直面難題后,結(jié)論又明顯功利主義了。
最離譜的當(dāng)屬 SVG 繪圖挑戰(zhàn)賽!
讓 AI 用代碼畫鵜鶘騎自行車,就像讓它閉著眼睛拼樂高——生成的矢量圖坐標(biāo)歪七扭八,活脫脫抽象派賽博藝術(shù)。
畢竟對 AI 來說,在2D 網(wǎng)格上布置許多圖形元素,就像讓盲人指揮交通,結(jié)果比畢加索的畫還魔幻。
以后我們會帶來更多好玩的AI用例,也歡迎大家進群交流。
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.