01
大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自夕小瑤科技說
就在剛剛,馬斯克發(fā)布了 xAI 最新的模型:Grok-3 和 Grok-3 推理版!
現(xiàn)在 X 官網(wǎng)上開會員已經(jīng)可以直接體驗,網(wǎng)頁和應(yīng)用的所有功能會在一周內(nèi)完善、API 會在幾周內(nèi)推出。
什么模型才讓馬斯克敢說是“地球上最聰明的 AI?
簡單粗暴給大家匯總一下目前的信息:
Grok 3 表現(xiàn)超越 DeepSeek R1、GPT-o1、Gemini 2 Pro、GPT-4o、Claude 3.5
大模型盲測榜單 LYSYS Arena 有史以來首先打破 1400 分,在所有類別中排名#1
帶推理 Reasoning
帶 DeepSearch 深度搜索
首先,Grok3 比 Grok2 多了十倍的計算量,而且是和 o1 一樣的 Reasoning 模型。
評測結(jié)果
Grok-3 早期化名'chocolate'在 LMSYS 上開啟盲測,排名第一,得分 1402,并且在所有類別中排名第一。
這次發(fā)布,馬斯克還一起祭出了兩個推理模型:Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 。
看官方放出來的評測圖,我震驚了。在 AIME'24,GPQA,LCB Oct-Feb 以及前幾天最新發(fā)布的 AIME'25 基本都是碾壓級的?!
包括最強選手和最熱推理選手 o3 mini high 、Deepseek r1、 gemini2-flash-thinking 以及 o1。
Big Brain 選項
同時,Grok-3 還支持開啟 Big Brain 選項,這會讓 Grok3 花費更多的計算和推理時間來思考從而解決難題:
直播中還專門提到,Grok-3 在創(chuàng)意編程方面能力也很強。
比如,讓他開啟 Big Brain 選項后,生成一個結(jié)合《俄羅斯方塊》和《寶石迷陣》的游戲,代碼執(zhí)行起來 是能正常運行的。
DeepSearch 功能
Grok-3 同時也發(fā)布了 DeepSearch 功能。可以看到和 OpenAI 的 deep research 類似,它具備以下能力:
深入思考用戶意圖。
考慮應(yīng)該選擇哪些事實。
應(yīng)該瀏覽多少個網(wǎng)站。
交叉驗證不同的來源。
DeepSearch 還展示了其進行搜索本身所采取的步驟。
馬斯克對此評價為:"Next generation of search agents to understand the universe"(新一代可以理解宇宙的搜索引擎)
Andrej Karpathy:Grok3 處于和 o1 Pro 相當(dāng)?shù)乃?/strong>
對于模型的實際能力,Andrej Karpathy 剛剛也發(fā)推表示:
“就今天上午大約兩個小時的快速測試來看,Grok 3 開啟 Reasoning 思考能力感覺處于 OpenAI 最強模型(o1-pro,每月 200 美元)的最先進領(lǐng)域附近,并且略優(yōu)于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。”
網(wǎng)友測評 case
收集了一些手速快的網(wǎng)友們的 case,看看表現(xiàn)咋樣。
制作一個 P5.JS 素描,一堆 Groks 在一個旋轉(zhuǎn)的脈動球體中彈跳。
還有一個推理的 case 測試——
超長預(yù)警!
Grok3 的使用方式
X.com 上的 Permium+ 會員可以直接使用 Gork3,網(wǎng)頁版稍后就可以使用。
同時,SuperGrok 專屬 APP 也將發(fā)布,擁有以下特權(quán):
保證訪問 Grok 3 的權(quán)限
解鎖 DeepSearch 和 Think 功能
搶先體驗新功能
更高的圖像生成限制
在 Q&A 環(huán)節(jié),他們表示將在幾個月后對 Grok-2 進行開源,因為只有發(fā)布新一代模型之后,才會開源上一代的模型。
最后,Grok-3 還放出了一個語音模式彩蛋,我們是否可以期待馬斯克版的賈維斯面世呢(狗頭)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.