7月11日13點(diǎn),馬斯克旗下xAI發(fā)布了最新版的大模型工具Grok4。
以下為發(fā)布會要點(diǎn):
發(fā)布會開始前的xAI團(tuán)隊(duì)合影,感覺70%都是亞洲面孔。
比原定時(shí)間推遲了將近一小時(shí)后,馬斯克姍姍來遲,感覺老馬這些天,發(fā)際線又高了。
在強(qiáng)調(diào)了接下來發(fā)布的Grok4將是人類“最聰明”的AI工具后,老馬又跑題談了一段卡爾達(dá)舍夫等級(注: 卡爾達(dá)舍夫文明等級Kardashev Scale是由蘇聯(lián)天文學(xué)家尼古拉·卡爾達(dá)舍夫于1964年提出的一種衡量文明技術(shù)水平的理論模型。該模型基于一個(gè)文明對能源的利用程度來劃分其發(fā)展水平 )
緊接著,轉(zhuǎn)入正題,團(tuán)隊(duì)登場,開始介紹:
他們說,他們把人類的難題題庫做完了,已經(jīng)幾戶找不到有意思的同時(shí)水平合適的問題來訓(xùn)練 Grok 4?,F(xiàn)在,Grok 4 是博士后解題水平,在每一個(gè)學(xué)科上。
Grok 4 在各項(xiàng)學(xué)科競賽上的表現(xiàn)。AIME25 數(shù)學(xué)競賽 滿分,難度更大的USAMO上也能取得61%。
這里提供一個(gè)例子,感受一下[1]:
2025 AIME 1 問題 15
令 N 表示滿足以下條件的正整數(shù)有序三元組 (a, b, c) 的數(shù)量:a, b, c <= 3^6,且 a^3 + b^3 + c^3 是 3^7 的倍數(shù)。求 N 除以 1000 的余數(shù)。
Grok 4 不但有單體版(super grok) 還有組隊(duì)版 (super grok heavy) ,組隊(duì)版可以使用多個(gè)grok 4, 然后組成學(xué)習(xí)小組,互相監(jiān)督和衡量每個(gè) grok 的 解決方案,最后出結(jié)果。
組隊(duì)版SGH (super grok heavy) 的聰明程度和能力明顯更高,比如,它的HLE 的得分超過 50%。HLE humanity last exams 是人類智力的終極的測試,包括各個(gè)學(xué)科。人類和以前的模型,都只能解決個(gè)位數(shù)百分比(single digit percent)問題。組隊(duì)版SGH (super grok heavy)Grok 成績 50%+。現(xiàn)在其他模型的最高分是 20-25%
Grok 4 是基于他們內(nèi)部核心模型6(有點(diǎn)像發(fā)動機(jī)的原型機(jī)版本),他們現(xiàn)在在內(nèi)部訓(xùn)練核心模型7,估計(jì)還要幾周時(shí)間。
今年年底,grok 可以開始使用工業(yè)級工具,像有限元分析軟件,像 CFD(流體模擬)軟件,物理模型等重量級工具。
grok 4 和其他模型比較,在vending bench (貨柜機(jī)器模擬)中遙遙領(lǐng)先。
grok 4 生成第一視角游戲(FPS),只需要兩個(gè)小時(shí)。
接下來的路線圖。3-4周后,開始使用10萬塊 GB200 訓(xùn)練視頻生成模型……明年 grok 出電影。
最后,來一個(gè)彩蛋。
我們請Grok解答今年高考數(shù)學(xué)全國一卷最后一題[2]:
用了15秒,輕松搞掂。
然后是19 題第(2)小題,壓軸證明題:
用了40S,時(shí)間稍微長點(diǎn),搞定:
[1]:https://artofproblemsolving.com/wiki/index.php/2025_AIME_I_Problems?srsltid=AfmBOopdf3VS0Zeq-tUkWsLZrHHZJspBhcKcBPz8kSlFlOrJwdb4qcSR
[2]:https://gaokao.eol.cn/e_html/gk/gkst/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.