7月11日13點,馬斯克旗下xAI發布了最新版的大模型工具Grok4。
以下為發布會要點:
發布會開始前的xAI團隊合影,感覺70%都是亞洲面孔。
比原定時間推遲了將近一小時后,馬斯克姍姍來遲,感覺老馬這些天,發際線又高了。
在強調了接下來發布的Grok4將是人類“最聰明”的AI工具后,老馬又跑題談了一段卡爾達舍夫等級(注: 卡爾達舍夫文明等級Kardashev Scale是由蘇聯天文學家尼古拉·卡爾達舍夫于1964年提出的一種衡量文明技術水平的理論模型。該模型基于一個文明對能源的利用程度來劃分其發展水平 )
緊接著,轉入正題,團隊登場,開始介紹:
他們說,他們把人類的難題題庫做完了,已經幾戶找不到有意思的同時水平合適的問題來訓練 Grok 4。現在,Grok 4 是博士后解題水平,在每一個學科上。
Grok 4 在各項學科競賽上的表現。AIME25 數學競賽 滿分,難度更大的USAMO上也能取得61%。
這里提供一個例子,感受一下[1]:
2025 AIME 1 問題 15
令 N 表示滿足以下條件的正整數有序三元組 (a, b, c) 的數量:a, b, c <= 3^6,且 a^3 + b^3 + c^3 是 3^7 的倍數。求 N 除以 1000 的余數。
Grok 4 不但有單體版(super grok) 還有組隊版 (super grok heavy) ,組隊版可以使用多個grok 4, 然后組成學習小組,互相監督和衡量每個 grok 的 解決方案,最后出結果。
組隊版SGH (super grok heavy) 的聰明程度和能力明顯更高,比如,它的HLE 的得分超過 50%。HLE humanity last exams 是人類智力的終極的測試,包括各個學科。人類和以前的模型,都只能解決個位數百分比(single digit percent)問題。組隊版SGH (super grok heavy)Grok 成績 50%+。現在其他模型的最高分是 20-25%
Grok 4 是基于他們內部核心模型6(有點像發動機的原型機版本),他們現在在內部訓練核心模型7,估計還要幾周時間。
今年年底,grok 可以開始使用工業級工具,像有限元分析軟件,像 CFD(流體模擬)軟件,物理模型等重量級工具。
grok 4 和其他模型比較,在vending bench (貨柜機器模擬)中遙遙領先。
grok 4 生成第一視角游戲(FPS),只需要兩個小時。
接下來的路線圖。3-4周后,開始使用10萬塊 GB200 訓練視頻生成模型……明年 grok 出電影。
最后,來一個彩蛋。
我們請Grok解答今年高考數學全國一卷最后一題[2]:
用了15秒,輕松搞掂。
然后是19 題第(2)小題,壓軸證明題:
用了40S,時間稍微長點,搞定:
[1]:https://artofproblemsolving.com/wiki/index.php/2025_AIME_I_Problems?srsltid=AfmBOopdf3VS0Zeq-tUkWsLZrHHZJspBhcKcBPz8kSlFlOrJwdb4qcSR
[2]:https://gaokao.eol.cn/e_html/gk/gkst/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.