網易首頁 > 網易號 > 正文申請入駐

Grok4來襲！把人類的難題庫都做完了。實測1分鐘搞掂今年高考壓軸題……

2025-07-10 14:10:04　來源: 問問馬斯克AskMusk

上海舉報

分享至

7月11日13點，馬斯克旗下xAI發布了最新版的大模型工具Grok4。

以下為發布會要點：

發布會開始前的xAI團隊合影，感覺70%都是亞洲面孔。

比原定時間推遲了將近一小時后，馬斯克姍姍來遲，感覺老馬這些天，發際線又高了。

在強調了接下來發布的Grok4將是人類“最聰明”的AI工具后，老馬又跑題談了一段卡爾達舍夫等級（注：卡爾達舍夫文明等級Kardashev Scale是由蘇聯天文學家尼古拉·卡爾達舍夫于1964年提出的一種衡量文明技術水平的理論模型。該模型基于一個文明對能源的利用程度來劃分其發展水平）

緊接著，轉入正題，團隊登場，開始介紹：

他們說，他們把人類的難題題庫做完了，已經幾戶找不到有意思的同時水平合適的問題來訓練 Grok 4。現在，Grok 4 是博士后解題水平，在每一個學科上。

Grok 4 在各項學科競賽上的表現。AIME25 數學競賽滿分，難度更大的USAMO上也能取得61%。

這里提供一個例子，感受一下[1]：

2025 AIME 1 問題 15

令 N 表示滿足以下條件的正整數有序三元組 (a, b, c) 的數量：a, b, c <= 3^6，且 a^3 + b^3 + c^3 是 3^7 的倍數。求 N 除以 1000 的余數。

Grok 4 不但有單體版（super grok) 還有組隊版 (super grok heavy) ，組隊版可以使用多個grok 4，然后組成學習小組，互相監督和衡量每個 grok 的解決方案，最后出結果。

組隊版SGH (super grok heavy) 的聰明程度和能力明顯更高，比如，它的HLE 的得分超過 50%。HLE humanity last exams 是人類智力的終極的測試，包括各個學科。人類和以前的模型，都只能解決個位數百分比（single digit percent）問題。組隊版SGH (super grok heavy)Grok 成績 50%+。現在其他模型的最高分是 20-25%

Grok 4 是基于他們內部核心模型6（有點像發動機的原型機版本），他們現在在內部訓練核心模型7，估計還要幾周時間。

今年年底，grok 可以開始使用工業級工具，像有限元分析軟件，像 CFD（流體模擬）軟件，物理模型等重量級工具。

grok 4 和其他模型比較，在vending bench (貨柜機器模擬）中遙遙領先。

grok 4 生成第一視角游戲（FPS），只需要兩個小時。

接下來的路線圖。3-4周后，開始使用10萬塊 GB200 訓練視頻生成模型……明年 grok 出電影。

最后，來一個彩蛋。

我們請Grok解答今年高考數學全國一卷最后一題[2]：

用了15秒，輕松搞掂。

然后是19 題第（2）小題，壓軸證明題：

用了40S，時間稍微長點，搞定：

[1]:https://artofproblemsolving.com/wiki/index.php/2025_AIME_I_Problems?srsltid=AfmBOopdf3VS0Zeq-tUkWsLZrHHZJspBhcKcBPz8kSlFlOrJwdb4qcSR

[2]:https://gaokao.eol.cn/e_html/gk/gkst/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.