明敏 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
全世界屏息以待1個小時,馬斯克的“世界最強”Grok 4終于發布!
一出手,就在“人類最后考試”上,成為首個突破50%準確率的模型。
得益于在訓練中原生融入工具,Grok-4找到刷分法門,Grok-4 Heavy達到44.4%,比Gemini-2.5-Pro直接提升將近18個百分點。
如果測試時訓練+融入工具,可直接打到50.7%。
馬斯克給了個直觀對比:普通人類在這一基準上的得分,可能只有5%。
馬斯克直言,Grok-4比所有領域的博士生都聰明!
它即便裸考SAT(不提前看題目)也能拿到幾乎完美的分數,GRE考試幾乎滿分。
……
我估計最晚明年,我們就能看到Grok帶來的物理學新發現。
此外在其他基準上,Grok-4也全部刷榜,甚至可以直接滿分。
- GPQA(研究生水平問答)上得分88.9%;
- AIME25(美國數學邀請賽)上得分100%;
- LCB(Jan-May)上得分79.4%;
- HMMT25(數學推理)上得分96.7%;
- USAMO25(美國數學奧林匹克競賽)上得分61.9%。
為了更直觀體現Grok-4有多聰明,發布直播了和ChatGPT的語音對話對比,從發布來看Grok-4確實贏得相當明顯。
值得一提的,就在發布前夕,OpenAI預熱已久的開源推理模型突然有了風聲:可能在下周四(美國時間)發布。
Grok-4這邊也出了些小插曲,比原定時間推遲1小時發布,讓大家好等了一會兒。
有人調侃:再等一等馬上就訓練好了,然后直接發布!
言歸正傳,我們來看Grok-4的最新表現。
直播內容
這一次和馬斯克一起發布新模型的還是老熟人吳宇懷Yuhuai(Tony) Wu和Jimmy Ba。
吳宇懷Yuhuai(Tony) Wu,斯坦福大學博士后,博士畢業于多倫多大學。
Jimmy Ba,2023年斯隆獎得主,Hinton手下的助理教授,本科到博士都在多倫多大學。
他們倆主要負責介紹模型具體性能。
一開場,馬斯克先對Grok-4的亮點表現做了一些概括性介紹,比如比博士生還聰明,“這一點值得反復強調”。
然后便開始揭秘Grok-4是如何這么強大。
首先,Grok-4的訓練量是Grok-2的100倍、Grok-3的10倍,這其中在RL方面投入了大量計算資源。主要依靠xAI建設的20萬卡計算集群。
Grok基礎模型的前7個版本已經在這個月完成訓練。
其次,Grok-4特別強調了在后訓練過程中原生融入工具,并通過多項結果對比論證其有效性。
比如在“人類最后考試HLE”上,在訓練中融入工具,不僅比不使用工具能取得更高分數,而且Scaling提升效率也更高。即增加同樣的計算資源,工具融入訓練能換來更高智能。
測試時訓練下這一分數還能進一步提升10個百分點。
通過這一方法,Grok-4能靈活調用工具完成各種復雜任務。
發布直播中主要展示了幾個demo。
- 強大推理能力:基于預測市場數據,預測MLB世界大賽勝率(給出道奇隊勝率21.6%)
- 可視化理解:通過后牛頓近似模型模擬黑洞引力波碰撞,生成真實的波形視覺動畫。
- 還有聯網找到xAI員工中頭像最古怪的人:
這些都很好展示了Grok-4的數學、推理、多模態理解等方面能力。
此外,發布還展示了Grok-4在編程、藥物發現等領域能力。
在Live Coding Bench 編程測試上幾乎滿分,而且預告了未來還將推出專門的快速+智能編程模型。
在RKG藥物基準中,成為唯一突破10%準確率的模型。
還要在真實世界場景中,Grok-4的表現也值得關注,比如在自動零售bench上排名第一。
還能協助生物醫療領域篩選假設、分析數據。
以及在馬斯克忠愛的游戲領域,Grok-4現在可以設計和構建視頻游戲了,包括資源獲取、寫代碼等,只需4個小時就能完成一款第一人稱射擊游戲。
馬斯克表示,真正意義上的AI視頻游戲將會在明年出現,之前他也成立了工作室來做AI游戲。
最后,馬斯克還透露了Grok系列接下來的計劃:馬上會發一個編程模型,后面多模態Agent、視頻生成模型也都在路上了。
體驗方面還和之前類似,訂閱SuperGrok——30美元/月或300美元/年。
Grok-4差點熄火
幾乎是老規矩了,Grok-4的上線也是一波三折。
最開始馬斯克打算發的版本其實是3.5,但是到了6月,馬斯克覺得這個版本值得稱為Grok-4。
當時說,要用Grok重寫整個人類知識體系,然后在這個版本上訓練Grok的最新模型。
但這還沒完,就在老馬已經確定Grok-4就要今天發了,結果昨天Grok-3被曝出現不當言論引發軒然大波。隨后官方表示正在刪除此類帖子,并禁止Grok再發表此類言論。
然后,今天的發布就比原定推遲了一個小時。
看著直播間的老馬,突然覺得他有點疲憊。
不過從這次發布來看,Grok系列的矩陣正在逐步擴大。大熱的多模態、視頻模式,都已經安排上了。
以及最近有人發現,特斯拉最新固件里已經偷偷加上了Grok的全功能版本,只等激活。
根據猜測,Grok將會成為特斯拉中的語音助手,比傳統的對話AI更能理解人類對話,“徹底改變駕駛員與汽車的對話交互方式”。目前似乎可以支持英語、漢語。
此外,馬斯克也確認擎天柱人形機器人也將搭載Grok語音助手,未來將成為擎天柱人形機器人的大腦。
One More Thing
最近兩次模型上新,馬斯克都拉著華人科學家一起做發布。
有人發現,Grok團隊里,亞洲面孔似乎已經占半壁江山了。
參考鏈接:
[1]https://x.com/xai/status/1943158495588815072
[2]https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.