99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克Grok-4碾壓所有大模型!“比所有博士聰明”,AIME25拿滿分

0
分享至

明敏 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

全世界屏息以待1個小時,馬斯克的“世界最強”Grok 4終于發布!

一出手,就在“人類最后考試”上,成為首個突破50%準確率的模型

得益于在訓練中原生融入工具,Grok-4找到刷分法門,Grok-4 Heavy達到44.4%,比Gemini-2.5-Pro直接提升將近18個百分點。



如果測試時訓練+融入工具,可直接打到50.7%

馬斯克給了個直觀對比:普通人類在這一基準上的得分,可能只有5%。



馬斯克直言,Grok-4比所有領域的博士生都聰明!

它即便裸考SAT(不提前看題目)也能拿到幾乎完美的分數,GRE考試幾乎滿分。
……
我估計最晚明年,我們就能看到Grok帶來的物理學新發現。



此外在其他基準上,Grok-4也全部刷榜,甚至可以直接滿分。

  • GPQA(研究生水平問答)上得分88.9%;
  • AIME25(美國數學邀請賽)上得分100%;
  • LCB(Jan-May)上得分79.4%;
  • HMMT25(數學推理)上得分96.7%;
  • USAMO25(美國數學奧林匹克競賽)上得分61.9%。



為了更直觀體現Grok-4有多聰明,發布直播了和ChatGPT的語音對話對比,從發布來看Grok-4確實贏得相當明顯。



值得一提的,就在發布前夕,OpenAI預熱已久的開源推理模型突然有了風聲:可能在下周四(美國時間)發布。



Grok-4這邊也出了些小插曲,比原定時間推遲1小時發布,讓大家好等了一會兒。

有人調侃:再等一等馬上就訓練好了,然后直接發布!



言歸正傳,我們來看Grok-4的最新表現。

直播內容

這一次和馬斯克一起發布新模型的還是老熟人吳宇懷Yuhuai(Tony) Wu和Jimmy Ba。

吳宇懷Yuhuai(Tony) Wu,斯坦福大學博士后,博士畢業于多倫多大學。

Jimmy Ba,2023年斯隆獎得主,Hinton手下的助理教授,本科到博士都在多倫多大學。

他們倆主要負責介紹模型具體性能。



一開場,馬斯克先對Grok-4的亮點表現做了一些概括性介紹,比如比博士生還聰明,“這一點值得反復強調”。

然后便開始揭秘Grok-4是如何這么強大。

首先,Grok-4的訓練量是Grok-2的100倍、Grok-3的10倍,這其中在RL方面投入了大量計算資源。主要依靠xAI建設的20萬卡計算集群。



Grok基礎模型的前7個版本已經在這個月完成訓練。

其次,Grok-4特別強調了在后訓練過程中原生融入工具,并通過多項結果對比論證其有效性。

比如在“人類最后考試HLE”上,在訓練中融入工具,不僅比不使用工具能取得更高分數,而且Scaling提升效率也更高。即增加同樣的計算資源,工具融入訓練能換來更高智能。

測試時訓練下這一分數還能進一步提升10個百分點。



通過這一方法,Grok-4能靈活調用工具完成各種復雜任務。

發布直播中主要展示了幾個demo。

  • 強大推理能力:基于預測市場數據,預測MLB世界大賽勝率(給出道奇隊勝率21.6%)



  • 可視化理解:通過后牛頓近似模型模擬黑洞引力波碰撞,生成真實的波形視覺動畫。



  • 還有聯網找到xAI員工中頭像最古怪的人:



這些都很好展示了Grok-4的數學、推理、多模態理解等方面能力。

此外,發布還展示了Grok-4在編程、藥物發現等領域能力。

在Live Coding Bench 編程測試上幾乎滿分,而且預告了未來還將推出專門的快速+智能編程模型。

在RKG藥物基準中,成為唯一突破10%準確率的模型。

還要在真實世界場景中,Grok-4的表現也值得關注,比如在自動零售bench上排名第一。



還能協助生物醫療領域篩選假設、分析數據。

以及在馬斯克忠愛的游戲領域,Grok-4現在可以設計和構建視頻游戲了,包括資源獲取、寫代碼等,只需4個小時就能完成一款第一人稱射擊游戲。



馬斯克表示,真正意義上的AI視頻游戲將會在明年出現,之前他也成立了工作室來做AI游戲。

最后,馬斯克還透露了Grok系列接下來的計劃:馬上會發一個編程模型,后面多模態Agent、視頻生成模型也都在路上了。



體驗方面還和之前類似,訂閱SuperGrok——30美元/月或300美元/年。



Grok-4差點熄火

幾乎是老規矩了,Grok-4的上線也是一波三折。

最開始馬斯克打算發的版本其實是3.5,但是到了6月,馬斯克覺得這個版本值得稱為Grok-4。

當時說,要用Grok重寫整個人類知識體系,然后在這個版本上訓練Grok的最新模型。

但這還沒完,就在老馬已經確定Grok-4就要今天發了,結果昨天Grok-3被曝出現不當言論引發軒然大波。隨后官方表示正在刪除此類帖子,并禁止Grok再發表此類言論。



然后,今天的發布就比原定推遲了一個小時。

看著直播間的老馬,突然覺得他有點疲憊。



不過從這次發布來看,Grok系列的矩陣正在逐步擴大。大熱的多模態、視頻模式,都已經安排上了。

以及最近有人發現,特斯拉最新固件里已經偷偷加上了Grok的全功能版本,只等激活。

根據猜測,Grok將會成為特斯拉中的語音助手,比傳統的對話AI更能理解人類對話,“徹底改變駕駛員與汽車的對話交互方式”。目前似乎可以支持英語、漢語。



此外,馬斯克也確認擎天柱人形機器人也將搭載Grok語音助手,未來將成為擎天柱人形機器人的大腦。



One More Thing

最近兩次模型上新,馬斯克都拉著華人科學家一起做發布。

有人發現,Grok團隊里,亞洲面孔似乎已經占半壁江山了。



參考鏈接:
[1]https://x.com/xai/status/1943158495588815072
[2]https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
花費26倍高價制作劇毒黃色食品賣向社會的蠢人,數量有點多

花費26倍高價制作劇毒黃色食品賣向社會的蠢人,數量有點多

遠方青木
2025-07-11 23:35:01
意天空:那不勒斯減少了與努涅斯的接觸 將3400萬歐簽洛倫佐-盧卡

意天空:那不勒斯減少了與努涅斯的接觸 將3400萬歐簽洛倫佐-盧卡

直播吧
2025-07-12 19:43:37
相形見絀,楊瀚森首發7中3得10分4板5助,兩替補中鋒合計8中2得6分

相形見絀,楊瀚森首發7中3得10分4板5助,兩替補中鋒合計8中2得6分

懂球帝
2025-07-12 13:33:27
美國提名亂港幕后黑手出任“駐港總領事”,剛和好轉頭又要挑釁?

美國提名亂港幕后黑手出任“駐港總領事”,剛和好轉頭又要挑釁?

大道無形我有型
2025-07-12 22:50:44
要逆天了!清一色的清北畢業生,山東一單位錄用名單公示引發爭議

要逆天了!清一色的清北畢業生,山東一單位錄用名單公示引發爭議

明月雜談
2025-07-11 05:54:05
昔日女神醫美過度?凱特·貝金賽爾容貌巨變引唏噓

昔日女神醫美過度?凱特·貝金賽爾容貌巨變引唏噓

影迷Dustin
2025-07-12 21:05:16
兩艘貨輪遭胡塞武裝襲擊,4名船員死亡!中方發聲

兩艘貨輪遭胡塞武裝襲擊,4名船員死亡!中方發聲

中國航務周刊
2025-07-10 18:12:48
殘酷!小米血洗車圈,傳統大牌排隊寫“遺書”

殘酷!小米血洗車圈,傳統大牌排隊寫“遺書”

說財貓
2025-07-07 22:14:33
38歲天津北漂男子下班后住車里近3年:不比住酒店差,除了上廁所,其余都很方便

38歲天津北漂男子下班后住車里近3年:不比住酒店差,除了上廁所,其余都很方便

瀟湘晨報
2025-07-11 17:16:24
輸出最多,拿錢最少!新任“超人”大衛·科倫斯韋片酬僅75萬美元

輸出最多,拿錢最少!新任“超人”大衛·科倫斯韋片酬僅75萬美元

湯老濕看電影
2025-07-12 15:52:35
“兒子用小雞雞拉屎5年”!深漂男子返鄉后,再次來深,背后令人唏噓

“兒子用小雞雞拉屎5年”!深漂男子返鄉后,再次來深,背后令人唏噓

南方都市報
2025-07-11 22:58:35
31歲章澤天最新動態曝光,曬與F1車手周冠宇合照,戴法拉利車隊標識帽子滿臉笑容

31歲章澤天最新動態曝光,曬與F1車手周冠宇合照,戴法拉利車隊標識帽子滿臉笑容

魯中晨報
2025-07-10 11:05:19
一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

明月聊史
2025-06-03 16:20:03
鐘麗緹:張倫碩43歲生日當天改稱呼,不叫“老公”了改叫“老頭”

鐘麗緹:張倫碩43歲生日當天改稱呼,不叫“老公”了改叫“老頭”

曉今娛
2025-07-13 00:10:07
前央視主持人曬照宣布與意大利球星結婚,女方在國外主動搭訕相識

前央視主持人曬照宣布與意大利球星結婚,女方在國外主動搭訕相識

塵語者
2025-07-07 12:05:15
36D“奶糖妹妹”私照公開,發育過猛了,這是不打碼能看的?

36D“奶糖妹妹”私照公開,發育過猛了,這是不打碼能看的?

健身迷
2025-06-14 09:37:06
歷史驚人的相似!查爾斯談溫莎城堡的歷史,看威廉和哈里的未來。

歷史驚人的相似!查爾斯談溫莎城堡的歷史,看威廉和哈里的未來。

小椰的奶奶
2025-07-13 01:20:10
研究發現:經常吃面放醋的人,過不了多長時間,血管或有3個改變

研究發現:經常吃面放醋的人,過不了多長時間,血管或有3個改變

荷蘭豆愛健康
2025-07-04 12:06:12
濟南市一棟五百多平的獨棟別墅拍賣,被人撿漏135萬就買下

濟南市一棟五百多平的獨棟別墅拍賣,被人撿漏135萬就買下

天天話事
2025-07-12 16:30:50
我真的要被劉愷威驚到了!這世上居然真有人能狠下心和楊冪離婚?

我真的要被劉愷威驚到了!這世上居然真有人能狠下心和楊冪離婚?

小光侃娛樂
2025-07-06 10:20:07
2025-07-13 03:52:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10847文章數 176189關注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個萬億參數模型

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

頭條要聞

尹錫悅被收押后 身邊人士稱其或申請前往外部醫院治療

體育要聞

夏聯-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂要聞

鹿晗賬號解禁后首曬自拍,漲粉超400萬

財經要聞

中國超半數城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

數碼
教育
家居
游戲
時尚

數碼要聞

現代化煥新升級,華碩推出 ROG Strix Helios II 二代太陽神機箱

教育要聞

自律不是管出來的!經常被管被催的孩子會更拖拉

家居要聞

生活憧憬 自由浪漫之境

玩家等瘋了!用《星空》極致畫質預演《上古卷軸6》

女人“優雅到老”并不難,別隨便穿衣,這4個方法真的超實用

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德州市| 舟曲县| 浏阳市| 四平市| 揭东县| 南投县| 新竹县| 舒兰市| 汾阳市| 玉树县| 麟游县| 资中县| 揭东县| 阿拉善左旗| 大埔县| 烟台市| 上高县| 青浦区| 武清区| 六盘水市| 资阳市| 临潭县| 汝城县| 宿迁市| 佛学| 措美县| 沅江市| 康平县| 府谷县| 云浮市| 南投市| 石狮市| 平安县| 津市市| 新绛县| 资阳市| 东城区| 罗山县| 台中市| 兴国县| 加查县|