99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克Grok-4碾壓所有大模型!“比所有博士聰明”,AIME25拿滿分

0
分享至

明敏 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

全世界屏息以待1個小時,馬斯克的“世界最強”Grok 4終于發布!

一出手,就在“人類最后考試”上,成為首個突破50%準確率的模型

得益于在訓練中原生融入工具,Grok-4找到刷分法門,Grok-4 Heavy達到44.4%,比Gemini-2.5-Pro直接提升將近18個百分點。



如果測試時訓練+融入工具,可直接打到50.7%。

馬斯克給了個直觀對比:普通人類在這一基準上的得分,可能只有5%。



馬斯克直言,Grok-4比所有領域的博士生都聰明!

它即便裸考SAT(不提前看題目)也能拿到幾乎完美的分數,GRE考試幾乎滿分。
……
我估計最晚明年,我們就能看到Grok帶來的物理學新發現。



此外在其他基準上,Grok-4也全部刷榜,甚至可以直接滿分。

  • GPQA(研究生水平問答)上得分88.9%;
  • AIME25(美國數學邀請賽)上得分100%;
  • LCB(Jan-May)上得分79.4%;
  • HMMT25(數學推理)上得分96.7%;
  • USAMO25(美國數學奧林匹克競賽)上得分61.9%。



為了更直觀體現Grok-4有多聰明,發布直播了和ChatGPT的語音對話對比,從發布來看Grok-4確實贏得相當明顯。



值得一提的,就在發布前夕,OpenAI預熱已久的開源推理模型突然有了風聲:可能在下周四(美國時間)發布。



Grok-4這邊也出了些小插曲,比原定時間推遲1小時發布,讓大家好等了一會兒。

有人調侃:再等一等馬上就訓練好了,然后直接發布!



言歸正傳,我們來看Grok-4的最新表現。

直播內容

這一次和馬斯克一起發布新模型的還是老熟人吳宇懷Yuhuai(Tony) Wu和Jimmy Ba。

吳宇懷Yuhuai(Tony) Wu,斯坦福大學博士后,博士畢業于多倫多大學。

Jimmy Ba,2023年斯隆獎得主,Hinton手下的助理教授,本科到博士都在多倫多大學。

他們倆主要負責介紹模型具體性能。



一開場,馬斯克先對Grok-4的亮點表現做了一些概括性介紹,比如比博士生還聰明,“這一點值得反復強調”。

然后便開始揭秘Grok-4是如何這么強大。

首先,Grok-4的訓練量是Grok-2的100倍、Grok-3的10倍,這其中在RL方面投入了大量計算資源。主要依靠xAI建設的20萬卡計算集群。



Grok基礎模型的前7個版本已經在這個月完成訓練。

其次,Grok-4特別強調了在后訓練過程中原生融入工具,并通過多項結果對比論證其有效性。

比如在“人類最后考試HLE”上,在訓練中融入工具,不僅比不使用工具能取得更高分數,而且Scaling提升效率也更高。即增加同樣的計算資源,工具融入訓練能換來更高智能。

測試時訓練下這一分數還能進一步提升10個百分點。



通過這一方法,Grok-4能靈活調用工具完成各種復雜任務。

發布直播中主要展示了幾個demo。

  • 強大推理能力:基于預測市場數據,預測MLB世界大賽勝率(給出道奇隊勝率21.6%)



  • 可視化理解:通過后牛頓近似模型模擬黑洞引力波碰撞,生成真實的波形視覺動畫。



  • 還有聯網找到xAI員工中頭像最古怪的人:



這些都很好展示了Grok-4的數學、推理、多模態理解等方面能力。

此外,發布還展示了Grok-4在編程、藥物發現等領域能力。

在Live Coding Bench 編程測試上幾乎滿分,而且預告了未來還將推出專門的快速+智能編程模型。

在RKG藥物基準中,成為唯一突破10%準確率的模型。

還要在真實世界場景中,Grok-4的表現也值得關注,比如在自動零售bench上排名第一。



還能協助生物醫療領域篩選假設、分析數據。

以及在馬斯克忠愛的游戲領域,Grok-4現在可以設計和構建視頻游戲了,包括資源獲取、寫代碼等,只需4個小時就能完成一款第一人稱射擊游戲。



馬斯克表示,真正意義上的AI視頻游戲將會在明年出現,之前他也成立了工作室來做AI游戲。

最后,馬斯克還透露了Grok系列接下來的計劃:馬上會發一個編程模型,后面多模態Agent、視頻生成模型也都在路上了。



體驗方面還和之前類似,訂閱SuperGrok——30美元/月或300美元/年。



Grok-4差點熄火

幾乎是老規矩了,Grok-4的上線也是一波三折。

最開始馬斯克打算發的版本其實是3.5,但是到了6月,馬斯克覺得這個版本值得稱為Grok-4。

當時說,要用Grok重寫整個人類知識體系,然后在這個版本上訓練Grok的最新模型。

但這還沒完,就在老馬已經確定Grok-4就要今天發了,結果昨天Grok-3被曝出現不當言論引發軒然大波。隨后官方表示正在刪除此類帖子,并禁止Grok再發表此類言論。



然后,今天的發布就比原定推遲了一個小時。

看著直播間的老馬,突然覺得他有點疲憊。



不過從這次發布來看,Grok系列的矩陣正在逐步擴大。大熱的多模態、視頻模式,都已經安排上了。

以及最近有人發現,特斯拉最新固件里已經偷偷加上了Grok的全功能版本,只等激活。

根據猜測,Grok將會成為特斯拉中的語音助手,比傳統的對話AI更能理解人類對話,“徹底改變駕駛員與汽車的對話交互方式”。目前似乎可以支持英語、漢語。



此外,馬斯克也確認擎天柱人形機器人也將搭載Grok語音助手,未來將成為擎天柱人形機器人的大腦。



One More Thing

最近兩次模型上新,馬斯克都拉著華人科學家一起做發布。

有人發現,Grok團隊里,亞洲面孔似乎已經占半壁江山了。



參考鏈接:
[1]https://x.com/xai/status/1943158495588815072
[2]https://www.notateslaapp.com/news/2874/tesla-to-integrate-xais-grok-into-optimus-helping-bring-the-robot-to-life

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新娘婚禮撩裙露大長腿火上熱搜,白腿配紅高跟動圖流出都在擔心新郎身體哈哈

新娘婚禮撩裙露大長腿火上熱搜,白腿配紅高跟動圖流出都在擔心新郎身體哈哈

經典段子
2025-07-10 23:22:40
WTT大滿貫賽周五看點:張本智和再遇勁敵,早田希娜對決張本美和

WTT大滿貫賽周五看點:張本智和再遇勁敵,早田希娜對決張本美和

乒談
2025-07-10 23:54:02
7月11日WTT大滿貫爆冷!王曼昱1-3惜敗朱雨玲勝負關鍵藏在細節里

7月11日WTT大滿貫爆冷!王曼昱1-3惜敗朱雨玲勝負關鍵藏在細節里

小小小白看世界
2025-07-11 06:33:28
剛剛發布通知!2025年基礎養老金上調2%!三類人悄悄多漲

剛剛發布通知!2025年基礎養老金上調2%!三類人悄悄多漲

史行途
2025-07-10 17:54:12
為了圈錢臉都不要了!剛復出就開演唱會,票價賣1280,哪來的自信

為了圈錢臉都不要了!剛復出就開演唱會,票價賣1280,哪來的自信

洲洲影視娛評
2025-07-02 18:21:10
拔出蘿卜帶出泥!楊少華去世僅1天,讓人惡心的事就發生了

拔出蘿卜帶出泥!楊少華去世僅1天,讓人惡心的事就發生了

聚合大娛
2025-07-10 17:02:14
38歲的阿紅姐隕落,健身教練都無法自拔,來都來了那就來吧

38歲的阿紅姐隕落,健身教練都無法自拔,來都來了那就來吧

每日一見
2025-07-08 15:05:05
6年前,施一公砸200億建起西湖大學,放話5年贏過清華,如今咋樣

6年前,施一公砸200億建起西湖大學,放話5年贏過清華,如今咋樣

戶外小阿隋
2025-07-02 01:30:31
7999元比亞迪電瓶車用120W電機,續航500km,被認定電動摩托車?

7999元比亞迪電瓶車用120W電機,續航500km,被認定電動摩托車?

寵物圈子坊
2025-07-10 10:58:07
普京認為數月內可擊敗烏克蘭,拒不妥協停火

桂系007
2025-07-10 16:32:16

1958年,張治中對主席說:有個人借我3000元未還,他官很大

1958年,張治中對主席說:有個人借我3000元未還,他官很大

諾言卿史錄
2025-07-07 13:48:24
我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

紅豆講堂
2025-06-30 17:20:10
當年混黑社會的人坐牢出來后都怎么樣了?網友:親身體會!

當年混黑社會的人坐牢出來后都怎么樣了?網友:親身體會!

茶喝多了睡不著
2025-07-09 18:20:09
《以法之名》被批“爛尾”,導演回應:開篇入戲慢,演員選擇有失誤等全在反省中

《以法之名》被批“爛尾”,導演回應:開篇入戲慢,演員選擇有失誤等全在反省中

大象新聞
2025-07-10 15:13:00
7月11日精選熱點:硅片開啟漲價潮,這些超跌龍頭要暴漲了

7月11日精選熱點:硅片開啟漲價潮,這些超跌龍頭要暴漲了

元芳說投資
2025-07-10 21:14:21
克拉拉真空西服長裙,散發一種精致的韓系財閥美人特有的味道

克拉拉真空西服長裙,散發一種精致的韓系財閥美人特有的味道

吃瓜黨二號頭目
2025-06-17 10:04:22
作家周婉京發文疑似輕生:警方回應“情況良好”,近日陷入抄襲爭議

作家周婉京發文疑似輕生:警方回應“情況良好”,近日陷入抄襲爭議

封面新聞
2025-07-10 17:18:32
陳熠:莎姐畢竟是世界第一,還是以一個拼她的姿態去打的

陳熠:莎姐畢竟是世界第一,還是以一個拼她的姿態去打的

懂球帝
2025-07-11 07:39:11
梁興初被隔離審查8年,出來后上面給出2條路,梁擺擺手:一個不要

梁興初被隔離審查8年,出來后上面給出2條路,梁擺擺手:一個不要

南書房
2025-07-10 15:35:04
油價大跌超0.56元/升,創今年新低油價“連漲3次”后,或重新大降

油價大跌超0.56元/升,創今年新低油價“連漲3次”后,或重新大降

油價早知道
2025-07-09 09:06:30
2025-07-11 08:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10835文章數 176184關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

“阿爾茨海默病手術”被叫停 已在上百家醫院開展

頭條要聞

“阿爾茨海默病手術”被叫停 已在上百家醫院開展

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

宋佳,真的好叛逆!

財經要聞

"它經濟"崛起 國產品牌快速追趕國際巨頭

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

房產
藝術
親子
手機
軍事航空

房產要聞

重磅!招商+平安出手,拿下海南440畝灣區大盤!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

這三點要注意別影響孩子專注力

手機要聞

榮耀Magic8 Pro曝光,400系列激活量新突破

軍事要聞

內塔尼亞胡贈特朗普美軍B-2轟炸機造型“特別禮物”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临高县| 河北省| 通城县| 开江县| 吉林省| 宜兰县| 茌平县| 松滋市| 万载县| 西畴县| 定结县| 卓尼县| 张北县| 崇文区| 汽车| 平陆县| 永吉县| 墨玉县| 灵石县| 台北县| 永川市| 林州市| 政和县| 徐汇区| 靖州| 龙胜| 昭平县| 万载县| 轮台县| 丹巴县| 亳州市| 伊通| 普兰县| 横峰县| 大城县| 拉孜县| 鄂托克前旗| 桐梓县| 安庆市| 玛沁县| 高州市|