99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,馬斯克發(fā)布Grok 4!全榜第一,年費飚到2萬+

0
分享至

機器之心報道

機器之心編輯部

所有學科都是博士后水平。

醞釀良久的 xAI 下一代大模型——Grok 4 終于發(fā)布了!能力超乎我們想象。

北京時間今天中午 12 點左右,我們期待已久的 xAI 發(fā)布會終于開始,馬斯克現(xiàn)身直播間,他上來就說:「這是世界上最好的 AI,讓我們來展示一下。」



馬斯克表示,Grok 4 每次都能在 SAT 考試(美國高考)中獲得滿分,無需事先查看題目,它也可以做到 GRE 任何學科接近滿分,超過了全世界所有研究生的水平。Grok 4 最強大的地方是其推理能力,它已經(jīng)實現(xiàn)了超越人類的推理水平。

馬斯克相信,Grok 4 可以在今年內(nèi)實現(xiàn)科學新發(fā)現(xiàn)。



得益于計算能力的增強、強化學習的訓練,Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4,采用的技術(shù)范式不同,分別為下一個 token 預測、預訓練計算、預訓練 + RL、RL 計算。

其中,Grok 2 到 Grok 3 預訓練階段的計算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微調(diào),帶來了深度推理能力。Grok 4 reasoning 的強化學習再度提升了 10 倍的計算量,這意味著顯著的推理能力提升。



另外因為調(diào)用工具能力的提升,Grok 4 進一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實現(xiàn)遠超 SOTA 的成績。

接下來是重頭戲:Grok 4 的基準測試結(jié)果。

首先是HLE(Humanities Last Exam,人類最后的考試),包括數(shù)學、化學和邏輯學。在上周六泄露的基準測試結(jié)果中,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術(shù)后提高到 45%,但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。

在今天的直播中,xAI 研究人員表示,以往的 SOTA 模型在使用工具(with tool)的情況下,成績最高可以達到 41.0%。



如今,Grok 4 進一步提升了這一基準測試成績。



具體來講,與其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情況下,Grok 4 的成績?yōu)?38.6%,Grok 4 Heavy 的成績飆升到了 44.4%。如果讓大模型在測試時花費更多時間思考,并恰當?shù)氖褂酶嗤獠抗ぞ撸瑒t HLE 的分數(shù)還能進一步提升到 50.7%。



關(guān)于其他更多基準測試結(jié)果,包括 GPQA(研究生級別的 Google 驗證問答基準測試)、AIME25(美國數(shù)學競賽邀請賽)、LCB(Jan-May)(編程競賽 / 在線算法競賽)、HMMT25(高中生團隊數(shù)學競賽)和 USAMO25(美國頂級高中生數(shù)學競賽)。從下圖可以看到,Grok 4 Heavy 均取得了最新 SOTA

相比之下,人類面對 HLE 測試也幾乎答不上幾個題。馬斯克多遍強調(diào):Grok 現(xiàn)在在所有學科都達到了博士后水平,沒有例外。它沒有發(fā)現(xiàn)新科學或是新的物理定律,但這只是一個時間問題。

「如果 Grok 在今年內(nèi)沒有發(fā)現(xiàn)實用的新科學技術(shù),我會感覺很意外,」馬斯克表示。



大模型性能評估平臺 Artificial Analysis 的全套基準測試成績表明,Grok 4 已經(jīng)成為當前領(lǐng)先的 AI 模型,總成績達到了 73 分,領(lǐng)先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。





想象一下我們現(xiàn)在處在的位置,我們正處于智能發(fā)展的大爆炸過程中,這是人類歷史上前所未見的。是時候看看 Grok 4 具體能做些什么了。

我們來看一兩個 demo,比如「基于物理原理的 HTML 動畫,模擬兩個黑洞碰撞并產(chǎn)生引力波的 30 秒可視化效果」:



Grok 4 幾乎完整地呈現(xiàn)了從兩個黑洞接近到最后合并結(jié)束的引力波模擬效果。動圖的一邊是推理過程和計算的步驟和代碼,查閱的論文每一篇都有鏈接。

Grok 4 的多面手屬性更強了

除了各大語言基準成績的提升,Grok 4 在其他方面同樣得到了加強。

其中,Grok 4 的語音能力相較于上代速度快了 2 倍,端到端延遲更低;支持 5 種語音;單日用戶總停留時長提升了 10 倍。



新增的 Grok 角色 Eve 和 Sal 現(xiàn)已可在 iOS 版 Grok 中使用,Sal 支持多種性格,Eve 可以唱歌和低語。



ARC-AGI 基準測試集中,它專門設(shè)計用于評估人工智能系統(tǒng)通用推理能力,被視為通向 AGI 的重要試金石,旨在檢驗模型是否能像人類一樣靈活解決從未見過的新問題。

在這個直指 AGI 核心能力的超難基準上,Grok 4 同樣取得了最新 SOTA,其中在 ARC-AGI-2 上達到 15.9%,幾乎將之前的商業(yè) SOTA 翻了一番,并超越了當前的 Kaggle 競賽 SOTA。





在 Vending-Bench 基準測試中,它專注于評估智能體在真實物理世界中執(zhí)行復雜操作任務(wù)的能力,其核心目標是解決傳統(tǒng)模擬環(huán)境(如 Habitat、AI2-THOR)與真實世界間的「Sim2Real Gap」(仿真到現(xiàn)實的鴻溝),推動機器人技術(shù)在開放場景中的實際應用能力。

可以看到,Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領(lǐng)先。



Grok 4 可通過 API 調(diào)用,提供 256K tokens 的上下文窗口。目前已經(jīng)開放使用,版本號為 grok-4-0709,價格與 Grok 3 相同。





根據(jù) Artificial Analysis 的測試,xAI 的 API 當前以每秒 75 個 token 的速度提供 Grok 4 服務(wù),速度雖不及 o3(每秒 188 個 token),但優(yōu)于 Claude 4 Opus Thinking(每秒 66 個 token)。



最后是游戲體驗,DannyLimanseta 在 4 小時內(nèi)用 Grok 4 制作了一款 FPS 射擊游戲,Grok 不僅可以用于制作游戲,還能實際運行游戲,洞察優(yōu)秀游戲的要素并提出改進建議。看著效果真的挺不錯。



下一步,xAI 預計還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型,看起來新產(chǎn)品發(fā)布要達到月更的速度。



目前,Grok 4 已經(jīng)上線,不過需要付費使用,而且價格相當昂貴。其付費模式分為年付和月付兩種,其中 SuperGrok 是每年 300 美元(折合人民幣約 2154 元),SuperGrok Heavey 則是每年 3000 美元(折合人民幣 21540 元)。



  • 官網(wǎng)鏈接:https://grok.com/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
WC!維金斯!湖人最快速度交易

WC!維金斯!湖人最快速度交易

技巧君侃球
2025-07-10 23:29:37
剛剛!中美經(jīng)貿(mào),最新消息!

剛剛!中美經(jīng)貿(mào),最新消息!

證券時報
2025-07-10 17:39:28
香港富四代稱“只花18塊的內(nèi)地窮鬼別來旅游”,評論區(qū)一片叫好

香港富四代稱“只花18塊的內(nèi)地窮鬼別來旅游”,評論區(qū)一片叫好

可達鴨面面觀
2025-07-03 09:02:14
公職人員出軌人妻還毆打原配,人妻美照曝光,開房30次:信息量大

公職人員出軌人妻還毆打原配,人妻美照曝光,開房30次:信息量大

溫柔看世界
2025-07-10 12:35:45
女優(yōu)竹內(nèi)有紀自曝引退時間!瘋狂發(fā)片模式啟動

女優(yōu)竹內(nèi)有紀自曝引退時間!瘋狂發(fā)片模式啟動

葫蘆哥愛吐槽
2025-07-11 00:05:16
稀土禁令形同虛設(shè)?外媒爆中資公司將稀土通過第三國大量轉(zhuǎn)運美國

稀土禁令形同虛設(shè)?外媒爆中資公司將稀土通過第三國大量轉(zhuǎn)運美國

花小貓的美食日常
2025-07-09 15:51:57
尹錫悅又被捕!首日菜單曝光 這一次待遇降級了

尹錫悅又被捕!首日菜單曝光 這一次待遇降級了

上游新聞
2025-07-10 14:52:49
薩巴倫卡談對手提前慶祝:那一刻我真的很生氣

薩巴倫卡談對手提前慶祝:那一刻我真的很生氣

懂球帝
2025-07-11 01:17:13
中國巨輪慘遭擊沉,胡塞武裝發(fā)動海上打擊,中方成為第一個受害者

中國巨輪慘遭擊沉,胡塞武裝發(fā)動海上打擊,中方成為第一個受害者

瞻史
2025-07-09 17:51:36
世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網(wǎng)決賽

世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網(wǎng)決賽

直播吧
2025-07-10 23:19:05
亞冠燒腦劇:中國球迷在申花球迷區(qū)為日本隊加油 被日本球迷打了

亞冠燒腦劇:中國球迷在申花球迷區(qū)為日本隊加油 被日本球迷打了

風過鄉(xiāng)
2025-07-10 19:42:42
楊少華并非午休時去世!真實死因曝光更引眾怒,家屬呼吁不要網(wǎng)暴

楊少華并非午休時去世!真實死因曝光更引眾怒,家屬呼吁不要網(wǎng)暴

小咪侃娛圈
2025-07-10 09:09:02
天水血鉛事件更多細節(jié)曝光,疑后廚親屬喊冤,懷孕老師也中招!

天水血鉛事件更多細節(jié)曝光,疑后廚親屬喊冤,懷孕老師也中招!

派大星紀錄片
2025-07-10 17:05:00
7月10日俄烏最新:創(chuàng)造歷史

7月10日俄烏最新:創(chuàng)造歷史

西樓飲月
2025-07-10 18:48:00
橫掃!溫網(wǎng)女單半決賽:斯瓦泰克2-0速勝本西奇,將戰(zhàn)阿尼西莫娃

橫掃!溫網(wǎng)女單半決賽:斯瓦泰克2-0速勝本西奇,將戰(zhàn)阿尼西莫娃

直播吧
2025-07-11 01:17:04
他信首次公開回應:洪森給我女兒“下套”,“兄弟情”已破裂

他信首次公開回應:洪森給我女兒“下套”,“兄弟情”已破裂

觀察者網(wǎng)
2025-07-10 20:07:34
遼寧省省長王新偉與李彥宏座談

遼寧省省長王新偉與李彥宏座談

政知新媒體
2025-07-10 20:04:44
連任才兩個月,還沒見特朗普,澳總理將展開超長時間訪華之旅!

連任才兩個月,還沒見特朗普,澳總理將展開超長時間訪華之旅!

西西弗說
2025-07-10 19:26:54
生15個私生子,6個情人為他自殺,影帝的風流人生如此悲愴

生15個私生子,6個情人為他自殺,影帝的風流人生如此悲愴

文藝館
2025-07-09 21:01:05
養(yǎng)老金調(diào)整通知正式公布,漲2%!企退養(yǎng)老金3257元,能漲160元嗎

養(yǎng)老金調(diào)整通知正式公布,漲2%!企退養(yǎng)老金3257元,能漲160元嗎

興史興談
2025-07-10 17:39:22
2025-07-11 05:23:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10837文章數(shù) 142364關(guān)注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

退休人員基本養(yǎng)老金為何上調(diào)2% 人社部發(fā)文回應

頭條要聞

退休人員基本養(yǎng)老金為何上調(diào)2% 人社部發(fā)文回應

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結(jié)束

娛樂要聞

宋佳,真的好叛逆!

財經(jīng)要聞

潮玩規(guī)模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態(tài)體驗

態(tài)度原創(chuàng)

健康
教育
時尚
房產(chǎn)
本地

呼吸科專家破解呼吸道九大謠言!

教育要聞

成都又要新增一所“教科附”高中?最新消息來了

我完美的發(fā)型被回南天做局了……

房產(chǎn)要聞

重磅!招商+平安出手,拿下海南440畝灣區(qū)大盤!

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 高密市| 静乐县| 军事| 武定县| 肥东县| 资阳市| 武川县| 正定县| 江永县| 廊坊市| 安徽省| 奉贤区| 嘉祥县| 璧山县| 临夏县| 莆田市| 汝州市| 宾阳县| 迁安市| 边坝县| 措美县| 青川县| 保亭| 区。| 攀枝花市| 海晏县| 丹棱县| 兴义市| 东山县| 溧阳市| 迁西县| 古蔺县| 威海市| 景宁| 习水县| 宁乡县| 霍邱县| 冕宁县| 太原市| 高陵县| 沂源县|