99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克發布 Grok 4 模型:推理能力較前代提升 10 倍,各學科測試接近滿分

0
分享至

剛剛,xAI 發布了新一代大模型 Grok 4,包括 Grok 4 和 Grok 4 Heavy 兩個型號。

據介紹,Grok 4 的推理能力相較于前代提升了 10 倍,在 SAT 和 GRE 各學科等高難度考試中取得了接近滿分的成績。

馬斯克在發布會上稱,「這是世界上最好的 AI」。

「數字生命卡茲克」快速總結了 Grok 4 發布會上的一些關鍵信息:

  • 這次發了兩個模型,Grok 4 和 Grok 4 Heavy。

  • 訓練量是 Grok 2 的 100 倍,在強化學習上的計算量是現有任何模型的 10 倍。

  • 在人類最后的考試(Humanity's Last Exam, HLE)中,Grok 4 在 HLE 上拿到 38.6%;Grok 4 Heavy 借助多智能體進一步拉到 44.4%,刷新了最高紀錄。

  • 官方同時公布 GPQA、AIME25、HMMT25、USAMO25 等學科賽題,Grok 4 Heavy 在其中 4 項奪冠,尤其在 AIME25 與 HMMT25 獲得 100% / 96.7% 的近滿分表現。

  • 全程都在聊知識,隱隱感覺到不妙,一實測,果然,代碼能力拉垮了。

  • Grok 4 在訓練階段就深度整合了工具使用能力,將工具(如代碼解釋器、搜索引擎等)直接納入訓練流程,最終效果更好。

  • 設計了一個名為「Vending-Bench」的商業模擬場景,AI 需要像人一樣經營自動售貨機業務,測試結果:Grok 4 平均凈資產 $4684.15,是第二名 Claude 4 的兩倍,證明 Grok 4 比其他模型的長任務能力更牛逼。

  • ARC-AGI v2 評測記上,達到了 SOTA,Grok 4 準確率 15.9%,第二名 Claude 4 為 8.6%,幾乎翻倍。同時,單位成本推理效率業界最佳。

  • 定價方面:

    • Free:只能用 Grok 3,不給用 Grok4;

    • SuperGrok(30 美元/月):Grok 4、128 k Token、更多接口額度;

    • SuperGrok Heavy(300 美元/月):獨享 Grok 4 Heavy、提前試用新特性、專屬技術支持。

  • xAI 后續發布計劃:8 月推代碼模型、9 月上線多模態智能代理、10 月發視頻生成模型。

超 9000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產品曝光渠道

01Grok 4在基準測試上的表現達到人類博士后水平

得益于計算能力的增強、強化學習的訓練,Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4,采用的技術范式不同,分別為下一個 token 預測、預訓練計算、預訓練 + RL、RL 計算。

其中,Grok 2 到 Grok 3 預訓練階段的計算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微調,帶來了深度推理能力。Grok 4 reasoning 的強化學習再度提升了 10 倍的計算量,這意味著顯著的推理能力提升。


另外因為調用工具能力的提升,Grok 4 進一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實現遠超 SOTA 的成績。

接下來是重頭戲:Grok 4 的基準測試結果。

首先是HLE(Humanities Last Exam,人類最后的考試),包括數學、化學和邏輯學。在中,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術后提高到 45%,但多數網友持質疑態度。

在今天的直播中,xAI 研究人員表示,以往的 SOTA 模型在使用工具(with tool)的情況下,成績最高可以達到 41.0%。


如今,Grok 4 進一步提升了這一基準測試成績。


具體來講,與其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情況下,Grok 4 的成績為 38.6%,Grok 4 Heavy 的成績飆升到了 44.4%。如果讓大模型在測試時花費更多時間思考,并恰當的使用更多外部工具,則 HLE 的分數還能進一步提升到 50.7%。


關于其他更多基準測試結果,包括 GPQA(研究生級別的 Google 驗證問答基準測試)、AIME25(美國數學競賽邀請賽)、LCB(Jan-May)(編程競賽 / 在線算法競賽)、HMMT25(高中生團隊數學競賽)和 USAMO25(美國頂級高中生數學競賽)。從下圖可以看到,Grok 4 Heavy 均取得了最新 SOTA

相比之下,人類面對 HLE 測試也幾乎答不上幾個題。馬斯克多遍強調:Grok 現在在所有學科都達到了博士后水平,沒有例外。它沒有發現新科學或是新的物理定律,但這只是一個時間問題。

「如果 Grok 在今年內沒有發現實用的新科學技術,我會感覺很意外,」馬斯克表示。


大模型性能評估平臺 Artificial Analysis 的全套基準測試成績表明,Grok 4 已經成為當前領先的 AI 模型,總成績達到了 73 分,領先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。



想象一下我們現在處在的位置,我們正處于智能發展的大爆炸過程中,這是人類歷史上前所未見的。是時候看看 Grok 4 具體能做些什么了。

我們來看一兩個 demo,比如「基于物理原理的 HTML 動畫,模擬兩個黑洞碰撞并產生引力波的 30 秒可視化效果」:


Grok 4 幾乎完整地呈現了從兩個黑洞接近到最后合并結束的引力波模擬效果。動圖的一邊是推理過程和計算的步驟和代碼,查閱的論文每一篇都有鏈接。

02多語言、語音、角色功能等方面能力提升

除了各大語言基準成績的提升,Grok 4 在其他方面同樣得到了加強。

其中,Grok 4 的語音能力相較于上代速度快了 2 倍,端到端延遲更低;支持 5 種語音;單日用戶總停留時長提升了 10 倍。


新增的 Grok 角色 Eve 和 Sal 現已可在 iOS 版 Grok 中使用,Sal 支持多種性格,Eve 可以唱歌和低語。


ARC-AGI 基準測試集中,它專門設計用于評估人工智能系統通用推理能力,被視為通向 AGI 的重要試金石,旨在檢驗模型是否能像人類一樣靈活解決從未見過的新問題。

在這個直指 AGI 核心能力的超難基準上,Grok 4 同樣取得了最新 SOTA,其中在 ARC-AGI-2 上達到 15.9%,幾乎將之前的商業 SOTA 翻了一番,并超越了當前的 Kaggle 競賽 SOTA。



在 Vending-Bench 基準測試中,它專注于評估智能體在真實物理世界中執行復雜操作任務的能力,其核心目標是解決傳統模擬環境(如 Habitat、AI2-THOR)與真實世界間的「Sim2Real Gap」(仿真到現實的鴻溝),推動機器人技術在開放場景中的實際應用能力。

可以看到,Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領先。


Grok 4 可通過 API 調用,提供 256K tokens 的上下文窗口。目前已經開放使用,版本號為 grok-4-0709,價格與 Grok 3 相同。



根據 Artificial Analysis 的測試,xAI 的 API 當前以每秒 75 個 token 的速度提供 Grok 4 服務,速度雖不及 o3(每秒 188 個 token),但優于 Claude 4 Opus Thinking(每秒 66 個 token)。


最后是游戲體驗,DannyLimanseta 在 4 小時內用 Grok 4 制作了一款 FPS 射擊游戲,Grok 不僅可以用于制作游戲,還能實際運行游戲,洞察優秀游戲的要素并提出改進建議。看著效果真的挺不錯。


03付費會員價格昂貴,接下來計劃發布多款模型

下一步,xAI 預計將發布代碼模型、多模態智能體以及視頻生成模型,看起來新產品發布要達到月更的速度。


目前,Grok 4 已經上線,不過需要付費使用,而且價格相當昂貴。其付費模式分為年付和月付兩種,其中 SuperGrok 是每年 300 美元(折合人民幣約 2154 元),SuperGrok Heavey 則是每年 3000 美元(折合人民幣 21540 元)。


官網鏈接: https://grok.com/

轉載原創文章請添加微信:founderparker

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2024浙江制造業100強:青山第4,雅戈爾第9,浙江中煙第18

2024浙江制造業100強:青山第4,雅戈爾第9,浙江中煙第18

牛鍋巴小釩
2025-07-17 00:55:08
比三峽大3倍,投資10000億的水電巨無霸,印度再也攔不住了

比三峽大3倍,投資10000億的水電巨無霸,印度再也攔不住了

boss外傳
2025-05-25 19:15:03
默克爾預測俄烏沖突結局,稱只有一種可能,俄羅斯已經邁出了一步

默克爾預測俄烏沖突結局,稱只有一種可能,俄羅斯已經邁出了一步

墨蘭史書
2025-07-16 20:49:30
深圳十年來人數最多的中考出分,6萬人注定落榜…

深圳十年來人數最多的中考出分,6萬人注定落榜…

Dr小魚
2025-07-16 20:02:56
五臺山達云方丈去世,死因曝光,生前照片被扒,吃穿用度被噴奢侈

五臺山達云方丈去世,死因曝光,生前照片被扒,吃穿用度被噴奢侈

曉林說娛
2025-07-16 10:05:46
為什么中國戰機突然領先美國?

為什么中國戰機突然領先美國?

白駒談人機
2025-07-15 00:04:15
一場抗戰前前后后打了十四年,到底是誰在抗日呢?

一場抗戰前前后后打了十四年,到底是誰在抗日呢?

翻開歷史和現實
2025-07-14 23:59:46
外媒披露:這個國家,想觸碰中國的紅線!

外媒披露:這個國家,想觸碰中國的紅線!

環球時報國際
2025-07-16 00:15:17
美專家:中國轟20或超過200噸重,航程和載彈量均創中國空軍之最

美專家:中國轟20或超過200噸重,航程和載彈量均創中國空軍之最

文史旺旺旺
2025-07-16 20:42:06
1967年,走投無路的阿拉法特,帶著4000多士兵和40萬難民,投奔約旦

1967年,走投無路的阿拉法特,帶著4000多士兵和40萬難民,投奔約旦

南權先生
2025-05-28 15:23:30
曾經炒到上千萬,如今一文不值!這個全民“騙局”,終于崩了!

曾經炒到上千萬,如今一文不值!這個全民“騙局”,終于崩了!

小白鴿財經
2025-07-03 13:56:32
上海出租車天塌了!女子實名舉報前兩輛拒載,第三輛被罵了一路

上海出租車天塌了!女子實名舉報前兩輛拒載,第三輛被罵了一路

奇思妙想草葉君
2025-07-16 16:08:56
亨得利放話:趙心童若不能再拿三、四個世錦賽冠軍,我會很震驚

亨得利放話:趙心童若不能再拿三、四個世錦賽冠軍,我會很震驚

去山野間追風
2025-07-16 18:03:50
國務院臺辦:賴清德所謂“團結十講”充斥著謊言與欺騙

國務院臺辦:賴清德所謂“團結十講”充斥著謊言與欺騙

界面新聞
2025-07-16 10:30:03
褲子那里鼓鼓的,當代都市麗人都被女裝做局了

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

網易上流
2025-07-10 09:32:02
校花口述:去高級會所賺快錢,心理產生了陰影,身體也被搞廢了

校花口述:去高級會所賺快錢,心理產生了陰影,身體也被搞廢了

南山青松
2025-04-12 23:17:57
事關彈性退休!福建最新發布!

事關彈性退休!福建最新發布!

閩聲觀察
2025-07-16 07:30:03
高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

動物奇奇怪怪
2025-07-10 09:54:56
他升任外交部領導后,多次泄露機密,從外交精英到背叛者!

他升任外交部領導后,多次泄露機密,從外交精英到背叛者!

柳絮憶史
2025-07-09 11:24:21
姜子牙660年基業,被斬草除根

姜子牙660年基業,被斬草除根

漢周讀書
2025-07-15 17:20:03
2025-07-17 03:36:49
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
846文章數 134關注度
往期回顧 全部

科技要聞

網易直擊黃仁勛見面會,他說了這28句話

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

頭條要聞

叔叔談宗馥莉:沒必要趕盡殺絕 要那么多錢干嘛

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

房產
旅游
藝術
家居
公開課

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

浪漫典雅 法式風格別墅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 抚顺县| 邵阳市| 军事| 仁化县| 郑州市| 南涧| 莎车县| 卓资县| 诸城市| 沁源县| 崇义县| 海原县| 宝应县| 九龙坡区| 大连市| 泰和县| 永德县| 广西| 潼南县| 岳阳市| 沐川县| 龙川县| 大方县| 佛山市| 宜黄县| 岱山县| 三河市| 抚顺市| 乌什县| 阿合奇县| 花垣县| 康定县| 五华县| 错那县| 宣武区| 灌南县| 东台市| 吉安县| 兰坪| SHOW| 安宁市|