99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,馬斯克發(fā)布Grok 4!全榜第一,年費(fèi)飚到2萬(wàn)+

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

所有學(xué)科都是博士后水平。

醞釀良久的 xAI 下一代大模型——Grok 4 終于發(fā)布了!能力超乎我們想象。

北京時(shí)間今天中午 12 點(diǎn)左右,我們期待已久的 xAI 發(fā)布會(huì)終于開始,馬斯克現(xiàn)身直播間,他上來(lái)就說(shuō):「這是世界上最好的 AI,讓我們來(lái)展示一下。」



馬斯克表示,Grok 4 每次都能在 SAT 考試(美國(guó)高考)中獲得滿分,無(wú)需事先查看題目,它也可以做到 GRE 任何學(xué)科接近滿分,超過(guò)了全世界所有研究生的水平。Grok 4 最強(qiáng)大的地方是其推理能力,它已經(jīng)實(shí)現(xiàn)了超越人類的推理水平。

馬斯克相信,Grok 4 可以在今年內(nèi)實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。



得益于計(jì)算能力的增強(qiáng)、強(qiáng)化學(xué)習(xí)的訓(xùn)練,Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4,采用的技術(shù)范式不同,分別為下一個(gè) token 預(yù)測(cè)、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練 + RL、RL 計(jì)算。

其中,Grok 2 到 Grok 3 預(yù)訓(xùn)練階段的計(jì)算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微調(diào),帶來(lái)了深度推理能力。Grok 4 reasoning 的強(qiáng)化學(xué)習(xí)再度提升了 10 倍的計(jì)算量,這意味著顯著的推理能力提升。



另外因?yàn)檎{(diào)用工具能力的提升,Grok 4 進(jìn)一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實(shí)現(xiàn)遠(yuǎn)超 SOTA 的成績(jī)。

接下來(lái)是重頭戲:Grok 4 的基準(zhǔn)測(cè)試結(jié)果。

首先是HLE(Humanities Last Exam,人類最后的考試),包括數(shù)學(xué)、化學(xué)和邏輯學(xué)。在上周六泄露的基準(zhǔn)測(cè)試結(jié)果中,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標(biāo)準(zhǔn)得分是 35%,使用推理技術(shù)后提高到 45%,但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。

在今天的直播中,xAI 研究人員表示,以往的 SOTA 模型在使用工具(with tool)的情況下,成績(jī)最高可以達(dá)到 41.0%。



如今,Grok 4 進(jìn)一步提升了這一基準(zhǔn)測(cè)試成績(jī)。



具體來(lái)講,與其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情況下,Grok 4 的成績(jī)?yōu)?38.6%,Grok 4 Heavy 的成績(jī)飆升到了 44.4%。如果讓大模型在測(cè)試時(shí)花費(fèi)更多時(shí)間思考,并恰當(dāng)?shù)氖褂酶嗤獠抗ぞ撸瑒t HLE 的分?jǐn)?shù)還能進(jìn)一步提升到 50.7%。



關(guān)于其他更多基準(zhǔn)測(cè)試結(jié)果,包括 GPQA(研究生級(jí)別的 Google 驗(yàn)證問(wèn)答基準(zhǔn)測(cè)試)、AIME25(美國(guó)數(shù)學(xué)競(jìng)賽邀請(qǐng)賽)、LCB(Jan-May)(編程競(jìng)賽 / 在線算法競(jìng)賽)、HMMT25(高中生團(tuán)隊(duì)數(shù)學(xué)競(jìng)賽)和 USAMO25(美國(guó)頂級(jí)高中生數(shù)學(xué)競(jìng)賽)。從下圖可以看到,Grok 4 Heavy 均取得了最新 SOTA

相比之下,人類面對(duì) HLE 測(cè)試也幾乎答不上幾個(gè)題。馬斯克多遍強(qiáng)調(diào):Grok 現(xiàn)在在所有學(xué)科都達(dá)到了博士后水平,沒(méi)有例外。它沒(méi)有發(fā)現(xiàn)新科學(xué)或是新的物理定律,但這只是一個(gè)時(shí)間問(wèn)題。

「如果 Grok 在今年內(nèi)沒(méi)有發(fā)現(xiàn)實(shí)用的新科學(xué)技術(shù),我會(huì)感覺(jué)很意外,」馬斯克表示。



大模型性能評(píng)估平臺(tái) Artificial Analysis 的全套基準(zhǔn)測(cè)試成績(jī)表明,Grok 4 已經(jīng)成為當(dāng)前領(lǐng)先的 AI 模型,總成績(jī)達(dá)到了 73 分,領(lǐng)先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。





想象一下我們現(xiàn)在處在的位置,我們正處于智能發(fā)展的大爆炸過(guò)程中,這是人類歷史上前所未見的。是時(shí)候看看 Grok 4 具體能做些什么了。

我們來(lái)看一兩個(gè) demo,比如「基于物理原理的 HTML 動(dòng)畫,模擬兩個(gè)黑洞碰撞并產(chǎn)生引力波的 30 秒可視化效果」:



Grok 4 幾乎完整地呈現(xiàn)了從兩個(gè)黑洞接近到最后合并結(jié)束的引力波模擬效果。動(dòng)圖的一邊是推理過(guò)程和計(jì)算的步驟和代碼,查閱的論文每一篇都有鏈接。

Grok 4 的多面手屬性更強(qiáng)了

除了各大語(yǔ)言基準(zhǔn)成績(jī)的提升,Grok 4 在其他方面同樣得到了加強(qiáng)。

其中,Grok 4 的語(yǔ)音能力相較于上代速度快了 2 倍,端到端延遲更低;支持 5 種語(yǔ)音;單日用戶總停留時(shí)長(zhǎng)提升了 10 倍。



新增的 Grok 角色 Eve 和 Sal 現(xiàn)已可在 iOS 版 Grok 中使用,Sal 支持多種性格,Eve 可以唱歌和低語(yǔ)。



ARC-AGI 基準(zhǔn)測(cè)試集中,它專門設(shè)計(jì)用于評(píng)估人工智能系統(tǒng)通用推理能力,被視為通向 AGI 的重要試金石,旨在檢驗(yàn)?zāi)P褪欠衲芟袢祟愐粯屿`活解決從未見過(guò)的新問(wèn)題。

在這個(gè)直指 AGI 核心能力的超難基準(zhǔn)上,Grok 4 同樣取得了最新 SOTA,其中在 ARC-AGI-2 上達(dá)到 15.9%,幾乎將之前的商業(yè) SOTA 翻了一番,并超越了當(dāng)前的 Kaggle 競(jìng)賽 SOTA。





在 Vending-Bench 基準(zhǔn)測(cè)試中,它專注于評(píng)估智能體在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力,其核心目標(biāo)是解決傳統(tǒng)模擬環(huán)境(如 Habitat、AI2-THOR)與真實(shí)世界間的「Sim2Real Gap」(仿真到現(xiàn)實(shí)的鴻溝),推動(dòng)機(jī)器人技術(shù)在開放場(chǎng)景中的實(shí)際應(yīng)用能力。

可以看到,Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領(lǐng)先。



Grok 4 可通過(guò) API 調(diào)用,提供 256K tokens 的上下文窗口。目前已經(jīng)開放使用,版本號(hào)為 grok-4-0709,價(jià)格與 Grok 3 相同。





根據(jù) Artificial Analysis 的測(cè)試,xAI 的 API 當(dāng)前以每秒 75 個(gè) token 的速度提供 Grok 4 服務(wù),速度雖不及 o3(每秒 188 個(gè) token),但優(yōu)于 Claude 4 Opus Thinking(每秒 66 個(gè) token)。



最后是游戲體驗(yàn),DannyLimanseta 在 4 小時(shí)內(nèi)用 Grok 4 制作了一款 FPS 射擊游戲,Grok 不僅可以用于制作游戲,還能實(shí)際運(yùn)行游戲,洞察優(yōu)秀游戲的要素并提出改進(jìn)建議。看著效果真的挺不錯(cuò)。



下一步,xAI 預(yù)計(jì)還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型,看起來(lái)新產(chǎn)品發(fā)布要達(dá)到月更的速度。



目前,Grok 4 已經(jīng)上線,不過(guò)需要付費(fèi)使用,而且價(jià)格相當(dāng)昂貴。其付費(fèi)模式分為年付和月付兩種,其中 SuperGrok 是每年 300 美元(折合人民幣約 2154 元),SuperGrok Heavey 則是每年 3000 美元(折合人民幣 21540 元)。



  • 官網(wǎng)鏈接:https://grok.com/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
創(chuàng)下5年來(lái)最大跌幅,養(yǎng)老金漲幅降至2%,未來(lái)會(huì)停漲嗎?

創(chuàng)下5年來(lái)最大跌幅,養(yǎng)老金漲幅降至2%,未來(lái)會(huì)停漲嗎?

數(shù)字財(cái)經(jīng)智庫(kù)
2025-07-12 12:32:39
已確認(rèn)!是演員王一博!

已確認(rèn)!是演員王一博!

手工制作阿殲
2025-07-11 10:14:19
養(yǎng)老金上漲來(lái)了!江蘇退休人員人均養(yǎng)老金多少?今年可以漲多少?

養(yǎng)老金上漲來(lái)了!江蘇退休人員人均養(yǎng)老金多少?今年可以漲多少?

興史興談
2025-07-11 11:34:21
女單四強(qiáng)中國(guó)占兩席  陳熠逆轉(zhuǎn)將與蒯曼會(huì)師半決賽

女單四強(qiáng)中國(guó)占兩席 陳熠逆轉(zhuǎn)將與蒯曼會(huì)師半決賽

畫夕
2025-07-12 16:37:29
世體:莫德里奇加盟米蘭后大幅降薪,年薪僅為250萬(wàn)-300萬(wàn)歐

世體:莫德里奇加盟米蘭后大幅降薪,年薪僅為250萬(wàn)-300萬(wàn)歐

懂球帝
2025-07-11 20:23:04
14歲男孩中考前被老鼠咬傷,打了3針狂犬疫苗,為何還是送往ICU急救

14歲男孩中考前被老鼠咬傷,打了3針狂犬疫苗,為何還是送往ICU急救

古怪奇談錄
2025-07-11 17:20:07
河村夏聯(lián)首秀僅3分+日本慘敗全韓班 日網(wǎng)友驚呼:沒(méi)歸化可咋整?

河村夏聯(lián)首秀僅3分+日本慘敗全韓班 日網(wǎng)友驚呼:沒(méi)歸化可咋整?

大嘴爵爺侃球
2025-07-12 11:43:25
71歲陳佩斯再次讓世界刮目相看,這次,他讓整個(gè)娛樂(lè)圈“沉默”了

71歲陳佩斯再次讓世界刮目相看,這次,他讓整個(gè)娛樂(lè)圈“沉默”了

東方不敗然多多
2025-07-11 13:03:42
李知恩:又玩下身消失術(shù)了

李知恩:又玩下身消失術(shù)了

鄉(xiāng)野小珥
2025-07-10 00:34:46
越描越黑!楊少華助理曝光海鮮店老板身份,和楊議說(shuō)的南轅北轍

越描越黑!楊少華助理曝光海鮮店老板身份,和楊議說(shuō)的南轅北轍

夢(mèng)史
2025-07-12 10:20:32
A股:大家做好準(zhǔn)備了,下周一(7月14日),A股或?qū)⒂瓉?lái)大變盤?

A股:大家做好準(zhǔn)備了,下周一(7月14日),A股或?qū)⒂瓉?lái)大變盤?

財(cái)經(jīng)大拿
2025-07-12 07:10:03
剽竊敗露!若韓國(guó)15號(hào)前再拿不出申遺證據(jù),就丟臉到全世界了!

剽竊敗露!若韓國(guó)15號(hào)前再拿不出申遺證據(jù),就丟臉到全世界了!

青青子衿
2025-07-11 21:15:11
幼兒園鉛中毒案,我能回答所有疑點(diǎn)

幼兒園鉛中毒案,我能回答所有疑點(diǎn)

基本常識(shí)
2025-07-11 18:41:32
兒子緊盯滿桌鈔票,哭暈要人扶,一場(chǎng)葬禮,透露出楊少華真實(shí)處境

兒子緊盯滿桌鈔票,哭暈要人扶,一場(chǎng)葬禮,透露出楊少華真實(shí)處境

凡知
2025-07-11 19:12:27
WTT美國(guó)大滿貫混雙奪金,林詩(shī)棟/蒯曼直言打出自己的最高水平

WTT美國(guó)大滿貫混雙奪金,林詩(shī)棟/蒯曼直言打出自己的最高水平

文匯報(bào)
2025-07-12 16:27:20
葡超近10年金靴一覽 清一色“水貨” 買約克雷斯需謹(jǐn)慎

葡超近10年金靴一覽 清一色“水貨” 買約克雷斯需謹(jǐn)慎

智道足球
2025-07-12 16:04:20
一級(jí)建造師企圖“潛規(guī)則”女中介 ,事情鬧大發(fā)了

一級(jí)建造師企圖“潛規(guī)則”女中介 ,事情鬧大發(fā)了

霹靂炮
2025-07-11 21:28:01
破紀(jì)錄了!純電續(xù)航跑了1205公里!量產(chǎn)車!

破紀(jì)錄了!純電續(xù)航跑了1205公里!量產(chǎn)車!

小李車評(píng)李建紅
2025-07-12 08:11:22
抽煙加速變傻?醫(yī)生告訴你真相,這3個(gè)方法能恢復(fù)

抽煙加速變傻?醫(yī)生告訴你真相,這3個(gè)方法能恢復(fù)

李藥師談健康
2025-07-09 17:04:20
賴清德做最壞打算,美國(guó)不吭聲,臺(tái)專家:解放軍咋可能跟俄軍一樣

賴清德做最壞打算,美國(guó)不吭聲,臺(tái)專家:解放軍咋可能跟俄軍一樣

文雅筆墨
2025-07-12 12:29:01
2025-07-12 17:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10845文章數(shù) 142374關(guān)注度
往期回顧 全部

科技要聞

Kimi深夜整活,開源了首個(gè)萬(wàn)億參數(shù)模型

頭條要聞

"715萬(wàn)建牛郎織女雕塑"調(diào)查2年無(wú)結(jié)論 河南平頂山回應(yīng)

頭條要聞

"715萬(wàn)建牛郎織女雕塑"調(diào)查2年無(wú)結(jié)論 河南平頂山回應(yīng)

體育要聞

夏聯(lián)-開拓者大勝勇士 楊瀚森首秀10+4+5+3帽

娛樂(lè)要聞

鹿晗賬號(hào)解禁后首曬自拍,漲粉超400萬(wàn)

財(cái)經(jīng)要聞

中國(guó)超半數(shù)城市人口下滑,什么信號(hào)?

汽車要聞

小米YU7深度試駕:優(yōu)點(diǎn)很多缺點(diǎn)也很多

態(tài)度原創(chuàng)

房產(chǎn)
健康
游戲
親子
軍事航空

房產(chǎn)要聞

8大新盤曝光!2025下半場(chǎng),廣州主城開卷廝殺!

呼吸科專家破解呼吸道九大謠言!

《模擬人生4》角色突然集體懷孕!就連男性也無(wú)法幸免

親子要聞

張檬孩子便血,想都沒(méi)想就把矛頭指向月嫂,有錢人確實(shí)很難相處

軍事要聞

美國(guó)防部承認(rèn)美空軍基地在6月被伊朗導(dǎo)彈擊中

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永川市| 永丰县| 曲松县| 南开区| 玉山县| 泽州县| 班玛县| 高安市| 新田县| 金山区| 浮梁县| 霞浦县| 禹城市| 竹山县| 祥云县| 城固县| 威海市| 洪湖市| 宜丰县| 芜湖市| 无为县| 吉安县| 交口县| 衡水市| 承德市| 旬邑县| 师宗县| 宁强县| 南部县| 普宁市| 城口县| 长兴县| 阜新市| 图木舒克市| 寻乌县| 金塔县| 泸溪县| 承德县| 成都市| 杭锦旗| 四会市|