99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,馬斯克發(fā)布Grok 4!全榜第一,年費(fèi)飚到2萬+

0
分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

所有學(xué)科都是博士后水平。

醞釀良久的 xAI 下一代大模型——Grok 4 終于發(fā)布了!能力超乎我們想象。

北京時(shí)間今天中午 12 點(diǎn)左右,我們期待已久的 xAI 發(fā)布會(huì)終于開始,馬斯克現(xiàn)身直播間,他上來就說:「這是世界上最好的 AI,讓我們來展示一下。」



馬斯克表示,Grok 4 每次都能在 SAT 考試(美國高考)中獲得滿分,無需事先查看題目,它也可以做到 GRE 任何學(xué)科接近滿分,超過了全世界所有研究生的水平。Grok 4 最強(qiáng)大的地方是其推理能力,它已經(jīng)實(shí)現(xiàn)了超越人類的推理水平。

馬斯克相信,Grok 4 可以在今年內(nèi)實(shí)現(xiàn)科學(xué)新發(fā)現(xiàn)。



得益于計(jì)算能力的增強(qiáng)、強(qiáng)化學(xué)習(xí)的訓(xùn)練,Grok 4 的推理能力相較于前代提升了 10 倍。從 Grok 2 到 Grok 4,采用的技術(shù)范式不同,分別為下一個(gè) token 預(yù)測、預(yù)訓(xùn)練計(jì)算、預(yù)訓(xùn)練 + RL、RL 計(jì)算。

其中,Grok 2 到 Grok 3 預(yù)訓(xùn)練階段的計(jì)算量提升了 10 倍,Grok 3 reasoning 首次引入了 RL 微調(diào),帶來了深度推理能力。Grok 4 reasoning 的強(qiáng)化學(xué)習(xí)再度提升了 10 倍的計(jì)算量,這意味著顯著的推理能力提升。



另外因?yàn)檎{(diào)用工具能力的提升,Grok 4 進(jìn)一步放大了自身智慧。因此可以在各類高難度 Benchmark 上實(shí)現(xiàn)遠(yuǎn)超 SOTA 的成績。

接下來是重頭戲:Grok 4 的基準(zhǔn)測試結(jié)果。

首先是HLE(Humanities Last Exam,人類最后的考試),包括數(shù)學(xué)、化學(xué)和邏輯學(xué)。在上周六泄露的基準(zhǔn)測試結(jié)果中,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標(biāo)準(zhǔn)得分是 35%,使用推理技術(shù)后提高到 45%,但多數(shù)網(wǎng)友持質(zhì)疑態(tài)度。

在今天的直播中,xAI 研究人員表示,以往的 SOTA 模型在使用工具(with tool)的情況下,成績最高可以達(dá)到 41.0%。



如今,Grok 4 進(jìn)一步提升了這一基準(zhǔn)測試成績。



具體來講,與其他 SOTA 模型(o3、Gemini 2.5 Pro)相比,在使用工具的情況下,Grok 4 的成績?yōu)?38.6%,Grok 4 Heavy 的成績飆升到了 44.4%。如果讓大模型在測試時(shí)花費(fèi)更多時(shí)間思考,并恰當(dāng)?shù)氖褂酶嗤獠抗ぞ?,則 HLE 的分?jǐn)?shù)還能進(jìn)一步提升到 50.7%。



關(guān)于其他更多基準(zhǔn)測試結(jié)果,包括 GPQA(研究生級別的 Google 驗(yàn)證問答基準(zhǔn)測試)、AIME25(美國數(shù)學(xué)競賽邀請賽)、LCB(Jan-May)(編程競賽 / 在線算法競賽)、HMMT25(高中生團(tuán)隊(duì)數(shù)學(xué)競賽)和 USAMO25(美國頂級高中生數(shù)學(xué)競賽)。從下圖可以看到,Grok 4 Heavy 均取得了最新 SOTA

相比之下,人類面對 HLE 測試也幾乎答不上幾個(gè)題。馬斯克多遍強(qiáng)調(diào):Grok 現(xiàn)在在所有學(xué)科都達(dá)到了博士后水平,沒有例外。它沒有發(fā)現(xiàn)新科學(xué)或是新的物理定律,但這只是一個(gè)時(shí)間問題。

「如果 Grok 在今年內(nèi)沒有發(fā)現(xiàn)實(shí)用的新科學(xué)技術(shù),我會(huì)感覺很意外,」馬斯克表示。



大模型性能評估平臺 Artificial Analysis 的全套基準(zhǔn)測試成績表明,Grok 4 已經(jīng)成為當(dāng)前領(lǐng)先的 AI 模型,總成績達(dá)到了 73 分,領(lǐng)先于 o3、Gemini 2.5 Pro、Claude 4 Opus、DeepSeek R1 0528。





想象一下我們現(xiàn)在處在的位置,我們正處于智能發(fā)展的大爆炸過程中,這是人類歷史上前所未見的。是時(shí)候看看 Grok 4 具體能做些什么了。

我們來看一兩個(gè) demo,比如「基于物理原理的 HTML 動(dòng)畫,模擬兩個(gè)黑洞碰撞并產(chǎn)生引力波的 30 秒可視化效果」:



Grok 4 幾乎完整地呈現(xiàn)了從兩個(gè)黑洞接近到最后合并結(jié)束的引力波模擬效果。動(dòng)圖的一邊是推理過程和計(jì)算的步驟和代碼,查閱的論文每一篇都有鏈接。

Grok 4 的多面手屬性更強(qiáng)了

除了各大語言基準(zhǔn)成績的提升,Grok 4 在其他方面同樣得到了加強(qiáng)。

其中,Grok 4 的語音能力相較于上代速度快了 2 倍,端到端延遲更低;支持 5 種語音;單日用戶總停留時(shí)長提升了 10 倍。



新增的 Grok 角色 Eve 和 Sal 現(xiàn)已可在 iOS 版 Grok 中使用,Sal 支持多種性格,Eve 可以唱歌和低語。



ARC-AGI 基準(zhǔn)測試集中,它專門設(shè)計(jì)用于評估人工智能系統(tǒng)通用推理能力,被視為通向 AGI 的重要試金石,旨在檢驗(yàn)?zāi)P褪欠衲芟袢祟愐粯屿`活解決從未見過的新問題。

在這個(gè)直指 AGI 核心能力的超難基準(zhǔn)上,Grok 4 同樣取得了最新 SOTA,其中在 ARC-AGI-2 上達(dá)到 15.9%,幾乎將之前的商業(yè) SOTA 翻了一番,并超越了當(dāng)前的 Kaggle 競賽 SOTA。





在 Vending-Bench 基準(zhǔn)測試中,它專注于評估智能體在真實(shí)物理世界中執(zhí)行復(fù)雜操作任務(wù)的能力,其核心目標(biāo)是解決傳統(tǒng)模擬環(huán)境(如 Habitat、AI2-THOR)與真實(shí)世界間的「Sim2Real Gap」(仿真到現(xiàn)實(shí)的鴻溝),推動(dòng)機(jī)器人技術(shù)在開放場景中的實(shí)際應(yīng)用能力。

可以看到,Grok 4 相較于 Claude Opus 4、Human、Gemini 2.5 Pro、o3 取得了領(lǐng)先。



Grok 4 可通過 API 調(diào)用,提供 256K tokens 的上下文窗口。目前已經(jīng)開放使用,版本號為 grok-4-0709,價(jià)格與 Grok 3 相同。





根據(jù) Artificial Analysis 的測試,xAI 的 API 當(dāng)前以每秒 75 個(gè) token 的速度提供 Grok 4 服務(wù),速度雖不及 o3(每秒 188 個(gè) token),但優(yōu)于 Claude 4 Opus Thinking(每秒 66 個(gè) token)。



最后是游戲體驗(yàn),DannyLimanseta 在 4 小時(shí)內(nèi)用 Grok 4 制作了一款 FPS 射擊游戲,Grok 不僅可以用于制作游戲,還能實(shí)際運(yùn)行游戲,洞察優(yōu)秀游戲的要素并提出改進(jìn)建議??粗Ч娴耐Σ诲e(cuò)。



下一步,xAI 預(yù)計(jì)還將發(fā)布代碼模型、多模態(tài)智能體以及視頻生成模型,看起來新產(chǎn)品發(fā)布要達(dá)到月更的速度。



目前,Grok 4 已經(jīng)上線,不過需要付費(fèi)使用,而且價(jià)格相當(dāng)昂貴。其付費(fèi)模式分為年付和月付兩種,其中 SuperGrok 是每年 300 美元(折合人民幣約 2154 元),SuperGrok Heavey 則是每年 3000 美元(折合人民幣 21540 元)。



  • 官網(wǎng)鏈接:https://grok.com/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
連開7槍射殺中國人嫌犯落網(wǎng),身份被扒是華人,殺人越貨無惡不作

連開7槍射殺中國人嫌犯落網(wǎng),身份被扒是華人,殺人越貨無惡不作

興史興談
2025-07-22 14:33:00
北方“桑拿模式”常態(tài)化?破紀(jì)錄高溫高濕背后誰改變了我們的夏天

北方“桑拿模式”常態(tài)化?破紀(jì)錄高溫高濕背后誰改變了我們的夏天

知識分子
2025-07-23 14:20:41
麗江反殺案回顧:退伍女兵唐雪為自衛(wèi)反殺1米9挑釁男,后來如何了

麗江反殺案回顧:退伍女兵唐雪為自衛(wèi)反殺1米9挑釁男,后來如何了

談史論天地
2025-07-22 18:00:03
“不給6套房加1個(gè)億,不搬”,釘子戶張新國堅(jiān)守14年,終敗給現(xiàn)實(shí)

“不給6套房加1個(gè)億,不搬”,釘子戶張新國堅(jiān)守14年,終敗給現(xiàn)實(shí)

紅夢史說
2025-07-11 11:23:39
俄羅斯已窮途末路,須謹(jǐn)防被其拉下水

俄羅斯已窮途末路,須謹(jǐn)防被其拉下水

常識群
2025-07-23 09:07:11
傳奇搖滾巨星去世,兩周前剛舉辦告別演唱會(huì)

傳奇搖滾巨星去世,兩周前剛舉辦告別演唱會(huì)

紅星新聞
2025-07-23 14:33:47
賴清德還沒到紐約,特朗普就先來了個(gè)下馬威,大陸說的話開始應(yīng)驗(yàn)

賴清德還沒到紐約,特朗普就先來了個(gè)下馬威,大陸說的話開始應(yīng)驗(yàn)

云上烏托邦
2025-07-23 12:44:18
20多國領(lǐng)導(dǎo)人確定出席!王毅正式宣布,特朗普也接到了邀請

20多國領(lǐng)導(dǎo)人確定出席!王毅正式宣布,特朗普也接到了邀請

觀星賞月
2025-07-22 10:10:29
花錢不眨眼的5位女星:有錢也養(yǎng)不起,高消費(fèi)遠(yuǎn)超你的想象

花錢不眨眼的5位女星:有錢也養(yǎng)不起,高消費(fèi)遠(yuǎn)超你的想象

不八卦掌門人
2025-07-20 21:43:30
陳佩斯《戲臺》全網(wǎng)零差評,票房4400萬要賠本?吳京的話又應(yīng)驗(yàn)了

陳佩斯《戲臺》全網(wǎng)零差評,票房4400萬要賠本?吳京的話又應(yīng)驗(yàn)了

公子麥少
2025-07-22 12:20:59
杜賓犬撲童最新:狗主人登門道歉,身份被扒不差錢,知情人曝內(nèi)幕

杜賓犬撲童最新:狗主人登門道歉,身份被扒不差錢,知情人曝內(nèi)幕

悠閑歷史
2025-07-22 17:40:24
宗澤后曝哥哥情史:主動(dòng)追求杜建英沒人敢捅破,生仨孩子耽誤了她

宗澤后曝哥哥情史:主動(dòng)追求杜建英沒人敢捅破,生仨孩子耽誤了她

禾寒?dāng)?/span>
2025-07-22 18:05:32
湖人官宣簽約斯馬特!新賽季身披36號球衣 佩林卡稱其全能型球員

湖人官宣簽約斯馬特!新賽季身披36號球衣 佩林卡稱其全能型球員

羅說NBA
2025-07-23 06:38:44
上海醫(yī)生家里每周四都丟錢,4年丟了100萬,以為丈夫偷去炒股

上海醫(yī)生家里每周四都丟錢,4年丟了100萬,以為丈夫偷去炒股

霹靂炮
2025-07-22 23:02:55
政審?fù)ㄟ^卻被退檔,一名考生與國防大學(xué)失之交臂,原因讓人破防

政審?fù)ㄟ^卻被退檔,一名考生與國防大學(xué)失之交臂,原因讓人破防

紅豆講堂
2025-07-20 15:42:39
你還是處女嗎?江西這95后姑娘相親,就被年薪百萬的IT男問懵了…

你還是處女嗎?江西這95后姑娘相親,就被年薪百萬的IT男問懵了…

火山詩話
2025-07-21 19:50:24
資本得不到就毀掉?于正下場后,七七媽幡然悔悟,選擇太明智了!

資本得不到就毀掉?于正下場后,七七媽幡然悔悟,選擇太明智了!

草莓解說體育
2025-07-23 09:42:42
甘肅馬蹄寺景區(qū)被曝收300元/人“天價(jià)過路費(fèi)”,當(dāng)?shù)匚穆貌块T:屬實(shí),已下發(fā)整改函

甘肅馬蹄寺景區(qū)被曝收300元/人“天價(jià)過路費(fèi)”,當(dāng)?shù)匚穆貌块T:屬實(shí),已下發(fā)整改函

上游新聞
2025-07-22 17:29:05
八國聯(lián)軍:流傳已久的謊言!

八國聯(lián)軍:流傳已久的謊言!

深度報(bào)
2025-07-13 22:52:06
連東風(fēng)-41都只能“排隊(duì)”?今年九三閱兵,要給全世界看看實(shí)力!

連東風(fēng)-41都只能“排隊(duì)”?今年九三閱兵,要給全世界看看實(shí)力!

微光物語
2025-07-21 11:35:11
2025-07-23 15:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10919文章數(shù) 142392關(guān)注度
往期回顧 全部

科技要聞

周鴻祎:最近采購的都是華為 H20性價(jià)比不高

頭條要聞

法媒:"愛潑斯坦案"或是特朗普重返白宮后最大炸彈

頭條要聞

法媒:"愛潑斯坦案"或是特朗普重返白宮后最大炸彈

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

歐陽娜娜戀情?男方為大6歲樂隊(duì)鼓手

財(cái)經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
旅游
教育

房產(chǎn)要聞

海南自由貿(mào)易港全島封關(guān),2025年12月18日正式啟動(dòng)!

親子要聞

兒童生活中哪些物品可能含鉛?拆解身邊的“鉛風(fēng)險(xiǎn)”

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

感動(dòng)!“玻璃娃娃”田艷青,從大山到武漢,高考圓夢武漢大學(xué)!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 锡林浩特市| 泌阳县| 通化市| 新蔡县| 鄂伦春自治旗| 盐源县| 大名县| 绥阳县| 茂名市| 思南县| 丰都县| 龙山县| 布拖县| 普陀区| 松江区| 长春市| 海门市| 阳新县| 石首市| 慈溪市| 彰武县| 门源| 长白| 台湾省| 白城市| 正定县| 大城县| 海口市| 泰宁县| 公主岭市| 扎兰屯市| 云林县| 石嘴山市| 剑河县| 鄱阳县| 嘉禾县| 文安县| 海丰县| 普洱| 许昌市| 浑源县|