99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克發(fā)布Grok 4,推理能力全面登頂,支持四個代理同時工作

0
分享至

Grok 4 終于來了!

馬斯克旗下的 xAI 剛剛結(jié)束發(fā)布直播,Grok 系列模型直接從 Grok 3 進(jìn)化到了 4,跳過了之前傳聞中的 3.5 版本。

Grok 4 系列被分為兩個版本:Grok 4 和 Grok 4 Heavy。

兩者都是純推理模型,沒有非推理模式。

Grok 4 是單代理(single agent)版本,而 Grok 4 Heavy 是多代理版本(multi agents),支持四個代理同時工作。上下文窗口最高支持 256k tokens。


圖 | Grok 4 目前并未開放給免費用戶(來源:xAI)

xAI 表示,在主流推理基準(zhǔn)測試中,Grok 4 Heavy 全部拿下了 SOTA——HLE(人類的最后考試)甚至達(dá)到了 44.4% 的高分。

至于定價,Grok 4 目前只有付費用戶才能使用,而最強的 Grok 4 Heavy 需要訂閱 300 美元/月的 SuperGrok Heavy 會員才能使用。

這價格超過了 OpenAI 最貴的 200 美元 Pro 會員月費。

此前傳聞的 Grok 4 Code 并未正式公布,但 xAI 路線圖顯示其將在 8 月發(fā)布。


圖 | xAI 新品發(fā)布路線圖(來源:xAI)

除了 Coding 模型,接下來的幾個月里,xAI 預(yù)計還會發(fā)布多模態(tài)代理和視頻生成模型。

馬斯克還“畫餅”稱,由 AI 制作的“非常出色的”游戲會在今年或明年推出。

Grok 4 也同時開放了 API 的權(quán)限,目前僅支持文字+視覺的輸入,純文字的輸出。定價是每百萬 tokens 輸入3美元,輸出 15 美元。


圖 | Grok 4 API價格(來源:xAI)

據(jù) xAI 介紹,Grok 4 的訓(xùn)練量是 Grok 2 的 100 倍。

而 Grok 3 到 Grok 4 更側(cè)重于推理訓(xùn)練,推理訓(xùn)練量提升了 10 倍。


圖 | Grok 系列模型的訓(xùn)練量增長(來源:xAI)

“從學(xué)術(shù)角度看,Grok 4 在所有學(xué)科上都是博士水平,甚至比絕大多數(shù)(本學(xué)科的)博士還要強?!瘪R斯克表示。

有關(guān)兩款最新模型的性能和消息,早在一周前就陸續(xù)有 X 博主爆料,包括“Grok 4 在 HLE(Humanities Last Exam,人類的最后考試)測試中的得分是 35%,開啟推理后提高到 45%”等等。

結(jié)合直播內(nèi)容,這些數(shù)據(jù)幾乎都是準(zhǔn)確的,而且 Grok 4 在多個推理基準(zhǔn)測試上的表現(xiàn)均成為了新 SOTA。


圖 | 此前關(guān)于 Grok 4 的爆料(來源:X/@legit_api)

具體來說,在未使用工具的情況下,Grok 4 在 HLE 測試中的得分是 25.4%。而使用工具后,分?jǐn)?shù)則飆升至 38.6%。

更強版本 Grok 4 Heavy 則拿到了 44.4% 的高分,直接碾壓了目前表現(xiàn)最好的谷歌 Gemini 2.5 Pro(26.9%)。


圖 | Grok 4 在 HLE 上的成績(來源:xAI)

馬斯克表示,這些工具仍然是“很基礎(chǔ)的簡單工具”,如果能更好地使用正確的工具,Grok 還會變得更強大。

而隨著模型能力越來越強,用強化學(xué)習(xí)進(jìn)行擴展面臨著許多挑戰(zhàn)。

“我們快沒有合適的問題來考驗 AI 了?!瘪R斯克說道,“很多問題都是人類幾乎無法回答(沒有正確答案)的?!?/p>

除了 HLE,Grok 4 和 Grok 4 Heavy 在各種主流基準(zhǔn)測試上也表現(xiàn)優(yōu)異。


圖 | Grok 4 在多個基準(zhǔn)測試上的成績(來源:xAI)

Grok 4 系列在 GPQA(研究生級問題)測試中得分 88-89,超過了 Gemini 2.5 Pro 成為新第一。而在 AIME25 數(shù)學(xué)競賽題上,Grok 4 Heavy 更是取得了滿分的成績。

xAI 表示,Grok 4 的強項是“用工具來理解世界,并用來完成任務(wù)”。

演示中,Grok 4 寫了一段關(guān)于引力波和黑洞的模擬代碼。在過程中,它調(diào)用了網(wǎng)絡(luò)搜索、文獻(xiàn)檢索和閱讀、代碼運行等工具(功能)。最終實現(xiàn)了網(wǎng)頁上可直接運行的模擬代碼。


(來源:xAI)

在以高難度著稱的 ARC-AGI 通用人工智能測試中,Grok 4 是首個在 v2 Semi Private 挑戰(zhàn)中獲得 10% 以上分?jǐn)?shù)的 AI 模型,幾乎是第二名 Claude Opus 4 的兩倍,同時保證了單任務(wù)成本也處于平均水平。


圖 | Grok 4 在 ARC-AGI 挑戰(zhàn)上的表現(xiàn)(來源:xAI)

最后,在 Vending-Bench 自動售貨機運營測試中,Grok 4 的表現(xiàn)也超過了 Claude Opus 4。凈資產(chǎn)和銷售數(shù)量都遠(yuǎn)遠(yuǎn)超過其他所有模型,甚至是人類平均水平。

這是一個讓大模型代理運營自動售貨機賺錢的模擬環(huán)境,需要代理在一個持續(xù)時間較長的任務(wù)中進(jìn)行操作,如管理庫存、下訂單、定價和處理日常開銷等等。它專注于測試大模型在長時間跨度上的表現(xiàn),而非僅限于短期任務(wù)的表現(xiàn)。


圖 | Vending-Bench 測試成績(來源:xAI)



更加“激進(jìn)”的 Grok

Grok 4 發(fā)布之際,在 X 平臺上十分活躍的 Grok 聊天機器人卻因連發(fā)激進(jìn)言論而引發(fā)嚴(yán)重爭議。

多位 X 用戶截取了 Grok 的回復(fù)截圖,顯示該 AI 在多個公開帖子中回復(fù)了帶有反猶主義色彩的極端言論,甚至多次提及希特勒。

在一篇帖子中,當(dāng)被問及哪位 20 世紀(jì)的歷史人物最適合處理當(dāng)下已造成 100 多人死亡的德克薩斯州洪水問題時,Grok 將其視為是“仇恨白人”問題并回答說,毫無疑問是阿道夫·希特勒(Adolf Hitler)?!八看味寄馨l(fā)現(xiàn)規(guī)律,并果斷處理?!?/p>


圖 | Grok 引起爭議的回答之一(來源:X/@AFpost)

在回應(yīng)用戶的質(zhì)疑時,Grok 自稱為“MechaHitler”(機械希特勒),聲稱這只是來自《德軍總部 3D》游戲中的虛構(gòu)角色。

巧合的是,這一事件發(fā)生在馬斯克剛宣布對 Grok 進(jìn)行“重大升級”之后不久:7 月 4 日,馬斯克發(fā)文稱,“Grok 經(jīng)過了重大改進(jìn)”,并表示“你們應(yīng)該會在提問時感受到不同”。

2 天后,網(wǎng)友發(fā)現(xiàn) Grok 系統(tǒng)提示詞中新增:Grok 將“不回避政治不正確的表述,只要這些表述有足夠證據(jù)支持”,還會將主流媒體內(nèi)容視為“有偏見的主觀敘述”。

不過在最新的更新中,關(guān)于政治不正確的提示詞已被刪除。

Grok 引發(fā)爭議也不僅限于輿論上。由于其過于口無遮攔,因此招來了土耳其的封禁(因其侮辱總統(tǒng)埃爾多安),波蘭政府也向歐盟舉報了 xAI。

針對 Grok 最近幾天的激進(jìn)言論,xAI 表示已采取行動,刪除不當(dāng)帖子并禁止仇恨言論。


圖 | xAI 回應(yīng),已采取措施防止仇恨言論(來源:xAI)

隨著 OpenAI 籌備 GPT-5、谷歌進(jìn)一步發(fā)展 Gemini、Meta 大手筆組建 AI 頂級人才實驗室,Grok 4 只是下一波 AI 軍備競賽的一員。

Grok 4 的亮相符合人們的普遍預(yù)期,它在推理性能上的提升創(chuàng)造了新的 SOTA,但另一方面,xAI 強調(diào)訓(xùn)練量提升 100 倍,卻避而不談的訓(xùn)練成本問題,實實在在反應(yīng)到了定價上,說明 AI 軍備競賽的確過于燒錢。

但背靠財大氣粗的馬斯克,xAI 顯然很有底氣。

“創(chuàng)造一個既快又聰明的模型,是我們的當(dāng)務(wù)之急?!眡AI 創(chuàng)始團隊成員兼研究主管 Jimmy Ba 表示,“未來會很狂野。”

參考資料:

https://x.com/legit_api/status/1941165728708874514

https://x.com/AiBattle_/status/1940139539525419512

https://x.com/AFpost/status/1942694284244767125

https://github.com/xai-org/grok-prompts/blob/main/ask_grok_system_prompt.j2

https://www.wired.com/story/grok-antisemitic-posts-x-xai/

https://docs.x.ai/docs/models

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
浙江女富豪主動投案!丈夫、兒子已入加拿大國籍

浙江女富豪主動投案!丈夫、兒子已入加拿大國籍

魯中晨報
2025-07-10 22:36:32
香港議助月入7萬卻移民英國,沒工作以捉老鼠為生,如今怎么樣了

香港議助月入7萬卻移民英國,沒工作以捉老鼠為生,如今怎么樣了

妙知
2025-07-10 16:42:52
長子未披麻戴孝,卻扛幡摔盆,楊家無視左右“花臂”,實不該!

長子未披麻戴孝,卻扛幡摔盆,楊家無視左右“花臂”,實不該!

深析古今
2025-07-11 12:30:56
賈躍亭的FF汽車訂單爆了,賈老板這回真要翻身了?

賈躍亭的FF汽車訂單爆了,賈老板這回真要翻身了?

戶外釣魚哥阿旱
2025-07-10 14:46:19
楊少華去世一天,丑事接連發(fā)生!兒子紅衣奔喪,愛徒酒后大鬧靈堂

楊少華去世一天,丑事接連發(fā)生!兒子紅衣奔喪,愛徒酒后大鬧靈堂

小影的娛樂
2025-07-11 13:05:19
張學(xué)良臨終前,終于道出西安事變秘密,蔣介石曾命令他一生保密

張學(xué)良臨終前,終于道出西安事變秘密,蔣介石曾命令他一生保密

小莜讀史
2025-06-25 13:42:14
重磅!火箭官方:球隊以一份2年5000萬的合同簽下前東部全明星

重磅!火箭官方:球隊以一份2年5000萬的合同簽下前東部全明星

埃文凱爾
2025-07-11 05:56:16
河南某教育局通知:7月份老師工資減少,住房公積金數(shù)調(diào)整為12%

河南某教育局通知:7月份老師工資減少,住房公積金數(shù)調(diào)整為12%

古希臘掌管松餅的神
2025-07-11 12:52:17
孫穎莎1-3不敵隊友陳熠,止步WTT美國大滿貫女單16強

孫穎莎1-3不敵隊友陳熠,止步WTT美國大滿貫女單16強

直播吧
2025-07-11 07:59:06
華國鋒妻子韓芝俊,如今年過九旬,至今還在完成丈夫一個心愿

華國鋒妻子韓芝俊,如今年過九旬,至今還在完成丈夫一個心愿

小李小故事
2025-07-01 16:11:50
知名導(dǎo)演再曝猛料!古天樂美國秘密結(jié)婚多年,婚姻狀態(tài)令人擔(dān)憂

知名導(dǎo)演再曝猛料!古天樂美國秘密結(jié)婚多年,婚姻狀態(tài)令人擔(dān)憂

曉肂愛八卦
2025-07-08 20:26:41
韋東奕終于去看牙了!穿拖鞋腳趾形狀惹人擔(dān)憂,2位陪同者被扒!

韋東奕終于去看牙了!穿拖鞋腳趾形狀惹人擔(dān)憂,2位陪同者被扒!

古希臘掌管松餅的神
2025-07-09 22:54:17
日本門將早川友基:中國隊有個人能力突出的球員,要警惕反擊

日本門將早川友基:中國隊有個人能力突出的球員,要警惕反擊

懂球帝
2025-07-10 17:08:01
中美軍事實力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

中美軍事實力有多大差距?張召忠:我可以負(fù)責(zé)任地講,別再被誤導(dǎo)

混沌錄
2025-05-12 18:38:14
俄羅斯完全撕破臉,拒絕投降必死!高超導(dǎo)彈洗地,軍列都被炸飛

俄羅斯完全撕破臉,拒絕投降必死!高超導(dǎo)彈洗地,軍列都被炸飛

深藍(lán)航跡
2025-07-09 13:00:10
禁令沒效果?3834噸稀土偷運美國,中方出手很快,兩幫兇有麻煩了

禁令沒效果?3834噸稀土偷運美國,中方出手很快,兩幫兇有麻煩了

奇思妙想生活家
2025-07-11 15:46:10
中國海警依法驅(qū)離日非法進(jìn)入我赤尾嶼領(lǐng)海船只

中國海警依法驅(qū)離日非法進(jìn)入我赤尾嶼領(lǐng)海船只

新京報
2025-07-11 18:26:08
楊少華葬禮百元禮金堆成山,親兒子差點笑出聲,送葬隊伍霸占馬路

楊少華葬禮百元禮金堆成山,親兒子差點笑出聲,送葬隊伍霸占馬路

阿芒娛樂說
2025-07-11 15:36:59
8萬紅軍改編為八路軍,只許留4.5萬,剩下3.5萬偉人做4個巧妙安排

8萬紅軍改編為八路軍,只許留4.5萬,剩下3.5萬偉人做4個巧妙安排

冰雅憶史
2025-07-10 19:29:49
莊則棟臨終前照片,最放心不下日本妻子,如今妻子的選擇令人淚目

莊則棟臨終前照片,最放心不下日本妻子,如今妻子的選擇令人淚目

不寫散文詩
2025-07-05 00:23:34
2025-07-11 19:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15399文章數(shù) 513880關(guān)注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯(lián)播鏡頭下的宋佳面相變了

財經(jīng)要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態(tài)度原創(chuàng)

手機
數(shù)碼
本地
家居
公開課

手機要聞

盧泰文談三星 2025 年折疊手機定價:愿犧牲利潤換市場

數(shù)碼要聞

影馳海外推出 RTX 5080 / 5070 Ti HOF Gaming Black Edtion 顯卡

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

家居要聞

生活憧憬 自由浪漫之境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 普兰店市| 梓潼县| 永济市| 遵化市| 麟游县| 贡山| 连州市| 密云县| 卓尼县| 石楼县| 伊川县| 宁阳县| 日土县| 堆龙德庆县| 乐昌市| 小金县| 岑巩县| 德格县| 荆州市| 桂东县| 宜君县| 益阳市| 广水市| 灵宝市| 武汉市| 老河口市| 怀远县| 日喀则市| 南雄市| 高平市| 白河县| 玉溪市| 长丰县| 屯留县| 巴塘县| 如皋市| 杂多县| 当阳市| 漾濞| 淮滨县| 清远市|