99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Grok 4號稱全球最強AI?似曾相識的“馬斯克式吹牛”

0
分享至

「這是世界上最聰明的人工智能。」

盡管比原定發(fā)布會時間推遲了近一個小時,但在今天中午(北京時間 9 月 10 日),xAI 創(chuàng)始人馬斯克還是發(fā)布了新一代大模型 Grok 4。

紙面上,Grok 4 已經(jīng)全面超越了所有競爭對手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等當前的頂級大模型,不管是傳統(tǒng)的基準測試,還是 SAT 考試(美國高考)以及各個學(xué)科的 GRE 水平測試。

但比起這些已經(jīng)有點乏味的傳統(tǒng)基準測試,更有意思的是,Grok 4 還跑了被成為「人類最后一場閉卷考試」的 Humanity’s Last Exam(簡稱 HLE 測試),并超越此前一眾模型,實現(xiàn)了最高 44.4% 的準確率。



圖/ xAI

馬斯克在直播中也指出,Grok 4 比幾乎所有學(xué)科的所有研究生都更聰明,而至少在學(xué)術(shù)問題上,也優(yōu)于所有學(xué)科的博士水平,「沒有例外。」

這還不是 Grok 4 全部潛力。按照馬斯克的說法,Grok 4 基礎(chǔ)模型的第七版將在本月完成,然后將進行后訓(xùn)練 RL(強化學(xué)習(xí))等,最終也會擁有出色的視頻理解能力和工具調(diào)用能力。按照路線圖,接下來幾個月 xAI 還會推出代碼模型、多模型智能體以及視頻生成模型。



圖/ xAI

此外,它們還推出了一項更高等級的訂閱服務(wù)——SuperGrok Heavy,能夠使用「最強模型」Grok 4 Heavy。

不過相比紙面上的無敵,在實際演示過程中,Grok 還是會出現(xiàn)比較低級的錯誤。更耐人尋味的是,就在 Grok 4 發(fā)布前幾個小時,xAI 首席科學(xué)家 Igor Babuschkin 突然宣布了辭職。

自稱“最強大模型”的Grok4,到底聰明在哪?

從技術(shù)視角出發(fā),Grok 4 并不只是一次「常規(guī)迭代」。在這場 40 多分鐘的發(fā)布直播中,xAI 試圖傳達的信息是:這不僅是一個在挑戰(zhàn)人類智能的新模型,還是一個應(yīng)用潛力巨大的 AI。

馬斯克將 Grok 4 稱為「在所有學(xué)科都超過博士水平」,并不完全是營銷夸張。在 AIME25、HMMT25、GPQA 等主流基準測試中,Grok 4 將大模型的成績進一步推向了極值,其中 Grok 4 Heavy 甚至在 AIME25(美國數(shù)學(xué)競賽邀請賽)上拿下了滿分。



圖/ xAI

但更具標志性的是 ARC-AGI 以及 HLE 測試。前者借由 OpenAI o3 的測試引起了業(yè)界重視,主要聚焦 AI 的「學(xué)習(xí)」能力,而非「技能」,Grok 4 在 v1 版本中超過 o3 實現(xiàn)了 66%的準確率,在最新的 v2 版本中更是大幅領(lǐng)先其他大模型,做到了 15.9%的準確率。

至于 HLE 測試,則代表了人類智能的極限,由全球?qū)<衣?lián)合提出 2500 個專業(yè)問題,涉及數(shù)學(xué)、生物、計算機科學(xué)、化學(xué)、物理、工程學(xué)以及人類學(xué)等等不同學(xué)科,所以直接被命名為「人類終極考試」。



圖/ xAI

在 Grok 4 之前,排名第一的模型 Gemini 2.5 Pro 準確率為 21.6%,其次是 OpenAI o3 20.3%。相比之下,Grok 4 的準確率則提高到了 25.4%,并且在借助工具的完整形態(tài)下還能進一步提高到 44.4%。

現(xiàn)場演示中,xAI 就展示了 Grok 4 對 HLE 測試中專家級題目的準確,馬斯克認為人類中也只有極少人能夠準確。而類似的問題,還有 2499 個。

除此之外,還有一個基于商業(yè)場景模擬的 Vending-Bench(自動售貨機基準測試),需要 AI 進行管理庫存、聯(lián)系供應(yīng)商、設(shè)定價格等。從測試結(jié)果來看, Grok 4 比起 Claude Opus 4 以及真人的運營效率都要高,創(chuàng)造的凈值是真人的 5 倍以上。

而在直播中,xAI 還進行了多項演示,包括實時抓取 X 平臺上的帖子,整理出各家參與 HLE 測試的時間線,或是找出 xAI 團隊中頭像最古怪的那一個。既展示了 Grok 4 的能力,也強調(diào)了與 X 平臺深度整合的優(yōu)勢。



圖/ xAI

直播中生成時間最長的一個現(xiàn)場演示,則是 Grok 4 對于 2025 年 MLB 世界大賽冠軍的分析預(yù)測,亮點主要在于它對工具、數(shù)據(jù)的使用和分析過程,包括瀏覽了很多賠率網(wǎng)站的數(shù)據(jù)來計算。而整個過程,耗時近 4 分半。

此外,Grok 4 還能遍覽關(guān)鍵論文和資料來開發(fā)一個網(wǎng)頁,模擬兩個黑洞接觸會發(fā)生的變化。馬斯克還表示,接下來他們還會為 Grok 4 提供真正的專業(yè)工具,包括物理學(xué)家使用的專業(yè)擬真軟件,并預(yù)測 Grok 4 明年或許就能發(fā)現(xiàn)新的物理定律。

這聽上去過于夸張,也缺乏實質(zhì)支撐,但馬斯克的 AI 敘事可能并不在于趕超 Google 和 OpenAI,而是要改變目標本身。而且從產(chǎn)品設(shè)計角度看,xAI 正在嘗試將 Grok 4 變成一個與信息流緊密耦合的 AI 工具,而不是一個只能回答問題的機器人。



圖/ xAI

在模型理解維度,Grok 4 還展示了對多模態(tài)輸入的部分能力。盡管現(xiàn)場沒有正式演示圖像理解和生成能力,但馬斯克強調(diào)了其「正在訓(xùn)練」。這意味著 Grok 4 的完整形態(tài)仍會是多模態(tài)大模型,而非 DeepSeek-R1 這樣僅支持文本的推理模型。

換言之,這也意味著 Grok 4 能處理更復(fù)雜的感知輸入,進一步拓展在現(xiàn)實世界的適用場景——例如人形機器人、自動駕駛、科研建模等。

值得一提的是,馬斯克在直播中提及,「Grok 4 Heavy」才是當前最強版本,在推理、編碼乃至物理學(xué)原理的理解上都勝過通用版模型。但 Heavy 版本目前仍處于內(nèi)測階段,且暫未向公眾開放。

而在 Grok 4 的發(fā)布背后,是 10 倍于 Grok 3 的訓(xùn)練算力,也是 xAI 數(shù)月前在美國孟菲斯完成部署的超算集群「Colossus」。按照透露,這套超算塞下了 10 萬張英偉達 H100 GPU,并可能率先部署 GB200 計算節(jié)點。

一次倉促的直播發(fā)布,Grok其實已麻煩纏身

如果只看模型本身,Grok 4 的確展示了不容忽視的實力。尤其在這次直播中,Grok 的語音能力也迎來了升級——不僅能夠自然地切換語調(diào),還新增了包括英式發(fā)音在內(nèi)的多個聲音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗讀詩歌。

問題也出現(xiàn)在這里。在交互中,Grok 被要求「唱一首歌」,但卻進入了「念詩」狀態(tài),用朗讀語氣念出了歌詞。雖然是個小失誤,卻暴露出語音模型背后對多模態(tài)理解尚不穩(wěn)定的事實——唱歌不只是發(fā)音,而是旋律、語調(diào)和節(jié)奏的協(xié)同輸出,Grok 顯然還沒準備好。



圖/ xAI

類似的小插曲貫穿整場發(fā)布。發(fā)布直播原定時間比計劃晚了一小時開始,沒有任何解釋。直播內(nèi)容雖然豐富,但整體節(jié)奏略顯倉促,功能展示之間缺乏過渡邏輯。一些演示明顯是預(yù)先準備好的。這種略顯倉促的節(jié)奏,與前一天高管的離職消息疊加后,難免讓人聯(lián)想到內(nèi)部的不穩(wěn)定。

就在發(fā)布當天,xAI 首席科學(xué)家 Igor Babuschkin 宣布離職,而在更早前,X 公司 CEO Linda Yaccarino 也辭去了職務(wù),并留下了一句意味深長的話:「現(xiàn)在,隨著 X 與 xAI 一起進入新篇章,最好的事情還在后頭。」

兩人一走,發(fā)布會一開,再加上馬斯克在直播中多次表達的那種對 AI「太聰明」的擔(dān)憂,構(gòu)成了一種微妙的不安感:Grok 4 也許真的很強,但它背后的組織架構(gòu)、產(chǎn)品節(jié)奏,可能并沒有準備好迎接它自己造出的「智能飛躍」。



圖/ xAI

更現(xiàn)實的問題是,Grok 4 還必須面對全世界最強的兩個對手——OpenAI 的 ChatGPT,和 Google 的 Gemini。在技術(shù)實力逐漸追平的今天,真正的分水嶺往往并不在于模型能不能答對一個考題,而在于平臺、生態(tài)和用戶。

更麻煩的是,Grok 還維持了一種「不一樣」的姿態(tài)——有性格、敢說話、更自由。這是馬斯克為它設(shè)計的人設(shè)。但也正是這種人設(shè),讓 Grok 更容易翻車。就像過去幾個月,它因為生成偏激內(nèi)容而引發(fā)輿論。

所以,這一代 Grok 4 確實很強,甚至可能已經(jīng)比研究生乃至博士更聰明。但技術(shù)領(lǐng)先不代表用戶信任,也不代表產(chǎn)品成熟,實際體驗我們還是要看模型在實際體驗中的表現(xiàn)。

馬斯克在直播中一度表示,有點擔(dān)心「AI 的智能遠遠超過人類」對于我們是好是壞,但又強調(diào)「已經(jīng)某種程度上接受了這樣的現(xiàn)實,即使它不是好的,我也至少想活著看到它發(fā)生。」

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
瓜!韓國民女神萬億豪門丈夫疑欠巨債?她積極復(fù)出帶龍鳳胎露臉拍VLOG大秀“美滿家庭”!

瓜!韓國民女神萬億豪門丈夫疑欠巨債?她積極復(fù)出帶龍鳳胎露臉拍VLOG大秀“美滿家庭”!

英國報姐
2025-07-11 21:34:47
貝爾:對收購卡迪夫城提出最新報價,希望他們能接受

貝爾:對收購卡迪夫城提出最新報價,希望他們能接受

懂球帝
2025-07-11 21:37:30
風(fēng)向徹底變了!第一批來華免簽的外國人,回國后戒斷反應(yīng)明顯

風(fēng)向徹底變了!第一批來華免簽的外國人,回國后戒斷反應(yīng)明顯

通文知史
2025-07-09 15:25:02
連幼兒園血鉛中毒的事都想壓下來,維穩(wěn)思維令人發(fā)指!

連幼兒園血鉛中毒的事都想壓下來,維穩(wěn)思維令人發(fā)指!

基本常識
2025-07-08 07:55:59
畢業(yè)于日本早稻田大學(xué)的朝鮮南方派游擊將領(lǐng)金應(yīng)彬,1953年被清洗

畢業(yè)于日本早稻田大學(xué)的朝鮮南方派游擊將領(lǐng)金應(yīng)彬,1953年被清洗

阿器談史
2025-05-12 07:04:40
江西婺源縣城市管理局原黨組書記、局長李五兆主動向組織交代問題!

江西婺源縣城市管理局原黨組書記、局長李五兆主動向組織交代問題!

極目新聞
2025-07-12 10:24:54
父母走了之后,兄弟姐妹相處,一定要留“四個心眼”

父母走了之后,兄弟姐妹相處,一定要留“四個心眼”

布衣粗食68
2025-07-12 09:38:03
市委書記跨省晉升,交通部總規(guī)劃師“空降”地方!省級政府領(lǐng)導(dǎo)班子密集調(diào)整

市委書記跨省晉升,交通部總規(guī)劃師“空降”地方!省級政府領(lǐng)導(dǎo)班子密集調(diào)整

上觀新聞
2025-07-11 11:38:31
俄羅斯完全撕破臉,拒絕投降必死!高超導(dǎo)彈洗地,軍列都被炸飛

俄羅斯完全撕破臉,拒絕投降必死!高超導(dǎo)彈洗地,軍列都被炸飛

深藍航跡
2025-07-09 13:00:10
世俱杯金球獎賠率:維蒂尼亞超低賠率領(lǐng)跑,恩佐第4

世俱杯金球獎賠率:維蒂尼亞超低賠率領(lǐng)跑,恩佐第4

懂球帝
2025-07-11 14:34:07
他14歲考入武大,34歲出軌許晴,賣書掙兩個多億,54歲在日本去世

他14歲考入武大,34歲出軌許晴,賣書掙兩個多億,54歲在日本去世

霹靂炮
2025-06-14 00:00:33
亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

談史論天地
2025-07-02 20:45:03
別再罵楊議不孝了,如果不是他老婆,99%的人沒注意到這些細節(jié)!

別再罵楊議不孝了,如果不是他老婆,99%的人沒注意到這些細節(jié)!

二月侃事
2025-07-11 13:32:18
朱德怒批楊成武不經(jīng)請示向敵艦開火,楊:軍法處置我,也要打他們

朱德怒批楊成武不經(jīng)請示向敵艦開火,楊:軍法處置我,也要打他們

冰語歷史
2025-07-11 16:23:39
美國欲加快建設(shè)稀土供應(yīng)鏈,懷俄明州布魯克稀土項目正式啟動

美國欲加快建設(shè)稀土供應(yīng)鏈,懷俄明州布魯克稀土項目正式啟動

財聯(lián)社
2025-07-11 20:46:13
國家窮得連飯都吃不起,卻把兵力部署在靠近中國邊境,搞事情啊?

國家窮得連飯都吃不起,卻把兵力部署在靠近中國邊境,搞事情啊?

侃侃兒談
2025-07-03 08:00:59
分手后境遇天壤之別!李月汝在WNBA打首發(fā),前男友打NBL場均3+2

分手后境遇天壤之別!李月汝在WNBA打首發(fā),前男友打NBL場均3+2

弄月公子
2025-07-11 07:52:58
孫宏斌上岸:680 億債消的背后,他是怎么做到的?

孫宏斌上岸:680 億債消的背后,他是怎么做到的?

火土輕創(chuàng)業(yè)
2025-07-05 10:00:08
曼聯(lián)官宣球衣號碼變更,小妖穿特維斯背號!庫尼亞談10號球員責(zé)任

曼聯(lián)官宣球衣號碼變更,小妖穿特維斯背號!庫尼亞談10號球員責(zé)任

羅米的曼聯(lián)博客
2025-07-12 10:04:14
尺度驚艷,這部R級神作太震撼了

尺度驚艷,這部R級神作太震撼了

天天美劇吧
2025-06-14 10:42:32
2025-07-12 11:31:00
雷科技 incentive-icons
雷科技
專注AI硬科技
33704文章數(shù) 811081關(guān)注度
往期回顧 全部

科技要聞

黃仁勛警示AI風(fēng)險:沒新想法,就集體失業(yè)

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

頭條要聞

牛彈琴:越南或在最后一刻遭特朗普暗算 十分失望憤怒

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

王晶曝張國榮自殺原因 抑郁癥只是其一

財經(jīng)要聞

中國超半數(shù)城市人口下滑,什么信號?

汽車要聞

小米YU7深度試駕:優(yōu)點很多缺點也很多

態(tài)度原創(chuàng)

旅游
健康
房產(chǎn)
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國防部承認美空軍基地在6月被伊朗導(dǎo)彈擊中

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 东乌珠穆沁旗| 宜章县| 洞头县| 夏津县| 宁蒗| 开化县| 正阳县| 宁城县| 永和县| 兴国县| 壤塘县| 吉木萨尔县| 米林县| 垦利县| 邵东县| 仲巴县| 台北市| 泊头市| 洪洞县| 连山| 五寨县| 西乌珠穆沁旗| 龙川县| 台山市| 乐山市| 景宁| 精河县| 科尔| 阿瓦提县| 德钦县| 普安县| 南江县| 陆丰市| 浙江省| 彰武县| 丰顺县| 原阳县| 谢通门县| 潼南县| 乐平市| 金寨县|