99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Grok 4號(hào)稱全球最強(qiáng)AI?似曾相識(shí)的“馬斯克式吹牛”

0
分享至

「這是世界上最聰明的人工智能。」

盡管比原定發(fā)布會(huì)時(shí)間推遲了近一個(gè)小時(shí),但在今天中午(北京時(shí)間 9 月 10 日),xAI 創(chuàng)始人馬斯克還是發(fā)布了新一代大模型 Grok 4。

紙面上,Grok 4 已經(jīng)全面超越了所有競(jìng)爭(zhēng)對(duì)手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等當(dāng)前的頂級(jí)大模型,不管是傳統(tǒng)的基準(zhǔn)測(cè)試,還是 SAT 考試(美國(guó)高考)以及各個(gè)學(xué)科的 GRE 水平測(cè)試。

但比起這些已經(jīng)有點(diǎn)乏味的傳統(tǒng)基準(zhǔn)測(cè)試,更有意思的是,Grok 4 還跑了被成為「人類最后一場(chǎng)閉卷考試」的 Humanity’s Last Exam(簡(jiǎn)稱 HLE 測(cè)試),并超越此前一眾模型,實(shí)現(xiàn)了最高 44.4% 的準(zhǔn)確率。



圖/ xAI

馬斯克在直播中也指出,Grok 4 比幾乎所有學(xué)科的所有研究生都更聰明,而至少在學(xué)術(shù)問(wèn)題上,也優(yōu)于所有學(xué)科的博士水平,「沒(méi)有例外。」

這還不是 Grok 4 全部潛力。按照馬斯克的說(shuō)法,Grok 4 基礎(chǔ)模型的第七版將在本月完成,然后將進(jìn)行后訓(xùn)練 RL(強(qiáng)化學(xué)習(xí))等,最終也會(huì)擁有出色的視頻理解能力和工具調(diào)用能力。按照路線圖,接下來(lái)幾個(gè)月 xAI 還會(huì)推出代碼模型、多模型智能體以及視頻生成模型。



圖/ xAI

此外,它們還推出了一項(xiàng)更高等級(jí)的訂閱服務(wù)——SuperGrok Heavy,能夠使用「最強(qiáng)模型」Grok 4 Heavy。

不過(guò)相比紙面上的無(wú)敵,在實(shí)際演示過(guò)程中,Grok 還是會(huì)出現(xiàn)比較低級(jí)的錯(cuò)誤。更耐人尋味的是,就在 Grok 4 發(fā)布前幾個(gè)小時(shí),xAI 首席科學(xué)家 Igor Babuschkin 突然宣布了辭職。

自稱“最強(qiáng)大模型”的Grok4,到底聰明在哪?

從技術(shù)視角出發(fā),Grok 4 并不只是一次「常規(guī)迭代」。在這場(chǎng) 40 多分鐘的發(fā)布直播中,xAI 試圖傳達(dá)的信息是:這不僅是一個(gè)在挑戰(zhàn)人類智能的新模型,還是一個(gè)應(yīng)用潛力巨大的 AI。

馬斯克將 Grok 4 稱為「在所有學(xué)科都超過(guò)博士水平」,并不完全是營(yíng)銷夸張。在 AIME25、HMMT25、GPQA 等主流基準(zhǔn)測(cè)試中,Grok 4 將大模型的成績(jī)進(jìn)一步推向了極值,其中 Grok 4 Heavy 甚至在 AIME25(美國(guó)數(shù)學(xué)競(jìng)賽邀請(qǐng)賽)上拿下了滿分。



圖/ xAI

但更具標(biāo)志性的是 ARC-AGI 以及 HLE 測(cè)試。前者借由 OpenAI o3 的測(cè)試引起了業(yè)界重視,主要聚焦 AI 的「學(xué)習(xí)」能力,而非「技能」,Grok 4 在 v1 版本中超過(guò) o3 實(shí)現(xiàn)了 66%的準(zhǔn)確率,在最新的 v2 版本中更是大幅領(lǐng)先其他大模型,做到了 15.9%的準(zhǔn)確率。

至于 HLE 測(cè)試,則代表了人類智能的極限,由全球?qū)<衣?lián)合提出 2500 個(gè)專業(yè)問(wèn)題,涉及數(shù)學(xué)、生物、計(jì)算機(jī)科學(xué)、化學(xué)、物理、工程學(xué)以及人類學(xué)等等不同學(xué)科,所以直接被命名為「人類終極考試」。



圖/ xAI

在 Grok 4 之前,排名第一的模型 Gemini 2.5 Pro 準(zhǔn)確率為 21.6%,其次是 OpenAI o3 20.3%。相比之下,Grok 4 的準(zhǔn)確率則提高到了 25.4%,并且在借助工具的完整形態(tài)下還能進(jìn)一步提高到 44.4%。

現(xiàn)場(chǎng)演示中,xAI 就展示了 Grok 4 對(duì) HLE 測(cè)試中專家級(jí)題目的準(zhǔn)確,馬斯克認(rèn)為人類中也只有極少人能夠準(zhǔn)確。而類似的問(wèn)題,還有 2499 個(gè)。

除此之外,還有一個(gè)基于商業(yè)場(chǎng)景模擬的 Vending-Bench(自動(dòng)售貨機(jī)基準(zhǔn)測(cè)試),需要 AI 進(jìn)行管理庫(kù)存、聯(lián)系供應(yīng)商、設(shè)定價(jià)格等。從測(cè)試結(jié)果來(lái)看, Grok 4 比起 Claude Opus 4 以及真人的運(yùn)營(yíng)效率都要高,創(chuàng)造的凈值是真人的 5 倍以上。

而在直播中,xAI 還進(jìn)行了多項(xiàng)演示,包括實(shí)時(shí)抓取 X 平臺(tái)上的帖子,整理出各家參與 HLE 測(cè)試的時(shí)間線,或是找出 xAI 團(tuán)隊(duì)中頭像最古怪的那一個(gè)。既展示了 Grok 4 的能力,也強(qiáng)調(diào)了與 X 平臺(tái)深度整合的優(yōu)勢(shì)。



圖/ xAI

直播中生成時(shí)間最長(zhǎng)的一個(gè)現(xiàn)場(chǎng)演示,則是 Grok 4 對(duì)于 2025 年 MLB 世界大賽冠軍的分析預(yù)測(cè),亮點(diǎn)主要在于它對(duì)工具、數(shù)據(jù)的使用和分析過(guò)程,包括瀏覽了很多賠率網(wǎng)站的數(shù)據(jù)來(lái)計(jì)算。而整個(gè)過(guò)程,耗時(shí)近 4 分半。

此外,Grok 4 還能遍覽關(guān)鍵論文和資料來(lái)開發(fā)一個(gè)網(wǎng)頁(yè),模擬兩個(gè)黑洞接觸會(huì)發(fā)生的變化。馬斯克還表示,接下來(lái)他們還會(huì)為 Grok 4 提供真正的專業(yè)工具,包括物理學(xué)家使用的專業(yè)擬真軟件,并預(yù)測(cè) Grok 4 明年或許就能發(fā)現(xiàn)新的物理定律。

這聽(tīng)上去過(guò)于夸張,也缺乏實(shí)質(zhì)支撐,但馬斯克的 AI 敘事可能并不在于趕超 Google 和 OpenAI,而是要改變目標(biāo)本身。而且從產(chǎn)品設(shè)計(jì)角度看,xAI 正在嘗試將 Grok 4 變成一個(gè)與信息流緊密耦合的 AI 工具,而不是一個(gè)只能回答問(wèn)題的機(jī)器人。



圖/ xAI

在模型理解維度,Grok 4 還展示了對(duì)多模態(tài)輸入的部分能力。盡管現(xiàn)場(chǎng)沒(méi)有正式演示圖像理解和生成能力,但馬斯克強(qiáng)調(diào)了其「正在訓(xùn)練」。這意味著 Grok 4 的完整形態(tài)仍會(huì)是多模態(tài)大模型,而非 DeepSeek-R1 這樣僅支持文本的推理模型。

換言之,這也意味著 Grok 4 能處理更復(fù)雜的感知輸入,進(jìn)一步拓展在現(xiàn)實(shí)世界的適用場(chǎng)景——例如人形機(jī)器人、自動(dòng)駕駛、科研建模等。

值得一提的是,馬斯克在直播中提及,「Grok 4 Heavy」才是當(dāng)前最強(qiáng)版本,在推理、編碼乃至物理學(xué)原理的理解上都勝過(guò)通用版模型。但 Heavy 版本目前仍處于內(nèi)測(cè)階段,且暫未向公眾開放。

而在 Grok 4 的發(fā)布背后,是 10 倍于 Grok 3 的訓(xùn)練算力,也是 xAI 數(shù)月前在美國(guó)孟菲斯完成部署的超算集群「Colossus」。按照透露,這套超算塞下了 10 萬(wàn)張英偉達(dá) H100 GPU,并可能率先部署 GB200 計(jì)算節(jié)點(diǎn)。

一次倉(cāng)促的直播發(fā)布,Grok其實(shí)已麻煩纏身

如果只看模型本身,Grok 4 的確展示了不容忽視的實(shí)力。尤其在這次直播中,Grok 的語(yǔ)音能力也迎來(lái)了升級(jí)——不僅能夠自然地切換語(yǔ)調(diào),還新增了包括英式發(fā)音在內(nèi)的多個(gè)聲音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗讀詩(shī)歌。

問(wèn)題也出現(xiàn)在這里。在交互中,Grok 被要求「唱一首歌」,但卻進(jìn)入了「念詩(shī)」?fàn)顟B(tài),用朗讀語(yǔ)氣念出了歌詞。雖然是個(gè)小失誤,卻暴露出語(yǔ)音模型背后對(duì)多模態(tài)理解尚不穩(wěn)定的事實(shí)——唱歌不只是發(fā)音,而是旋律、語(yǔ)調(diào)和節(jié)奏的協(xié)同輸出,Grok 顯然還沒(méi)準(zhǔn)備好。



圖/ xAI

類似的小插曲貫穿整場(chǎng)發(fā)布。發(fā)布直播原定時(shí)間比計(jì)劃晚了一小時(shí)開始,沒(méi)有任何解釋。直播內(nèi)容雖然豐富,但整體節(jié)奏略顯倉(cāng)促,功能展示之間缺乏過(guò)渡邏輯。一些演示明顯是預(yù)先準(zhǔn)備好的。這種略顯倉(cāng)促的節(jié)奏,與前一天高管的離職消息疊加后,難免讓人聯(lián)想到內(nèi)部的不穩(wěn)定。

就在發(fā)布當(dāng)天,xAI 首席科學(xué)家 Igor Babuschkin 宣布離職,而在更早前,X 公司 CEO Linda Yaccarino 也辭去了職務(wù),并留下了一句意味深長(zhǎng)的話:「現(xiàn)在,隨著 X 與 xAI 一起進(jìn)入新篇章,最好的事情還在后頭。」

兩人一走,發(fā)布會(huì)一開,再加上馬斯克在直播中多次表達(dá)的那種對(duì) AI「太聰明」的擔(dān)憂,構(gòu)成了一種微妙的不安感:Grok 4 也許真的很強(qiáng),但它背后的組織架構(gòu)、產(chǎn)品節(jié)奏,可能并沒(méi)有準(zhǔn)備好迎接它自己造出的「智能飛躍」。



圖/ xAI

更現(xiàn)實(shí)的問(wèn)題是,Grok 4 還必須面對(duì)全世界最強(qiáng)的兩個(gè)對(duì)手——OpenAI 的 ChatGPT,和 Google 的 Gemini。在技術(shù)實(shí)力逐漸追平的今天,真正的分水嶺往往并不在于模型能不能答對(duì)一個(gè)考題,而在于平臺(tái)、生態(tài)和用戶。

更麻煩的是,Grok 還維持了一種「不一樣」的姿態(tài)——有性格、敢說(shuō)話、更自由。這是馬斯克為它設(shè)計(jì)的人設(shè)。但也正是這種人設(shè),讓 Grok 更容易翻車。就像過(guò)去幾個(gè)月,它因?yàn)樯善?nèi)容而引發(fā)輿論。

所以,這一代 Grok 4 確實(shí)很強(qiáng),甚至可能已經(jīng)比研究生乃至博士更聰明。但技術(shù)領(lǐng)先不代表用戶信任,也不代表產(chǎn)品成熟,實(shí)際體驗(yàn)我們還是要看模型在實(shí)際體驗(yàn)中的表現(xiàn)。

馬斯克在直播中一度表示,有點(diǎn)擔(dān)心「AI 的智能遠(yuǎn)遠(yuǎn)超過(guò)人類」對(duì)于我們是好是壞,但又強(qiáng)調(diào)「已經(jīng)某種程度上接受了這樣的現(xiàn)實(shí),即使它不是好的,我也至少想活著看到它發(fā)生。」

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
江蘇狀元被火箭軍大學(xué)錄取!軍裝領(lǐng)導(dǎo)送通知書,母親露面惹人心酸

江蘇狀元被火箭軍大學(xué)錄取!軍裝領(lǐng)導(dǎo)送通知書,母親露面惹人心酸

安珈使者啊
2025-07-11 21:16:47
試用期剛過(guò)半年,黃裕東任上被查

試用期剛過(guò)半年,黃裕東任上被查

政知新媒體
2025-07-11 14:31:45
楊少華去世一天,丑事接連發(fā)生!兒子紅衣奔喪,愛(ài)徒酒后大鬧靈堂

楊少華去世一天,丑事接連發(fā)生!兒子紅衣奔喪,愛(ài)徒酒后大鬧靈堂

小影的娛樂(lè)
2025-07-11 13:05:19
杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

杜蘭特屈居第3!美媒曬NBA歷史得分手TOP20:麥迪12歐文6科比第二

鍋?zhàn)踊@球
2025-07-11 16:42:46
笑死!全國(guó)高溫來(lái)襲,上海游客竟被甘肅的“漿水面”死死拿捏了

笑死!全國(guó)高溫來(lái)襲,上海游客竟被甘肅的“漿水面”死死拿捏了

八斗小先生
2025-07-11 09:45:52
剽竊敗露!若韓國(guó)15號(hào)前再拿不出申遺證據(jù),就丟臉到全世界了!

剽竊敗露!若韓國(guó)15號(hào)前再拿不出申遺證據(jù),就丟臉到全世界了!

青青子衿
2025-07-11 21:15:11
富保羅告知東契奇經(jīng)紀(jì)人 聲明不代表詹姆斯對(duì)與東契奇共事的感想

富保羅告知東契奇經(jīng)紀(jì)人 聲明不代表詹姆斯對(duì)與東契奇共事的感想

直播吧
2025-07-12 01:30:13
楊少華葬禮百元禮金堆成山,親兒子差點(diǎn)笑出聲,送葬隊(duì)伍霸占馬路

楊少華葬禮百元禮金堆成山,親兒子差點(diǎn)笑出聲,送葬隊(duì)伍霸占馬路

阿芒娛樂(lè)說(shuō)
2025-07-11 15:36:59
我爸59歲鬧離婚,我媽秒答應(yīng),走出民政局我媽催:趕緊收拾東西走

我爸59歲鬧離婚,我媽秒答應(yīng),走出民政局我媽催:趕緊收拾東西走

詭譎怪談
2025-07-11 07:20:14
蘋果華為為何賣的貴!重慶市原市長(zhǎng)黃奇帆:1部6千元手機(jī)一半是知產(chǎn)和芯片

蘋果華為為何賣的貴!重慶市原市長(zhǎng)黃奇帆:1部6千元手機(jī)一半是知產(chǎn)和芯片

快科技
2025-07-11 09:13:05
火記:杰夫-格林放棄了交易否決權(quán) 最早12月15日可被交易

火記:杰夫-格林放棄了交易否決權(quán) 最早12月15日可被交易

直播吧
2025-07-12 01:30:13
2025高考錄取:清華已跌落神壇,公費(fèi)師范生殺瘋了,985大學(xué)爆冷

2025高考錄取:清華已跌落神壇,公費(fèi)師范生殺瘋了,985大學(xué)爆冷

界史
2025-07-10 16:04:02
二次登陸!大暴雨!確認(rèn)影響江蘇

二次登陸!大暴雨!確認(rèn)影響江蘇

朗威談星座
2025-07-12 04:20:09
無(wú)解!交易正式達(dá)成,NBA最強(qiáng)五巨頭豪陣誕生,西部大結(jié)局了

無(wú)解!交易正式達(dá)成,NBA最強(qiáng)五巨頭豪陣誕生,西部大結(jié)局了

安徽紅蜻蜓雜志社
2025-07-11 22:29:04
直20突擊型正面照曝光,掛上導(dǎo)彈氣質(zhì)都上來(lái)了

直20突擊型正面照曝光,掛上導(dǎo)彈氣質(zhì)都上來(lái)了

三叔的裝備空間
2025-07-11 20:07:53
陳剛:如果有領(lǐng)導(dǎo)干部在生態(tài)環(huán)保問(wèn)題上為企業(yè)說(shuō)情打招呼、開后門,一律從嚴(yán)從重處理

陳剛:如果有領(lǐng)導(dǎo)干部在生態(tài)環(huán)保問(wèn)題上為企業(yè)說(shuō)情打招呼、開后門,一律從嚴(yán)從重處理

政知新媒體
2025-07-11 21:45:48
幼兒園鉛中毒案,我能回答所有疑點(diǎn)

幼兒園鉛中毒案,我能回答所有疑點(diǎn)

基本常識(shí)
2025-07-11 18:41:32
突發(fā)!馬斯克確認(rèn)公布蘿莉島細(xì)節(jié),內(nèi)容炸裂遭美國(guó)官方否認(rèn)

突發(fā)!馬斯克確認(rèn)公布蘿莉島細(xì)節(jié),內(nèi)容炸裂遭美國(guó)官方否認(rèn)

宇哥看世界ii
2025-07-12 01:05:16
中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺(tái)表述大變

中方改口了,不許胡塞襲擊西方船,話音剛落,以色列涉臺(tái)表述大變

影孖看世界
2025-07-11 23:37:21
美聯(lián)儲(chǔ)終于降息救市!今日晚間的四大消息沖擊來(lái)襲(7.11)!

美聯(lián)儲(chǔ)終于降息救市!今日晚間的四大消息沖擊來(lái)襲(7.11)!

趣味萌寵的日常
2025-07-12 00:38:42
2025-07-12 07:19:00
雷科技 incentive-icons
雷科技
專注AI硬科技
33707文章數(shù) 811082關(guān)注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機(jī)器人第一股"

頭條要聞

王毅會(huì)見(jiàn)魯比奧后 魯比奧就"中美領(lǐng)導(dǎo)人會(huì)面"表態(tài)

頭條要聞

王毅會(huì)見(jiàn)魯比奧后 魯比奧就"中美領(lǐng)導(dǎo)人會(huì)面"表態(tài)

體育要聞

從無(wú)畏金蘭到薪火相傳,中國(guó)女籃新的花期來(lái)了

娛樂(lè)要聞

新聞聯(lián)播鏡頭下的宋佳面相變了

財(cái)經(jīng)要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態(tài)度原創(chuàng)

時(shí)尚
游戲
數(shù)碼
健康
藝術(shù)

T恤+高腰下裝=顯瘦天花板,比"露奶衫"高級(jí)100倍!

大佬《異端先知》樂(lè)高模型獲認(rèn)可 尼爾:給我也來(lái)個(gè)

數(shù)碼要聞

BW 2025現(xiàn)場(chǎng)直擊 | 銘瑄首秀引爆次元狂歡

呼吸科專家破解呼吸道九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 赤水市| 陆川县| 永仁县| 同江市| 邵阳市| 烟台市| 青浦区| 株洲县| 东海县| 金湖县| 游戏| 天镇县| 厦门市| 盘锦市| 新闻| 雷州市| 高青县| 涟源市| 保靖县| 台中县| 石嘴山市| 哈尔滨市| 彰武县| 靖边县| 尚义县| 岳西县| 花垣县| 乐至县| 手机| 高平市| 伊春市| 长泰县| 定陶县| 名山县| 双柏县| 旬邑县| 赞皇县| 宣化县| 陵川县| 顺义区| 延庆县|