99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Grok 4號稱全球最強AI?似曾相識的“馬斯克式吹牛”

0
分享至

「這是世界上最聰明的人工智能。」

盡管比原定發布會時間推遲了近一個小時,但在今天中午(北京時間 9 月 10 日),xAI 創始人馬斯克還是發布了新一代大模型 Grok 4。

紙面上,Grok 4 已經全面超越了所有競爭對手,包括 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等當前的頂級大模型,不管是傳統的基準測試,還是 SAT 考試(美國高考)以及各個學科的 GRE 水平測試。

但比起這些已經有點乏味的傳統基準測試,更有意思的是,Grok 4 還跑了被成為「人類最后一場閉卷考試」的 Humanity’s Last Exam(簡稱 HLE 測試),并超越此前一眾模型,實現了最高 44.4% 的準確率。



圖/ xAI

馬斯克在直播中也指出,Grok 4 比幾乎所有學科的所有研究生都更聰明,而至少在學術問題上,也優于所有學科的博士水平,「沒有例外。」

這還不是 Grok 4 全部潛力。按照馬斯克的說法,Grok 4 基礎模型的第七版將在本月完成,然后將進行后訓練 RL(強化學習)等,最終也會擁有出色的視頻理解能力和工具調用能力。按照路線圖,接下來幾個月 xAI 還會推出代碼模型、多模型智能體以及視頻生成模型。



圖/ xAI

此外,它們還推出了一項更高等級的訂閱服務——SuperGrok Heavy,能夠使用「最強模型」Grok 4 Heavy。

不過相比紙面上的無敵,在實際演示過程中,Grok 還是會出現比較低級的錯誤。更耐人尋味的是,就在 Grok 4 發布前幾個小時,xAI 首席科學家 Igor Babuschkin 突然宣布了辭職。

自稱“最強大模型”的Grok4,到底聰明在哪?

從技術視角出發,Grok 4 并不只是一次「常規迭代」。在這場 40 多分鐘的發布直播中,xAI 試圖傳達的信息是:這不僅是一個在挑戰人類智能的新模型,還是一個應用潛力巨大的 AI。

馬斯克將 Grok 4 稱為「在所有學科都超過博士水平」,并不完全是營銷夸張。在 AIME25、HMMT25、GPQA 等主流基準測試中,Grok 4 將大模型的成績進一步推向了極值,其中 Grok 4 Heavy 甚至在 AIME25(美國數學競賽邀請賽)上拿下了滿分。



圖/ xAI

但更具標志性的是 ARC-AGI 以及 HLE 測試。前者借由 OpenAI o3 的測試引起了業界重視,主要聚焦 AI 的「學習」能力,而非「技能」,Grok 4 在 v1 版本中超過 o3 實現了 66%的準確率,在最新的 v2 版本中更是大幅領先其他大模型,做到了 15.9%的準確率。

至于 HLE 測試,則代表了人類智能的極限,由全球專家聯合提出 2500 個專業問題,涉及數學、生物、計算機科學、化學、物理、工程學以及人類學等等不同學科,所以直接被命名為「人類終極考試」。



圖/ xAI

在 Grok 4 之前,排名第一的模型 Gemini 2.5 Pro 準確率為 21.6%,其次是 OpenAI o3 20.3%。相比之下,Grok 4 的準確率則提高到了 25.4%,并且在借助工具的完整形態下還能進一步提高到 44.4%。

現場演示中,xAI 就展示了 Grok 4 對 HLE 測試中專家級題目的準確,馬斯克認為人類中也只有極少人能夠準確。而類似的問題,還有 2499 個。

除此之外,還有一個基于商業場景模擬的 Vending-Bench(自動售貨機基準測試),需要 AI 進行管理庫存、聯系供應商、設定價格等。從測試結果來看, Grok 4 比起 Claude Opus 4 以及真人的運營效率都要高,創造的凈值是真人的 5 倍以上。

而在直播中,xAI 還進行了多項演示,包括實時抓取 X 平臺上的帖子,整理出各家參與 HLE 測試的時間線,或是找出 xAI 團隊中頭像最古怪的那一個。既展示了 Grok 4 的能力,也強調了與 X 平臺深度整合的優勢。



圖/ xAI

直播中生成時間最長的一個現場演示,則是 Grok 4 對于 2025 年 MLB 世界大賽冠軍的分析預測,亮點主要在于它對工具、數據的使用和分析過程,包括瀏覽了很多賠率網站的數據來計算。而整個過程,耗時近 4 分半。

此外,Grok 4 還能遍覽關鍵論文和資料來開發一個網頁,模擬兩個黑洞接觸會發生的變化。馬斯克還表示,接下來他們還會為 Grok 4 提供真正的專業工具,包括物理學家使用的專業擬真軟件,并預測 Grok 4 明年或許就能發現新的物理定律。

這聽上去過于夸張,也缺乏實質支撐,但馬斯克的 AI 敘事可能并不在于趕超 Google 和 OpenAI,而是要改變目標本身。而且從產品設計角度看,xAI 正在嘗試將 Grok 4 變成一個與信息流緊密耦合的 AI 工具,而不是一個只能回答問題的機器人。



圖/ xAI

在模型理解維度,Grok 4 還展示了對多模態輸入的部分能力。盡管現場沒有正式演示圖像理解和生成能力,但馬斯克強調了其「正在訓練」。這意味著 Grok 4 的完整形態仍會是多模態大模型,而非 DeepSeek-R1 這樣僅支持文本的推理模型。

換言之,這也意味著 Grok 4 能處理更復雜的感知輸入,進一步拓展在現實世界的適用場景——例如人形機器人、自動駕駛、科研建模等。

值得一提的是,馬斯克在直播中提及,「Grok 4 Heavy」才是當前最強版本,在推理、編碼乃至物理學原理的理解上都勝過通用版模型。但 Heavy 版本目前仍處于內測階段,且暫未向公眾開放。

而在 Grok 4 的發布背后,是 10 倍于 Grok 3 的訓練算力,也是 xAI 數月前在美國孟菲斯完成部署的超算集群「Colossus」。按照透露,這套超算塞下了 10 萬張英偉達 H100 GPU,并可能率先部署 GB200 計算節點。

一次倉促的直播發布,Grok其實已麻煩纏身

如果只看模型本身,Grok 4 的確展示了不容忽視的實力。尤其在這次直播中,Grok 的語音能力也迎來了升級——不僅能夠自然地切換語調,還新增了包括英式發音在內的多個聲音角色。xAI 甚至展示了 Grok 可以「唱歌」,并在指令下朗讀詩歌。

問題也出現在這里。在交互中,Grok 被要求「唱一首歌」,但卻進入了「念詩」狀態,用朗讀語氣念出了歌詞。雖然是個小失誤,卻暴露出語音模型背后對多模態理解尚不穩定的事實——唱歌不只是發音,而是旋律、語調和節奏的協同輸出,Grok 顯然還沒準備好。



圖/ xAI

類似的小插曲貫穿整場發布。發布直播原定時間比計劃晚了一小時開始,沒有任何解釋。直播內容雖然豐富,但整體節奏略顯倉促,功能展示之間缺乏過渡邏輯。一些演示明顯是預先準備好的。這種略顯倉促的節奏,與前一天高管的離職消息疊加后,難免讓人聯想到內部的不穩定。

就在發布當天,xAI 首席科學家 Igor Babuschkin 宣布離職,而在更早前,X 公司 CEO Linda Yaccarino 也辭去了職務,并留下了一句意味深長的話:「現在,隨著 X 與 xAI 一起進入新篇章,最好的事情還在后頭。」

兩人一走,發布會一開,再加上馬斯克在直播中多次表達的那種對 AI「太聰明」的擔憂,構成了一種微妙的不安感:Grok 4 也許真的很強,但它背后的組織架構、產品節奏,可能并沒有準備好迎接它自己造出的「智能飛躍」。



圖/ xAI

更現實的問題是,Grok 4 還必須面對全世界最強的兩個對手——OpenAI 的 ChatGPT,和 Google 的 Gemini。在技術實力逐漸追平的今天,真正的分水嶺往往并不在于模型能不能答對一個考題,而在于平臺、生態和用戶。

更麻煩的是,Grok 還維持了一種「不一樣」的姿態——有性格、敢說話、更自由。這是馬斯克為它設計的人設。但也正是這種人設,讓 Grok 更容易翻車。就像過去幾個月,它因為生成偏激內容而引發輿論。

所以,這一代 Grok 4 確實很強,甚至可能已經比研究生乃至博士更聰明。但技術領先不代表用戶信任,也不代表產品成熟,實際體驗我們還是要看模型在實際體驗中的表現。

馬斯克在直播中一度表示,有點擔心「AI 的智能遠遠超過人類」對于我們是好是壞,但又強調「已經某種程度上接受了這樣的現實,即使它不是好的,我也至少想活著看到它發生。」

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
82年我偷200塊給女同桌父親治病,10年后我去相親,被她父親攔下

82年我偷200塊給女同桌父親治病,10年后我去相親,被她父親攔下

蕭竹輕語
2025-07-04 20:16:36
WTT大滿貫再爆冷門,國乒勁敵出局,王藝迪強勢,兩新星爆發

WTT大滿貫再爆冷門,國乒勁敵出局,王藝迪強勢,兩新星爆發

浪子阿邴聊體育
2025-07-10 09:40:16
錢是最好的解藥?趙本山女兒回應抑郁癥復發:老公送了北京一套房

錢是最好的解藥?趙本山女兒回應抑郁癥復發:老公送了北京一套房

山河月明史
2025-07-11 01:55:03
越南倒向美國!45項中越合作被擱置,專家:中方或將成最大贏家

越南倒向美國!45項中越合作被擱置,專家:中方或將成最大贏家

靚仔情感
2025-07-11 02:02:17
《18禁》女星靠絕頂身材爆紅 曾想縮胸遭母勸阻:莫要后悔

《18禁》女星靠絕頂身材爆紅 曾想縮胸遭母勸阻:莫要后悔

妮妮玩不夠
2025-07-09 06:20:38
記者:扎卡對滕哈格感到失望,將與高層討論未來

記者:扎卡對滕哈格感到失望,將與高層討論未來

懂球帝
2025-07-10 07:53:24
紀委強調:公務員醉駕不再一律“雙開”,這3類情節可不追刑責

紀委強調:公務員醉駕不再一律“雙開”,這3類情節可不追刑責

細說職場
2025-07-10 06:55:06
新華視點|綠色能源·低空經濟·田間“速遞”——經濟新動能一線觀察

新華視點|綠色能源·低空經濟·田間“速遞”——經濟新動能一線觀察

新華社
2025-07-09 15:07:14
國乒大冷門!王曼昱連輸2局,4-0領先被轟11-2,前世界第1沖8強!

國乒大冷門!王曼昱連輸2局,4-0領先被轟11-2,前世界第1沖8強!

劉姚堯的文字城堡
2025-07-11 04:42:25
浙江女富豪主動投案!丈夫、兒子已入加拿大國籍

浙江女富豪主動投案!丈夫、兒子已入加拿大國籍

魯中晨報
2025-07-10 22:36:32
楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

楊少華吊唁現場突發意外,前央視導演靈前失控,找楊議解決恩怨

界史
2025-07-10 10:01:33
35歲美女作家周婉京在日自殺,警方回應,遺言:做鬼也不放過你們

35歲美女作家周婉京在日自殺,警方回應,遺言:做鬼也不放過你們

博士觀察
2025-07-10 20:59:53
民企老板被錯關212天:申請千萬元國家賠償,法院決定賠償十五萬

民企老板被錯關212天:申請千萬元國家賠償,法院決定賠償十五萬

澎湃新聞
2025-07-10 17:36:26
亞馬爾做客天下足球收到折扇,女球迷教亞馬爾用中文念小孩哥

亞馬爾做客天下足球收到折扇,女球迷教亞馬爾用中文念小孩哥

直播吧
2025-07-10 14:41:41
殲-10擊落誘餌后一飛機墜毀,未發現陣風被擊落

殲-10擊落誘餌后一飛機墜毀,未發現陣風被擊落

觀察者小海風
2025-07-10 16:43:56
《哪吒2》卷土重來!8月22日重映,楊紫瓊加盟:很榮幸能夠參與

《哪吒2》卷土重來!8月22日重映,楊紫瓊加盟:很榮幸能夠參與

光影新天地
2025-07-10 10:38:40
沈敏已任上海市第十一批援藏干部聯絡組組長

沈敏已任上海市第十一批援藏干部聯絡組組長

上觀新聞
2025-07-11 00:07:02
中紀委打下今年第34“虎”,武漢原市長周先旺被查!正部級蔣超良4個月前落馬

中紀委打下今年第34“虎”,武漢原市長周先旺被查!正部級蔣超良4個月前落馬

上觀新聞
2025-07-08 13:59:14
再次釋放出申請加入CPTPP的信號:明知不可為而為之

再次釋放出申請加入CPTPP的信號:明知不可為而為之

戈多的嘆息
2025-07-10 06:43:06
正式退出!哈利伯頓宣布意外決定,步行者批準

正式退出!哈利伯頓宣布意外決定,步行者批準

保持熱愛0263
2025-07-10 00:41:12
2025-07-11 07:36:49
雷科技 incentive-icons
雷科技
專注AI硬科技
33690文章數 811078關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

“阿爾茨海默病手術”被叫停 已在上百家醫院開展

頭條要聞

“阿爾茨海默病手術”被叫停 已在上百家醫院開展

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

宋佳,真的好叛逆!

財經要聞

"它經濟"崛起 國產品牌快速追趕國際巨頭

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

教育
本地
數碼
旅游
軍事航空

教育要聞

一次函數最難的部分,函數與方程不等式的關系大總結!

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

數碼要聞

雷蛇煉獄蝰蛇 V4 專業版鼠標 1379 元:僅重 56 克、首搭光學滾輪

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

內塔尼亞胡贈特朗普美軍B-2轟炸機造型“特別禮物”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰台区| 遵义县| 谢通门县| 双桥区| 务川| 赤峰市| 安溪县| 雅江县| 城步| 大港区| 上栗县| 神农架林区| 临高县| 汉川市| 安陆市| 聂拉木县| 绿春县| 马尔康县| 澄江县| 宾阳县| 湘阴县| 井冈山市| 会昌县| 东阳市| 吴桥县| 澜沧| 镇原县| 越西县| 邹城市| 商城县| 泗洪县| 定州市| 蓝田县| 枞阳县| 唐山市| 兴义市| 新乡市| 杨浦区| 固原市| 大悟县| 海晏县|