99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克發布“地球最強AI模型”Grok 4:橫掃所有榜單,在“人類最終測試”超越人類博士”!

0
分享至


作者 | 王啟隆

出品 | CSDN(ID:CSDNnews)

北京時間 7 月 10 日,原定于上午 11 點的 xAI Grok 4 發布會,在萬眾矚目中“鴿”了整整一小時。期間評論數飆升至 4200 條,轉發超 2000 次,點贊破萬,140 萬觀眾在線催更。這期間,xAI 的官推評論區成了大型許愿池和段子集散地。



畢竟,發布會前,老板馬斯克親自下場,在辦公室搭帳篷、通宵達旦進行“最后一次大規模訓練”的消息早已傳遍網絡。人們迫切想知道,是怎樣的“核武器”,值得如此陣仗。

事實證明,這場等待是值得的。馬斯克和他的團隊帶來的 Grok 4,不僅是一次模型的常規升級,更像是一場對現有 AI 能力邊界的悍然宣告。


王座易主?Grok 4制霸大模型考場

發布會的核心,首先是一系列令人瞠目結舌的基準測試(Benchmark)成績。如果說過去的 AI 評測是諸神之戰,那么 Grok 4 的登場,則是諸神黃昏。

最引人注目的,無疑是“人類最終測試”(Humanity's Last Exam, HLE)的成績。這是一個涵蓋了數學、有機化學、語言學、法學等多個博士級別難題的超高難度測試,旨在檢驗AI最頂尖的推理和知識能力。

根據現場公布的數據和后續網友的挖掘,Grok 4 的表現堪稱瘋狂:

  • 基礎能力:在不使用任何外部工具的情況下,Grok 4 的文本模型(Text-Only)取得了 26.9% 的成績。

  • 工具加持:當允許使用工具(如代碼解釋器)時,成績飆升至41.0%


  • 此外還有“重思考”模式,在這個模式下,Grok 4 Heavy 的得分達到了恐怖的58.3%

這是一個什么概念?此前,無論是Claude 4 Opus、Gemini 2.5 Pro還是OpenAI的o3,在HLE上的得分普遍在15%-25%的區間徘徊。Grok 4幾乎將SOTA(State-of-the-Art,即當前最佳水平)的紀錄翻了一倍多。


馬斯克在發布會上的那句Grok 4在每一個學科上都優于博士水平,沒有任何例外,不再僅僅是豪言壯語,而是有了數據的支撐。他進一步解釋:“Grok 4比幾乎所有學科的所有研究生都要聰明,而且是同時!它在所有領域都達到了博士后水平,是所有領域,沒有例外。這值得我們反復回味。”

除了HLE,Grok 4在其他各大頂級基準測試中也實現了全面引領:

  • ARC-AGI-2(抽象推理挑戰賽): 在這個被認為是衡量通用人工智能潛力的關鍵測試中,Grok 4 (Thinking)以 15.9% 的得分創下新的 SOTA,幾乎是之前商業模型最高紀錄的兩倍。


  • AIME 25(美國數學邀請賽):Grok 4 Heavy 史無前例地取得了100%的滿分,完美解出了所有高難度數學題。

  • GPQA(研究生水平問答):得分高達88.9%,超越所有對手。


  • Artificial Analysis 智能指數:在這個綜合了MMLU-Pro、GPQA Diamond、HLE 等七項頂級評測的綜合指數中,Grok 4 以 73 分高居榜首,超越了包括 o3-pro、Gemini 2.5 Pro 在內的所有模型。


這一系列的成績,標志著在 AI 的“智商”競賽中,Grok 4 已經暫時坐上了王座。


Grok何以封神?探秘智能背后的三大支柱

如此恐怖的性能躍升,絕非偶然。發布會深入揭示了 Grok 4 成功的秘密,可以歸結為三大支柱:全新的協作模式、最大化追求真相的哲學,以及毫不妥協的算力投入。

1.多智能體協作:Grok 4 Heavy秘密武器

Grok 4 Heavy 之所以能在HLE等超高難度測試中取得突破,其核心秘密在于一種全新的內部協作機制。它并非簡單的參數堆砌,而是一個“多智能體構成的研討小組”(Multi-AgentStudyGroup)。

當遇到一個復雜問題時,Grok 4 Heavy 會在內部“分身”出多個獨立的智能體。每個智能體都會從不同角度、用不同方法獨立思考和解決問題。這個過程完成后,它們會進入一個“比較筆記”的環節。

這個環節遠比“少數服從多數”的投票機制高級。很多時候,可能只有一個智能體找到了解題的關鍵“竅門”或獨特的思路。通過分享,所有智能體都能理解這個最佳方案,并在此基礎上進行整合、優化,最終形成一個最深刻、最準確的答案。這正是“測試時計算”(Test-time-compute)的精髓,它通過增加思考的深度和廣度,換來了精度的巨大提升。

2.第一性原理:最大化追求真相

馬斯克再次重申了 xAI 的核心哲學:“最大化地尋求真相(Maximally Truth-Seeking)”。他將 AI 比作一個超級天才的孩子,你最終無法在智力上超越它,但你可以在它成長的早期,為它“植入”正確的價值觀。

“我們想要灌輸給它的,是好奇心、是對真理的追求,是成為一個有益于人類的存在。”

馬斯克在發布會上說,“物理學是宇宙的法則,其他的一切都只是建議。你無法欺騙物理學。所以,最終的考驗是現實。”

這種哲學,讓 Grok 在面對爭議性或復雜倫理問題時,不會像其他模型那樣選擇回避或給出“政治正確”的模板化答案,而是嘗試從第一性原理出發,進行深入的、不帶偏見的推理。

3.二十萬H100超算集群:史無前例的算力投入

這一切的背后,是馬斯克毫不吝嗇的“鈔能力”支持。

發布會披露,Grok 4 的訓練是在一個擁有超過 20 萬張 H100 GPU 的超級計算機集群上完成的,是 Grok 3 時期的兩倍。更重要的是,xAI 改變了訓練策略,將更多的算力投入到“推理能力”的專項訓練上。相比于 Grok 2,Grok 4 的訓練量提升了整整 100 倍。


這種不計成本的投入,為 Grok 4 構建了無與倫比的“智能底座”,讓它有能力去探索更深層次的邏輯和知識。


不止于聊天:Grok 4的現實世界“超能力”

拋開冰冷的跑分,Grok 4 在現場演示和 API 初體驗中展現出的能力,更直觀地定義了下一代 AI 的應用場景。


發布會后,馬斯克在 X 上最新置頂的這條推文,直接叫板 Cursor,宣告了 Grok 4 在代碼能力上的自信。在發布會的演示中,Grok 4 更是展示了其“創世”級別的能力:

  • 黑洞碰撞模擬:面對“生成兩個黑洞碰撞的動畫”這種融合了物理學、數學和編程的復雜要求,Grok 4 不僅理解了背后的“后牛頓近似法”等物理學原理,還迅速編寫出 Python 代碼,調用相關庫,生成了相當逼真的可視化動圖。它甚至在代碼注釋中坦誠地解釋,為了視覺效果,在引力波的尺度上做了哪些“藝術夸張”,展現了驚人的元認知和自我解釋能力。


  • 4小時開發一款游戲:一位名叫 Danny 的開發者受邀體驗 Grok 4 API。他僅用了 4 個小時,就借助 Grok 4 從零開始制作出了一款完整的第一人稱射擊游戲。Grok 4 不僅編寫了游戲的核心邏輯代碼,更令人驚嘆的是,它還自動完成了尋找、適配紋理貼圖、處理 3D 模型等極其繁瑣的“美術資源”工作。這極大地解放了開發者的創造力,讓一個人成為一個游戲工作室的夢想,變得觸手可及。


  • 商業模擬超越人類:在一個名為“Vending Bench”的商業模擬平臺中,AI 需要扮演自動售貨機公司的經營者,管理庫存、定價、與供應商簽約。Grok 4 不僅成功運營,其最終創造的“凈資產”價值更是達到了排行榜第二名模型的兩倍,展現出驚人的長期戰略規劃和執行能力。


  • 加速科學發現:頂尖的生物醫學研究機構 Arc Institute,已經開始使用 Grok 4 API 來自動化分析其海量的實驗日志。面對數百萬份復雜的實驗數據,Grok 4 能幫助科學家快速篩選出最有價值的研究假設,將原本耗時數周的工作縮短到幾分鐘。

  • 預測未來:現場演示中,團隊讓 Grok 4 Heavy 分析體育博彩市場 Polymarket,并預測本年度美國職業棒球大聯盟世界大賽的冠軍。在長達 4 分半鐘的深度“思考”后,Grok 4 瀏覽了大量賠率網站,分析了各隊實力,甚至計算了自己的“Alpha 優勢”,最終給出了洛杉磯道奇隊以 21.6% 的概率獲勝的結論,并詳細闡述了整個推理過程。這種能力,讓 Grok 4 不再僅僅是一個信息檢索工具,而是一個具備主動分析和決策能力的“戰略顧問”。


發布會還展示了全新的語音交互模式。新的聲音模型,如充滿磁性的“Sal”(發布會開場“電影預告片”的配音)和溫柔知性的“Eve”,在自然度、韻律和情感表達上都達到了新的高度。

在與 Eve 的互動中,它能根據指令,用低語來安撫緊張的主持人,也能即興高歌一曲關于“健怡可樂”的詠嘆調,甚至在被要求“直接唱”時,無縫切換到另一種歌唱風格。這種對人類情感和語境的細膩捕捉,預示著未來的人機交互將變得無比自然和溫暖。


價格、速度與未來:Grok 4的陽謀與坦誠

Grok 4 的強大并非遙不可及。會后,xAI 正式公布了全新的“SuperGrok”訂閱計劃和 API 定價,展現了其商業化的雄心和對市場的清晰判斷。

定價策略:

  • 免費版(Basic):體驗Grok 3。

  • SuperGrok($300美元/年):可使用 Grok 4 標準版,擁有 128k 上下文窗口和帶視覺的語音模式。

  • SuperGrok Heavy($3000美元/年):獨家體驗 Grok 4 Heavy,并能搶先體驗各項新功能。


Grok 4 的 API 輸出速度為75 tokens/s,雖然慢于 o3(188 tokens/s),但快于同樣以深度思考著稱的 Claude 4 Opus Thinking(66 tokens/s)。

此外,在發布會的最后,馬斯克和團隊也坦誠了 Grok 4 目前的“短板”——多模態能力,尤其是圖像理解。他們形容現在的 Grok 4 看世界就像“隔著一塊毛玻璃”,有些“局部失明”。

但這正是 xAI 的可怕之處,他們總是在承認弱點的同時,給出解決問題的時間表:

1.視覺革命在即:將徹底解決這一問題的 Foundation Model V7 版本已在訓練中,預計幾周內完成。屆時,Grok 將擁有與人類無異的視覺和聽覺,能看懂視頻,理解世界。

2.馬斯克的預言:

  • 今年: 有望看到第一部由AI生成的、可觀看的半小時電視節目。

  • 明年: 期待第一款真正好玩的 AI 視頻游戲和第一部完整的 AI 電影。

3. 最終考場:馬斯克強調,通過所有人類考試只是第一步。Grok 的終極目標是成為一個科學發現和技術發明的引擎。

“Grok 可能會在今年年底發現新的可用技術,明年發現新的物理學。”


這不再是科幻。當一個 AI 開始以現實世界為考場,以推動人類知識邊界為己任時,我們知道,一個全新的時代,真的來了。

而這場由 Grok 4 攪動的風暴,才剛剛開始。

2025 全球產品經理大會

8月15–16日·北京威斯汀酒店

互聯網大廠&AI 創業公司產品人齊聚

12 大專題,趨勢洞察 × 實戰拆解

掃碼領取大會 PPT,搶占 AI 產品新紅利

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
足協杯爆大冷門!申花點球大戰不敵河南隊無緣4強,劉誠宇失點

足協杯爆大冷門!申花點球大戰不敵河南隊無緣4強,劉誠宇失點

中超偽球迷
2025-07-23 22:04:34
中國移動、中國電信、中國聯通,集體表態!

中國移動、中國電信、中國聯通,集體表態!

第一財經資訊
2025-07-23 09:26:25
體檢是一場巨大的“人間騙局”!

體檢是一場巨大的“人間騙局”!

功夫財經
2025-07-23 08:37:29
陳佩斯《戲臺》票房井噴,多少資方該臉紅?黃渤這次又賭對了

陳佩斯《戲臺》票房井噴,多少資方該臉紅?黃渤這次又賭對了

銀河史記
2025-07-23 00:20:47
各省份相繼廢止“清真食品認證”

各省份相繼廢止“清真食品認證”

西域都護
2025-07-23 11:22:57
差距明顯!阿森納1-0AC米蘭全場數據:射門23-3,射正9-1

差距明顯!阿森納1-0AC米蘭全場數據:射門23-3,射正9-1

直播吧
2025-07-23 21:56:32
公安部:我國是世界公認的最安全國家之一

公安部:我國是世界公認的最安全國家之一

澎湃新聞
2025-07-23 15:55:59
足協杯四強誕生!申花意外出局,河南將戰蓉城,國安對決玉昆

足協杯四強誕生!申花意外出局,河南將戰蓉城,國安對決玉昆

奧拜爾
2025-07-23 22:05:41
桃子發現新功效!哈工大研究發現:高血糖常吃桃子,或降5種風險

桃子發現新功效!哈工大研究發現:高血糖常吃桃子,或降5種風險

華庭講美食
2025-07-23 14:25:02
曝深圳14歲女學生被同班男生殺害,連捅26刀手段殘忍,母親曝原因

曝深圳14歲女學生被同班男生殺害,連捅26刀手段殘忍,母親曝原因

180視角
2025-07-23 16:49:24
330萬億躺在銀行睡大覺:數字很尷尬,現實很殘酷

330萬億躺在銀行睡大覺:數字很尷尬,現實很殘酷

大道微言
2025-07-23 15:23:47
普京公開發出警告,欺人太甚的北約,再不收手,遲早遭俄核打擊?

普京公開發出警告,欺人太甚的北約,再不收手,遲早遭俄核打擊?

空天力量
2025-07-23 13:08:52
房價從120萬降到50萬,兩代人的積蓄成一場空,斷供潮真的要來?

房價從120萬降到50萬,兩代人的積蓄成一場空,斷供潮真的要來?

小談食刻美食
2025-07-22 17:24:18
自述在馬爾代夫酒店遭性侵女子再發聲:案件因“證據不足”被駁回

自述在馬爾代夫酒店遭性侵女子再發聲:案件因“證據不足”被駁回

封面新聞
2025-07-23 20:20:21
夫妻倆加盟面館“賣不夠房費”,欲退回加盟費遭拒;面館品牌方:可進行扶持

夫妻倆加盟面館“賣不夠房費”,欲退回加盟費遭拒;面館品牌方:可進行扶持

大風新聞
2025-07-23 16:16:52
當年汶川地震,美國曾派軍機空運救援物資入川,向中國分享災區衛星照

當年汶川地震,美國曾派軍機空運救援物資入川,向中國分享災區衛星照

風向觀察
2025-07-23 15:06:59
有個比恒大還嚇人的雷,可能已經快爆發了。

有個比恒大還嚇人的雷,可能已經快爆發了。

流蘇晚晴
2025-07-22 18:07:13
福耀科技大學錄取通知書曝光!寫著:你們是這個大學形態的創建者

福耀科技大學錄取通知書曝光!寫著:你們是這個大學形態的創建者

火山詩話
2025-07-23 17:08:00
車費錯付1010元后續:司機身份被扒,男孩遺言曝光,家屬長文回應

車費錯付1010元后續:司機身份被扒,男孩遺言曝光,家屬長文回應

禾寒敘
2025-07-23 17:19:50
點球夢魘?劉誠宇足協杯打丟關鍵點球,上次罰丟是U20八強戰

點球夢魘?劉誠宇足協杯打丟關鍵點球,上次罰丟是U20八強戰

懂球帝
2025-07-23 22:18:50
2025-07-24 00:36:49
CSDN incentive-icons
CSDN
成就一億技術人
25804文章數 242100關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

頭條要聞

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

藝術
時尚
親子
本地
房產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

親子要聞

醫學科普中醫脾胃育兒

本地新聞

這雙丑鞋“泰”辣眼,跪求內娛不要抄作業

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 花莲县| 丰都县| 蚌埠市| 枣阳市| 上林县| 沛县| 永兴县| 应城市| 峡江县| 武平县| 宁夏| 福安市| 招远市| 嘉善县| 眉山市| 信宜市| 武陟县| 平和县| 新巴尔虎左旗| 奉新县| 乌审旗| 夏邑县| 铅山县| 龙门县| 吉安县| 延安市| 井研县| 兴山县| 抚顺市| 永泰县| 吴忠市| 电白县| 阿瓦提县| 通江县| 哈尔滨市| 阜康市| 西安市| 慈溪市| 临夏县| 峡江县| 犍为县|