99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克推最強Grok 4!人類終極測試干翻OpenAI,包月費超2千元

0
分享至


智東西
作者 李水青
編輯 心緣

智東西7月10日報道,今日,馬斯克的AI公司xAI發布其最新旗艦大模型Grok 4和多智能體版本Grok 4 Heavy,并推出史上最貴的每月300美元(約合2153元人民幣)的AI訂閱計劃Super Grok Heavy

在“人類的最后考試”(Humanity’s Last Exam)中,Grok 4在無需“工具”的情況下取得了25.4%的準確率,超過了谷歌Gemini 2.5 Pro的21.6%OpenAI o3(高版本)的21%

配備“工具”的Grok 4 Heavy獲得44.4%的得分,優于配備工具的Gemini 2.5 Pro的26.9%


▲Grok 4在Humanity’s Last Exam測評中取得第一

“就學術問題而言,Grok 4在各個學科上都比博士水平高,無一例外。”馬斯克在直播中說,“有時,它可能缺乏常識,而且它還沒有發明新技術或發現新的物理學說,但這只是時間問題。”


▲埃隆·馬斯克在直播中發言

xAI還推出了迄今為止最昂貴的AI訂閱計劃——每月300美元的Super Grok Heavy。訂閱者可以搶先體驗Grok 4 Heavy,并搶先體驗新功能。這些新功能包括但不限于:將于8月推出的AI編碼模型,9月推出的多模態智能體,以及10月推出的視頻生成模型。


▲每月300美元的Super Grok Heavy正式推出

直播結束后,馬斯克在X上發文稱:“你可以將整個源代碼文件剪切并粘貼到Grok上的查詢輸入框中,然后@Grok 4 會幫你解決,比Cursor更好用。”


▲馬斯克在社交平臺X上發言

除此之外,xAI推出了Grok 4 API。xAI的企業部門僅成立兩個月,但它計劃與超大規模企業合作,通過其云平臺提供 Grok。

近幾個月來,xAI不僅拿下100億美元最新融資,還收購了社交平臺X,這也讓最新推出的Grok 4成為產業的關注焦點。Grok 4能否成為對打OpenAI計預告今夏推出的GPT-5的有力對手?讓我們來一起先睹為快。

一、Grok 4測評趕超OpenAI o3,馬斯克:科研能力強過人類博士

馬斯克在直播中稱,在人文、語言、數學、物理、工程等多個基準測試中,Grok 4都取得了好成績。“有些人認為AI不能推理,但Grok 4的推理能力可以超越人類水平,比幾乎所有學科的研究生同時都聰明。”馬斯克說。

xAI的研究人員稱,Humanity’s Last Exam測試極具挑戰性,總共有2500個問題,包括數學、自然科學、工程以及所有人文學科,問題廣泛且都是博士甚至高級研究水平,Grok 4在這些問題上可以得到很好的分數。

Grok 4在無需“工具”的情況下,在“測試中獲得了25.4%的準確率,超過了谷歌Gemini 2.5 Pro的21.6%和OpenAI o3(高版本)的21%。馬斯克稱,在學術問題方面,Grok 4比每個學科的博士水平都要好,現在沒有例外。他預測Grok 4最快今年就能去發明新技術了,兩年之內就能發現新物理學說。

在GPQA、AIME25、LCB(Jan-May)、HMMT25等多項測評中,Grok 4都超越了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等模型。


而在ARC-AGI-2測試中,Grok 4取得了新的最高得分,得分為16.2%。ARC-AGI-2測試是另一項高難度基準測試,包含類似謎題的問題,要求AI識別視覺模式。Grok的得分幾乎是排名第二的商業AI模型Claude Opus 4得分的兩倍。


二、訓練量級達到Grok 2 100倍,Grok 4將與人形機器人互動

從Grok2到Grok 4,每一次迭代xAI都增加了一個數量級的訓練,因此Grok 4的訓練量級達到了Grok 2的100倍,這使得智力增長非常顯著。

這是xAI第一次像預訓練一樣擴大訓練規模。基于擁有10萬塊H100 GPU的超級算力中心,訓練主要包括兩種類型:一個是從Grok 2到Grok 3到的預訓練,一個是從Grok 3到Grok 4在推理中投入了大量的算力。

談及幕后,如圖所示,當投入越來越多的訓練算力,模型開始逐漸變得越來越聰明,最終在沒有任何工具的情況下,解決了四分之一的Humanity’s Last Exam測試問題。


接下來研發人員做的是向模型中添加工具功能。與Grok 3不同的是,研發人員使其更加本地化,將工具放入訓練中,從而顯著提高了模型使用這些工具的能力。


馬斯克透露,今年晚些時候,Grok 4還將融合有限元分析、計算流體動力學等更強大的工具進行訓練,將打造非常精確的物理模擬器,比如去做提供精確的黑洞模擬等任務。最終,Grok 4最大的區別在于,其將能夠通過人形機器人(如擎天柱)與現實世界互動。

馬斯克說,我們正處于智能大爆炸的開端。我們需要確保AI是一個好的AI,安全最重要的事,AI需要最大限度地尋求真理。你可以把AI看作是超級天才的孩子,最終會比你聰明,但你仍然可以灌輸正確的價值觀并鼓勵它長成想要的樣子。

除了計算之外,還有一個技術問題是數據瓶頸。研發人員稱,在強化學習訓練過程中,他們實際上已經沒有可用來測試的問題了,已有的問題對AI來說正在迅速變得微不足道。

但馬斯克稱,最能出色判斷事物的就是現實。如果物理學是定律,最終其他一切都是建議。你不能打破物理。因此,我認為對于AI的最終測試是現實。就像你發明一項新技術,比如改進汽車或火箭,它有效嗎?現實才是最終的裁判。所以這將是一個圍繞現實的強化學習閉環。

三、現場演示:看論文進行現實模擬,語音模式延遲減少一半

xAI研究員在直播中演示了Grok 4回答問題的能力。

Grok 4的一大特點是能夠理解世界,并通過利用工具來解決難題。比如要求Grok 4生成兩個黑洞碰撞的可視化圖像,它有一些清晰的思考過程,比如,為了讓它真正可見,Grok 4考慮到通過海浪的形式擴放它的規模。從思考過程看,Grok 4使用了搜索,從一堆鏈接中收集結果,參考了現有的現實世界數據,而且還閱讀了分析引力波模型的本科論文。


除此之外,xAI還演示了Grok 4解答數學問題、創建一個基于X個帖子的時間線、查看Humanity’s Last Exam測試成績等問題。


在多模態測試方面,Grok 4分數略有下降。馬斯克坦言,Grok 4的基本弱點是它部分盲目地理解圖像生成偏好。Grok 4的多模態理解能力正在改進,這些問題將在幾周內實現改善。

Grok 4的語音模式也進一步更新,已將延遲減少了一半。Grok 4今天推出一系列更具自然性和韻律的新聲音,API版本也將發布。


四、推出Grok 4企業API,編程、多模態、視頻模型在路上

xAI的企業部門僅成立兩個月,但它正在通過其API發布Grok 4,已有各行業企業通過云平臺使用了Grok 4。


聚焦現實的自動售貨機商業場景,xAI的客戶團隊采用了大模型管理庫存、聯系供應商,大多數模型在去進行長線任務時都很困難。但使用了Grok 4 API之后,團隊獲得了令人印象深刻的結果。它設法運行模擬的時間翻了一倍,得分也翻了一倍,前后能保持較強一致性。


聚焦AI創作游戲方面,Grok 4可以在4個小時內制作的第一人稱射擊游戲。制作游戲并不一定是對游戲的核心邏輯進行編碼,而是去尋找所有資源、文件素材,以創建一個具有視覺吸引力的游戲。對于開發人員來說,你可以專注于核心開發本身,讓Grok 4去整理所有資產,自動化完成任務。


未來Grok 4將具有出色的視頻理解和改進的工具使用能力,例如可以使用虛幻引擎生成藝術品模型,然后創建一個可在PC或手機上運行的可執行文件。xAI預計第一個真正優秀的AI視頻游戲將在明年出現。

除此之外,馬斯克透露,團隊目前正在加大力度訓練編碼模型,在未來幾周內將推出一個專業的編碼模型。編碼任務展現了Grok 4的弱點,即多模態能力。就像透過玻璃瞇著眼睛看世界,看到所有模糊的特征,并試圖感知它。xAI將在下一代模型中看到的最直接改進是,模型在理解圖像和音頻方面會能力逐步提高。

在視頻模型方面,xAI將在接下來三到四周開始訓練一個新的視頻模型,具備出色視頻生成和理解能力。


結語:搶發Grok 4,馬斯克對戰GPT-5

Grok 4在高難度測試中展現的“超越博士水平”的推理能力,在理解和解決復雜問題方面邁出了關鍵一步。其通過工具加持實現的新能力,以及雄心勃勃的多模態與視頻生成路線圖,展現了xAI與即將發布的OpenAI GPT-5競賽的決心。

在To B端落地,xAI正加速將Grok 4的能力從企業應用到零售、游戲創作等領域。同時,馬斯克強調的“安全至上”與“尋求真理”的AI發展原則,以及對現實世界作為最終測試場的認知,為這場席卷全球的智能爆炸提供了不可或缺的思考維度。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊少華小保姆火了!一個舉動全網淚目,兒子做法卻忽視侯耀華勸告

楊少華小保姆火了!一個舉動全網淚目,兒子做法卻忽視侯耀華勸告

洲洲影視娛評
2025-07-10 22:57:16
孫穎莎美國比賽遭辱罵?賽后表情難看,罵人者被曝光,央媒發文

孫穎莎美國比賽遭辱罵?賽后表情難看,罵人者被曝光,央媒發文

銀河史記
2025-07-10 17:13:53
重傷中國球迷的日本人身份曝光:53歲大叔,土木工程工人一身肌肉

重傷中國球迷的日本人身份曝光:53歲大叔,土木工程工人一身肌肉

二哥聊球
2025-07-10 20:37:56
無語!楊少華追悼會上,4個兒子坐一起抽煙,別人反而鞠躬還禮!

無語!楊少華追悼會上,4個兒子坐一起抽煙,別人反而鞠躬還禮!

古希臘掌管月桂的神
2025-07-10 22:59:52
男子駕車致女友截肢續,張母發聲:在醫院罵我,去丈夫兒子單位鬧事

男子駕車致女友截肢續,張母發聲:在醫院罵我,去丈夫兒子單位鬧事

大川哥
2025-07-10 17:22:12
世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網決賽

世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網決賽

直播吧
2025-07-10 23:19:05
37歲外賣員因熱射病去世,死前喝冰飲料,家屬發聲,暈在電動車上

37歲外賣員因熱射病去世,死前喝冰飲料,家屬發聲,暈在電動車上

180視角
2025-07-10 14:55:20
中國間諜偷取烏克蘭海王星導彈技術?烏粉天塌了,這貨活該判15年

中國間諜偷取烏克蘭海王星導彈技術?烏粉天塌了,這貨活該判15年

碳基生物關懷組織
2025-07-10 17:35:46
背刺中國,歐盟這次真玩砸了!中方一招直接卡脖子,歐盟無牌可打

背刺中國,歐盟這次真玩砸了!中方一招直接卡脖子,歐盟無牌可打

派大星紀錄片
2025-07-10 18:58:28
無緣決賽!薩巴倫卡出局后,給鄭欽文帶來2大影響,年終800分不保

無緣決賽!薩巴倫卡出局后,給鄭欽文帶來2大影響,年終800分不保

侃球熊弟
2025-07-10 23:51:19
我想干而沒有干!一男子把藏有GPS追蹤器的鞋子捐給了紅十字會…

我想干而沒有干!一男子把藏有GPS追蹤器的鞋子捐給了紅十字會…

翻開歷史和現實
2025-07-09 23:28:37
美媒曝光絕密錄音,特朗普罕見默認,中國敢動手,北京寸土不留?

美媒曝光絕密錄音,特朗普罕見默認,中國敢動手,北京寸土不留?

聞識
2025-07-09 19:52:34
稀土禁令形同虛設?外媒爆中資公司將稀土通過第三國大量轉運美國

稀土禁令形同虛設?外媒爆中資公司將稀土通過第三國大量轉運美國

花小貓的美食日常
2025-07-09 15:51:57
美國兩年前爆發過大規模食物鉛中毒事件,中毒的幾乎都是兒童

美國兩年前爆發過大規模食物鉛中毒事件,中毒的幾乎都是兒童

莊時利和
2025-07-10 16:10:44
雪上加霜!國足遭重創,天才前鋒受傷+宋凱不滿,PK日本0-2=爆冷

雪上加霜!國足遭重創,天才前鋒受傷+宋凱不滿,PK日本0-2=爆冷

大秦壁虎白話體育
2025-07-10 19:58:22
鄭欽文仰望?藥娃已6次擊敗薩巴!23歲首進大滿貫決賽+1000賽奪冠

鄭欽文仰望?藥娃已6次擊敗薩巴!23歲首進大滿貫決賽+1000賽奪冠

我愛英超
2025-07-11 00:16:50
曝一中國女生在泰國貝麗島溺亡,為撿墜海無人機,有博主目睹講述全過程

曝一中國女生在泰國貝麗島溺亡,為撿墜海無人機,有博主目睹講述全過程

互聯網大觀
2025-07-10 19:58:27
都不裝了,特朗普放話轟炸莫斯科,普京拒絕談判,俄軍開辟新戰線

都不裝了,特朗普放話轟炸莫斯科,普京拒絕談判,俄軍開辟新戰線

博覽歷史
2025-07-10 17:02:11
被指行李過多?國足官方回應:為此向公眾介紹一些基本信息和常識

被指行李過多?國足官方回應:為此向公眾介紹一些基本信息和常識

直播吧
2025-07-10 21:10:48
江蘇婚禮喜婆婆驚艷全場,神似章子怡,網友:當場犯迷糊

江蘇婚禮喜婆婆驚艷全場,神似章子怡,網友:當場犯迷糊

農村情感故事
2025-07-10 17:44:33
2025-07-11 04:44:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10145文章數 116798關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

宋佳,真的好叛逆!

財經要聞

潮玩規模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

游戲
教育
房產
公開課
軍事航空

魔獸懷舊服:團長發問為什么不吃合劑,玩家神回復,收益是關鍵

教育要聞

成都又要新增一所“教科附”高中?最新消息來了

房產要聞

重磅!招商+平安出手,拿下海南440畝灣區大盤!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

內塔尼亞胡贈特朗普美軍B-2轟炸機造型“特別禮物”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 德江县| 余庆县| 集安市| 延吉市| 府谷县| 巴林右旗| 张掖市| 安康市| 大关县| 兰西县| 元谋县| 额尔古纳市| 蓝田县| 海原县| 伽师县| 金塔县| 临泽县| 兰考县| 古蔺县| 陆丰市| 金乡县| 祁东县| 灵台县| 宁化县| 海林市| 社会| 和田县| 修文县| 五华县| 微博| 榆中县| 大新县| 长子县| 家居| 德格县| 盐城市| 玉屏| 海林市| 徐闻县| 土默特左旗| 天津市|