99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Grok4跑分:人類最后考試拿下45%,是Gemini 2.5兩倍,但網友不信

0
分享至



機器之心報道

編輯:楊文、澤南

馬斯克搭帳篷熬夜開發有效果了?這么高跑分,還不發布。

剛剛,Grok 4 和 Grok 4 Code 的基準測試結果疑似泄露。

X 博主 @legit_api 發帖稱,Grok 4 在 HLE(Humanities Last Exam,人類最后考試)上的標準得分是 35%,使用推理技術后提高到 45%;在 GPQA 上的得分是 87-88%;而Grok 4 Code 在 SWE Bench 上的得分則達到 72-75%。



這個跑分結果意味著什么?有網友將其與 OpenAI o3 和 Claude Opus 4 等競爭模型進行了對比。

Grok 4 在 HLE 上的標準得分約為 35%,使用推理技術后提升至 45%,最強成績比 OpenAI o3 的公開得分高出一倍,是 Claude 4 Opus 的四倍多。要知道 HLE 是一個自由回答測試,隨機猜測準確率僅約 5%,因此每個百分點的提升都非常困難。

在 GPQA(研究生級物理和天文學問題)上,Grok 4 得分 87-88%,與 OpenAI o3 的頂級表現相當,并明顯超過 Claude 4 Opus 的 79.6%。

Grok 4 在 AIME '25(2025 年美國數學奧賽)上得分 95%,遠超 Claude 4 Opus 的 75.5%,并略優于 OpenAI o3 的 80-90%(取決于思維模式)。

此外,Grok 4 Code 在 SWEBench 的得分與 Claude 4 Opus 的 72.5% 相差不大,略高于 OpenAI o3。而在 Terminal-Bench 上,Claude 4 Opus 領先,得分 43.2%,xAI 尚未發布 Grok-4 的相關數據。

其中,網友討論最多的就是 Grok 4 在 HLE 上達到了驚人的 45%,幾乎是 Gemini 2.5 Pro 成績的兩倍。如果泄露的測試結果屬實,那么意味著 Grok 4 通過了 AI 基準測試中最艱難的一關。



還有網友建議關注「標準」得分,認為這是公開模型的基準,推理得分可能涉及實驗性配置。

不過,也有網友表示質疑,認為 Grok 4 的 HLE 分數不太可能這么高,這里面肯定有問題。



該網友給出的理由是,上次 xAI 報告了其他模型使用單次嘗試的結果,但對自己的模型卻使用了不同的報告方法。



@legit_api 回復稱,這些數字是真實的,但我們不知道配置。



有網友總結道,目前 Grok 4 泄露出來的所有基準成績,除了 HLE 以外,其他的看起來似乎還算「合理」。不過 HLE 能跑到這么高分又應該如何解釋呢?畢竟這個基準中包含很多晦澀難懂的信息檢索。

或許一切都要等待模型正式發布才能有答案了。

其實早在 7 月 1 日,外媒 TestingCatalog 就發文爆料,Grok 4 系列模型的相關信息在 xAI 開發者中控臺網站上泄露,包括旗艦模型 Grok 4 和編程模型 Grok 4 Code。



截圖顯示,Grok 4 僅支持文本模式,視覺、圖像生成及其他功能即將推出。Grok4 支持約 13 萬 tokens 上下文窗口,較許多競爭對手的前沿模型要小,這可能表明 xAI 在優化推理速度和實時可用性,而非追求最大化的長上下文性能。從功能上來看,Grok 4 將包括函數調用、結構化輸出和推理能力。

還有網友扒出了 xAI 開發者中控臺的源代碼,這些代碼顯示,Grok 4 是一個在自然語言、數學和推理方面「擁有無可匹敵的能力」的通才模型,并在當地時間 6 月 29 日完成了訓練,其標語為「Think Bigger and Smarter」。



截圖還顯示,Grok 4 Code 則是一款專為編程設計的模型,用戶可以直接向它提問代碼問題,也可以直接嵌入代碼編輯器中。



上個星期,馬斯克在推文中表示,他正「通宵達旦地開發 Grok 4」,模型開發「進展良好」但仍需進行「最后一次大規模訓練」,特別是在專門代碼模型方面。為了這一目標,從上月底開始,馬斯克帶頭在辦公室內支起帳篷睡覺,以全身心投入工作。

X 的工程師還出面回應了一下帳篷的問題。



生成式 AI,都卷到這種地步了?

泄露的分數不僅刺激了廣大網友的小心臟,也在刺激著眾多 AI 科技公司。馬斯克今天雖然沒有如之前預測的那樣「官宣」Grok 4 開源,但表示推特上的 Grok 功能有了明顯的提升。



有網友為此專門去問了 Grok,它認為 7 月更新是 Grok 4,但不完整。



再加上 Benchmark 成績已經曝光,或許 Grok 4 過幾天就要正式發布了。

如果成績屬實,不管是架構的創新還是規模的擴展,Grok 都將推動一波 AI 大模型的發展,讓我們拭目以待。

https://www.reddit.com/r/singularity/comments/1lrmn42/grok_4_and_grok_4_code_benchmark_results_leaked/

https://www.testingcatalog.com/xai-prepares-grok-4-and-grok-4-code-for-upcoming-launch/

https://x.com/AiBattle_/status/1940139539525419512

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
玩不起?網曝江西三學霸拒報清北,執意報華五熱門,老師群內大罵

玩不起?網曝江西三學霸拒報清北,執意報華五熱門,老師群內大罵

派大星紀錄片
2025-07-07 17:05:23
愛潑斯坦去世當晚牢房所在區域視頻公開

愛潑斯坦去世當晚牢房所在區域視頻公開

新京報
2025-07-07 19:30:33
駐意使館回應中國旅行團在意大利被洗劫:當地警方已開具報失單 游客講述事發經過

駐意使館回應中國旅行團在意大利被洗劫:當地警方已開具報失單 游客講述事發經過

紅星新聞
2025-07-07 19:05:16
印度官員:緬甸爆發激烈戰斗,大量民眾逃往印度

印度官員:緬甸爆發激烈戰斗,大量民眾逃往印度

參考消息
2025-07-07 20:52:08
韓媒:中國隊對韓國不進球紀錄持續8年 18歲天才前鋒毫無威脅

韓媒:中國隊對韓國不進球紀錄持續8年 18歲天才前鋒毫無威脅

直播吧
2025-07-07 21:23:04
在阿紅男主里發現大學同學!阿紅大爺和他的1600個男人,麻了

在阿紅男主里發現大學同學!阿紅大爺和他的1600個男人,麻了

有趣的火烈鳥
2025-07-06 12:45:55
東亞杯國足0-3不敵韓國,久帥的無奈證明伊萬的能力

東亞杯國足0-3不敵韓國,久帥的無奈證明伊萬的能力

小畢扯談
2025-07-08 00:35:54
徒步失聯女大學生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

徒步失聯女大學生遺體附近全是螞蟥,搜救犬身上多處遭到咬傷

映射生活的身影
2025-07-07 23:20:46
在官宣拿下艾頓后,洛杉磯湖人隊無限接近NBA第一防守悍將

在官宣拿下艾頓后,洛杉磯湖人隊無限接近NBA第一防守悍將

埃文凱爾
2025-07-08 01:00:46
TFBOYS單飛8年:當年人氣高的走了下坡,最不起眼的卻已高不可攀

TFBOYS單飛8年:當年人氣高的走了下坡,最不起眼的卻已高不可攀

喜歡歷史的阿繁
2025-07-07 14:53:20
KD:歐文和蔡崇信之間發生的事 怎么就成了我毀了籃網?笑死我了

KD:歐文和蔡崇信之間發生的事 怎么就成了我毀了籃網?笑死我了

直播吧
2025-07-07 15:32:13
女子云南買冰淇淋被宰,標9.9實付48,市監已立案,文旅評論淪陷

女子云南買冰淇淋被宰,標9.9實付48,市監已立案,文旅評論淪陷

阿纂看事
2025-07-07 18:01:24
荷蘭電視臺真實街頭采訪:移民難民25年不工作,一直領取福利生活

荷蘭電視臺真實街頭采訪:移民難民25年不工作,一直領取福利生活

通往遠方的路
2025-07-07 16:14:27
青島大學宿管大爺熱死:住小屋沒空調,8個月沒發工資,校方通報

青島大學宿管大爺熱死:住小屋沒空調,8個月沒發工資,校方通報

娜烏和西卡
2025-07-07 08:55:02
新西蘭女歌手用私密部位照片作為新專輯的封面引發爭議

新西蘭女歌手用私密部位照片作為新專輯的封面引發爭議

隨波蕩漾的漂流瓶
2025-07-05 18:13:22
云南一幼童躺街上遭貨車碾壓身亡,知情人:無法理解網上指責母親的言論

云南一幼童躺街上遭貨車碾壓身亡,知情人:無法理解網上指責母親的言論

大象新聞
2025-07-07 19:00:13
青島大學宿管大爺中暑去世,沒有空調吹工資被拖欠,學校每年花百萬辦畢業典禮

青島大學宿管大爺中暑去世,沒有空調吹工資被拖欠,學校每年花百萬辦畢業典禮

小蘿卜絲
2025-07-07 23:51:08
以色列瘋了!外長將“俄中朝”列為“恐怖軸心”,大量水軍涌出

以色列瘋了!外長將“俄中朝”列為“恐怖軸心”,大量水軍涌出

剛哥說法365
2025-07-07 17:06:30
大爺男扮女裝變“偽娘”,上千名直男被騙,看完我天都塌了

大爺男扮女裝變“偽娘”,上千名直男被騙,看完我天都塌了

桌子的生活觀
2025-07-07 12:16:19
78歲汪明荃回應“羅家英四度患癌”:尊重其放棄化療的決定;羅家英此前稱最多剩9年壽命

78歲汪明荃回應“羅家英四度患癌”:尊重其放棄化療的決定;羅家英此前稱最多剩9年壽命

魯中晨報
2025-07-07 13:52:17
2025-07-08 02:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10799文章數 142355關注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機器人"可悲"現狀

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

體育要聞

不會再有第二個,快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復 演唱會公開表白

財經要聞

特朗普要發關稅函 美國貿易談判進展如何

汽車要聞

預售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態度原創

家居
本地
教育
健康
公開課

家居要聞

醺光伴讀 品質兼顧實用

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

教育要聞

祝賀!這些考生已被名校提前錄取!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 卢龙县| 万全县| 淮安市| 韶关市| 沧源| 泸西县| 兴和县| 泊头市| 砀山县| 金阳县| 延川县| 房产| 连平县| 嘉禾县| 周至县| 桃园市| 卢龙县| 榆林市| 子长县| 恩平市| 商水县| 诏安县| 池州市| 将乐县| 永吉县| 屯留县| 彰化县| 姚安县| 周口市| 芮城县| 攀枝花市| 当阳市| 神池县| 溆浦县| 扎兰屯市| 托克逊县| 曲松县| 翁源县| 富川| 荥经县| 沭阳县|