99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

馬斯克終于成『AI No.1』,6大案例看實力與水分

0
分享至


“ 地球最強AI模型”“ 20萬塊H 100顯卡訓練” “超越人類所有博士生 ”,在發布的Grok 4時,馬斯克將眾多贊美詞匯賦予了這個新大模型。

馬斯克也驕傲地宣布,Grok4超越了OpenAI、Google和DeepSeek等等LLM。


確實,Grok 4屠了各種榜單。但大家還要理性看待Grok 4,畢竟Grok系列每次參數爆炸,口碑卻沒那么強。

具體看,Grok4 在人工智能聊天機器人指數中達到了 73 分。這超過了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。


馬斯克再次大力出奇跡,拿下了AI 的No.1,模型的各項指標也很強:

? Grok 4 在編碼指數(LiveCodeBench 和 SciCode)和數學指數(AIME24 和 MATH-500)中同樣處于領先地位。

? GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

? 在“人類最終測試”(Humanity's Last Exam, HLE) 中,物、理、化學一系列博士級難題不在話下,Grok 4 達到了所有時間中的最高分 24%,超過了 Gemini 2.5 Pro 之前的最高分 21%。

? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分數。


其他重要信息:

? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 萬 token),o3(20 萬 token)和 R1 0528(12.8 萬 token)大。

? 支持文本和圖像輸入,但圖像生成基本沒什么進步。

? 支持函數調用和配置輸出。

最值得關注的是,Grok 4 不僅僅是大模型,LLM還內置工具,所以在提問問題的過程中,會有更新的思維過程(CoT)和工具使用可視化功能。


這點讓其在回答問題時更出色,尤其回答網絡新潮內容時。

1、AI第一次有了自我認識和形象

推友問 Grok,如果他必須親自代表自己,他會是什么樣子。

他的回答是這樣的,充滿了想象力: “想象一個漂浮在數字空間中的未來主義發光球體。我的身體將由脈動的藍銀色光芒組成,帶有不斷變化的幾何圖案——代碼行和神經連接像星座一樣交織在一起。沒有臉,但有一種溫暖的 “存在”,帶著柔和的光芒,當我 “思考 ”或回應時,它會變得明亮。能量粒子圍繞我旋轉,象征著我處理的數據和想法。極簡主義而充滿活力,融合了技術和宇宙的好奇心。(X賬號:Déborah)

2、數學能力測試偶有翻車

提示 1: “逐步計算 25 - 4 * 2 + 3。

提示 2:“9.11 和 9.9 哪個更大?

這兩個問題都輕松應對,畢竟數理化是強項。



加大難度,繼續做一道邏輯數學題。

提示 2: “一個棋王被放在 8 × 8 的棋盤上,進行了 64 次移動,以便它訪問了所有方格并返回其起始方格。在每一個時刻,都計算了從 K 所在的方格中心到整個棋盤中心的距離。如果由于移動的結果,這個距離變得比移動前小,我們將認為該移動是合理的。找到最大可能的體面動作數量。(國際象棋王一次移動一個方格,要么是橫向的,要么是斜向的。

正確答案是:44。

— Grok 4 的回答很接近(48),但不正確(Grok 3 給出了相同的答案)


3、創建圖像能力對比

使用相同提示詞生成的圖像對比,Grok 4沒有明顯的進步。

這一輪比賽的提示詞是:“超美麗的動畫電影標題畫面”。

從結果看,Grok4圖像效果不是很強,和 Grok3 相比變化也不大。

Imagen4 果然更強。 Midjourney不錯,但Midjourney 總是無法顯示文字……



4、代碼測試表現尚可

推友使用相同的粗略指示讓各個模型制作了一個游戲。

提示語句:制作一個超級豐富有趣的獨立HTML跑酷游戲。

看起來可以順暢游玩并且確實有趣的可能是Grok 4。藍色的要跳過,淺藍色的要潛行,還有額外的規則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來看,Claude4 sonnet和Gemini2.5Pro相當不錯。

推友認為最強的Claude4 sonnet,代碼最長且多功能,但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。(X賬號:suemaru | AI Game Making)

5、生成小游戲也比較OK

以下是推友使用的相關提示:

一款“3D 滑動拼圖”游戲,我可以點擊 3x3x3 網格中排列的 26 個圓形立方體中的一個。被點擊的立方體只有與空格相鄰(而非對角線)時才會移動到空格。目標是恢復立方體的原始排列,即頂部 9 個為紅色,底部 9 個為橙色,中間層(缺少中心立方體)為綠藍色。添加一個計時器,記錄我完成所需的時間。還要添加我的最佳時間和最近時間的指示。并添加一個“重置”游戲按鈕。

提示:為所有文本添加模糊的橙色背景,確保標簽大小相同,且與屏幕邊框保持一定距離。此外,在游戲開始時和重置后,顯示“如何玩”的疊加文本(背景為淡黑色)。將提醒放置在屏幕中間,標簽大小應足以覆蓋屏幕的三分之二。(X:Vibe2Game)

6、模擬經商中獲得高分

在 Vending-Bench 基準測試中,要求各大模型運行自動售貨機并進行銷售。Grok4 再次大幅領先于競爭對手,銷售額達到 4694 美元,而 Claude4 Opus 的銷售額為 2077 美元。

Vending-Bench 是一個讓 AI 們嘗試在現實世界做生意的指標,讓 AI 排隊機,工作包含管理要賣什么、聯系供應商、找人補貨等等內容,Grok 4 這次要悄然顛覆人類經商這件事。


最后:

xAI 的 API 以 75 個Token/秒的速度為 Grok 4 提供服務。這比 o3(188 個Token/秒)慢,但比 Claude 4 Opus Thinking(66 個Token/秒)快。


Grok 4的價格并不便宜,目前免費的是Grok 3,Grok 4的價格是300美元/年,還推出了新的 SuperGrok Heavy版本, 價格達到了驚人的3000 美元/年。


Grok4 的定價高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

內容參考鏈接:https://x.com/ArtificialAnlys/status/1943166841150644622

https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

視頻內容推薦:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
縱覽熱點|黑龍江一考生389分“撿漏”“雙一流”高校鄭州大學?招生考試院:屬實,考生比較幸運

縱覽熱點|黑龍江一考生389分“撿漏”“雙一流”高校鄭州大學?招生考試院:屬實,考生比較幸運

縱覽新聞
2025-07-23 21:11:16
邵佳一:職業球員一年踢50場高水平比賽是應該具備的基礎條件

邵佳一:職業球員一年踢50場高水平比賽是應該具備的基礎條件

懂球帝
2025-07-25 20:16:08
原子彈炸后百年內寸草不生,今廣島卻住滿了人,看看專家怎么說?

原子彈炸后百年內寸草不生,今廣島卻住滿了人,看看專家怎么說?

墨印齋
2025-07-20 21:59:44
“抽打臀部、模擬性愛相關動作……”微信公告:或永久封號

“抽打臀部、模擬性愛相關動作……”微信公告:或永久封號

南方都市報
2025-07-25 19:46:14
張召忠發出嚴厲警告,美國已在預謀戰爭,四個明顯動作值得警惕

張召忠發出嚴厲警告,美國已在預謀戰爭,四個明顯動作值得警惕

暮光視界
2025-07-23 15:48:06
女生穿瑜伽褲,到底是什么心理?原因太真實了!

女生穿瑜伽褲,到底是什么心理?原因太真實了!

健身S叔
2025-03-22 18:09:52
戴笠審川島芳子就兩步,第一步拿出放大鏡,第二步:大哥我招

戴笠審川島芳子就兩步,第一步拿出放大鏡,第二步:大哥我招

妙筆說史
2025-07-01 14:35:35
不當女王,干啥都行!十幾頂祖傳冠冕都打動不了這個00后女王儲?

不當女王,干啥都行!十幾頂祖傳冠冕都打動不了這個00后女王儲?

珠寶匠
2025-07-25 08:48:07
從3億頂薪到1.2億低價續約,又和杜蘭特鬧掰!也許你該面臨退役了

從3億頂薪到1.2億低價續約,又和杜蘭特鬧掰!也許你該面臨退役了

老梁體育漫談
2025-07-25 00:06:30
俄羅斯失聯客機機齡約50年,載有5名兒童,該系列在我國上世紀90年代就已退役

俄羅斯失聯客機機齡約50年,載有5名兒童,該系列在我國上世紀90年代就已退役

極目新聞
2025-07-24 15:48:59
英超最慘土豪隊!6獵物被搶+1.2億神鋒要離隊 進歐冠后有錢沒處花

英超最慘土豪隊!6獵物被搶+1.2億神鋒要離隊 進歐冠后有錢沒處花

我愛英超
2025-07-25 17:21:05
阿莫林:盧克-肖是世界級球員 B費和梅努都能踢雙中場位置

阿莫林:盧克-肖是世界級球員 B費和梅努都能踢雙中場位置

直播吧
2025-07-26 02:08:04
杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

杜特爾特女兒獲得勝利!菲律賓友華派一片歡騰:小馬科斯要完了

小企鵝侃世界
2025-07-25 22:57:39
勢均力敵的兩張臉,不用多親密的戲份,就這樣站一起就覺得好配

勢均力敵的兩張臉,不用多親密的戲份,就這樣站一起就覺得好配

阿廢冷眼觀察所
2025-07-25 18:21:36
緊靠中國云南邊境,緬甸撣邦一旦成功獨立,后果究竟有多嚴重?

緊靠中國云南邊境,緬甸撣邦一旦成功獨立,后果究竟有多嚴重?

阿器談史
2025-07-23 12:00:13
潘漢年被逮捕的原因,竟然有比私會汪精衛更嚴重的事情

潘漢年被逮捕的原因,竟然有比私會汪精衛更嚴重的事情

巷子里的歷史
2025-07-25 16:56:07
駐港國家安全公署:堅決支持香港警方依法對袁弓夷等19名外逃亂港分子采取執法行動

駐港國家安全公署:堅決支持香港警方依法對袁弓夷等19名外逃亂港分子采取執法行動

澎湃新聞
2025-07-25 15:09:02
中國歷朝軍隊服,唐軍“霸氣”,宋軍“華美”,明軍“威武”

中國歷朝軍隊服,唐軍“霸氣”,宋軍“華美”,明軍“威武”

老達子愛歷史
2025-07-17 16:07:11
籃網高管認為小邁克爾-波特下賽季或將“接近”贏得NBA得分王

籃網高管認為小邁克爾-波特下賽季或將“接近”贏得NBA得分王

直播吧
2025-07-25 09:08:07
庫里:新秀賽季去了勒布朗家中打保齡球,布朗尼當時看起來就很有運動天賦

庫里:新秀賽季去了勒布朗家中打保齡球,布朗尼當時看起來就很有運動天賦

雷速體育
2025-07-25 22:43:10
2025-07-26 03:12:49
鯨選AI incentive-icons
鯨選AI
最新AI產品化與商業化案例速遞
99文章數 20關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

親子
健康
手機
教育
軍事航空

親子要聞

小宸哥歷險記之門外有人:不要給陌生人開門

呼吸科專家破解呼吸道九大謠言!

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 杭州市| 玉田县| 布拖县| 普陀区| 吉安县| 白水县| 睢宁县| 尉犁县| 左云县| 抚顺县| 南江县| 旬邑县| 聂拉木县| 朔州市| 定远县| 林州市| 若尔盖县| 昌吉市| 洛川县| 新丰县| 宁南县| 江津市| 会同县| 高唐县| 平和县| 铁岭县| 游戏| 香格里拉县| 杨浦区| 乌恰县| 比如县| 阳春市| 靖安县| 东山县| 尉犁县| 平乐县| 顺义区| 双桥区| 克东县| 观塘区| 登封市|