網易首頁 > 網易科技 > IT業界 > 正文

一周AI大事：Grok 4硬剛GPT-5，英偉達市值破4萬億美元

2025-07-14 08:26:15　來源: 網易科技報道

北京舉報

分享至

本周焦點：Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet瀏覽器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。

一、重磅工具Grok 4——馬斯克的“王炸與豪賭”

新聞：在一場直播發布會中，xAI團隊與埃隆·馬斯克（Elon Mus）重磅推出了Grok 4，宣稱其是“全球最智能模型”，并展示了該模型在各項基準測試中的頂尖（SOTA）表現。他們還發布了多智能體變體Grok 4 Heavy，該變體能讓多個智能體協作運行Grok 4，并從各自獨立運行的結果中篩選出最優解。Grok 4的發布堪稱重磅新聞，重新定義了AI模型性能與規模化的標桿。

· “人類終極測試” (Humanity's Last Exam)：Grok 4在無工具輔助的情況下得分率為26.9%，使用工具（網頁瀏覽、記憶、代碼執行）后則提升至41%。Grok 4 Heavy更是高達50.7%，大幅超越了Gemini 2.5 Pro和Claude 3。

· “刷榜”高難度測試：Grok 4 Heavy在GPQA測試中得分率達88.9%，在AIME 2025中更是取得100%的滿分，在Live CodeBench和Math Arena中也分別達到了79.4%和96.7%的高分，在多個高難度基準測試中幾乎都刷新了紀錄。正如馬斯克所說：“在學術問題方面，Grok 4超越了各學科博士的水平。”

· 強大的流體智力：Grok 4在ARC AGI測試中展現出強大的“流體智力”，其V1版本得分率為66.6%，V2版本達15.9%，較此前最高記錄幾乎翻番。

· 驚人的訓練規模：Grok 4通過規模化強化學習（RL）訓練，實現了SOTA級的推理能力。其訓練量是Grok 2的100倍，AI推理專項RL訓練量是Grok 3的10倍，總計消耗了驚人的10^28 FLOPs（浮點運算次數）。

Grok 4現已向SuperGrok和Premium+訂閱用戶開放。與此同時，xAI公司推出了月費300美元的訂閱服務，供用戶搶先體驗Grok 4 Heavy。馬斯克還宣布將把Grok 4引入特斯拉電動汽車。

馬斯克表示：“我認為AI模型最早在今年晚些時候就可能發現新技術，如果明年它還沒做到，我會非常震驚……它甚至可能在明年發現新的物理學定律，我敢說兩年內這幾乎是板上釘釘的事。”

銳評：Grok 4發布會與其說是科技盛宴，不如說是馬斯克的個人脫口秀+凡爾賽現場。

AI的盡頭是中國大腦！ xAI團隊自拍慶祝Grok 4發布（來源：科技大佬見聞）

二、AI技術與產品發布——神仙打架，凡人吃瓜

1. 新聞：月之暗面發布Kimi K2。這是一款擁有一萬億總參數和320億激活參數的開源MoE模型，也是目前規模最大、性能最強的開源AI模型之一，在編碼和自主智能體任務上表現尤為突出。月之暗面將其描述為“反應迅捷、無需長時間思考的‘反射級’模型”，并通過創新的MuonClip優化器來確保訓練穩定。該公司的目標是通過開源和富有競爭力的API定價，來加速市場普及。

銳評：月之暗面直接把參數干到一萬億，主打一個“大力出奇跡”。

2. 新聞：Mistral AI發布了編碼模型Devstral Small 1.1和Devstral Medium 2507。開源的24B參數模型Devstral Small 1.1，在SWE-Bench Verified基準上得分率達53.6%，在同等規模模型中表現最佳。而僅提供API的Devstral Medium 2507，在同一基準測試中得分率達61.6%，性能媲美Gemini 2.5 Pro和Claude 4 Sonnet，但成本更低。兩款模型均支持Mistral函數調用，可本地部署或通過企業API使用。

銳評：依舊是那個務實的“價格屠夫”，用更低成本撬動接近頂級模型的性能。

3. 新聞：Liquid AI發布了邊緣AI模型家族LFM2，參數量從3.5億到12億不等。該公司宣稱，LFM2“專為提供全行業最快的設備端生成式AI體驗而打造”。該模型基于混合卷積-注意力架構，實現了超高效的設備端推理，其CPU解碼與預填充性能達到Qwen3的兩倍，從而在手機、筆記本電腦等邊緣設備上解鎖了生成式AI能力。模型權重與代碼已在Hugging Face上開源，并集成至Liquid AI平臺以及iOS原生應用。

銳評：這波操作簡直就是給手機、筆記本配了個“小型大腦”。

4. 新聞：Reka發布了開源多模態模型Reka Flash 3.1，參數量210億，并增強了推理能力，在AIME24數學基準測試中得分率達65%。用戶可通過Reka的API和GitHub訪問，并可對其進行微調以用于特定領域，為多模態AI開發提供了透明的基礎。Reka Flash 3.1也為Reka Research AI智能體處理網頁和文檔查詢提供了支持。

銳評：能幫忙掃網頁、翻文檔，連Ctrl+C、Ctrl+V都省了。

5. 新聞：Reka還發布了Reka Vision多模態平臺，支持用戶通過自然語言查詢來搜索、分析和編輯視頻及圖片庫。此外，系統還能從長視頻中自動生成社交媒體短視頻、實時監控事件，并大規模總結視覺內容。

銳評：“看圖說話”都不夠格了，Reka直接來了個“看圖剪片一條龍”。

6. 新聞：HuggingFace發布了全開源模型SmolLM3。該模型參數量30億，提供雙模態推理，能根據需求進行“分布思考”或“直接回答”（即支持“思考/不思考”模式）。Hugging Face已開源所有模型權重、數據集配方和訓練圖譜，支持在單GPU上構建完全可復現的多語言助手。SmolLM3擁有12.8萬token的上下文窗口，其基準測試性能優于Llama-3.2-3B等同類模型，非常適合在本地和邊緣設備上使用。

銳評：30億的參數會不會讓手機發燙？

7. 新聞：Hugging Face推出了桌面機器人Reachy Mini，售價299美元，旨在成為“AI開發者的標準開源桌面機器人”。這款11英寸高的人形機器人集成了Hugging Face Hub，提供了一個開源易用的平臺，并以支持Python編程的DIY套件形式發貨。

銳評：299美元就能DIY自己的AI機器人，可謂“AI飛入尋常百姓家”。

8. 新聞：Moonvalley推出了商用AI視頻模型Marey。這是首個完全基于授權高清素材訓練的商用安全模型，主要面向專業電影制作人和工作室。Marey能生成高質量的1080p視頻，提供鏡頭運動、角色移動、場景剪輯等精細化的導演級控制，并采用積分制訂閱服務。

銳評：最大亮點莫過于所有素材都有版權。

9. 新聞：谷歌為其AI視頻生成器Veo 3增添了“圖像生成視頻”功能。用戶可通過Gemini應用上傳圖片并輸入提示，生成8秒配有同步音頻和對話的視頻。Google AI Ultra和Pro用戶有每日生成3條的限額，但在過去7周內已創建超4000萬條視頻。

銳評：要沒有限額，谷歌服務器該爆了。

10. 新聞：Perplexity推出了AI瀏覽器Comet。Comet瀏覽器內置AI助手，可通過自然語言命令自動執行任務，比如篩選LinkedIn邀請、提取并總結文檔內容、網購以及管理日程等。與其他網頁瀏覽智能體不同，Comet通過在本地運行并存儲數據來強調用戶隱私。目前，Comet瀏覽器向每月200美元的Perplexity Max訂閱用戶開放，并將在夏季逐步開放邀請制體驗。

銳評：每月掏200美元的瀏覽器有幾個人能用得起？

11. 新聞：LTX Studio為其視頻模型LTX-Video發布了三款開源LoRA適配器，分別對應姿態（Pose）、深度（Depth）和邊緣檢測（Canny），用以實現對AI生成視頻中人體運動、場景結構與邊緣細節的精準控制。該版本在LTX-Video-Trainer中增加了情境LoRA訓練支持，可讓開發者創建自定義的視頻控制模塊。這些控制模塊可通過ComfyUI工作流與現有風格及鏡頭運動LoRA集成，模型已托管在Hugging Face和GitHub上。

銳評：大方為視頻生成奉上三味調料：動感、深度和銳度。

12. 新聞：亞馬遜云服務（AWS）將于7月15日推出AI智能體市場，而Anthropic將作為重要合作伙伴入駐。該市場將允許初創公司直接向AWS客戶提供AI智能體，從而打造一個企業級的集成中心。此舉旨在效仿谷歌、微軟，助力Anthropic等合作伙伴擴大分發渠道。

銳評：亞馬遜又想在AI世界開市場。

13. 新聞：OpenAI推遲發布開源模型。公司首席執行官薩姆·奧特曼（Sam Altman）宣布，其備受期待的開源模型發布將無限期推遲，理由是需要進行更多安全測試。

銳評：“安全”是個筐，啥都能往里裝。

三、AI科學研究資訊——AI大神請走下神壇

新聞：METR的一項新研究對AI編程工具的效能提出了質疑。這篇題為《2025年初AI對資深開源開發者生產力影響評估》（Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity）的研究指出，盡管開發者主觀認為Cursor Pro等AI工具節省了時間，但其隨機試驗顯示，這些工具非但沒有提高資深開源開發者的工作效率，反而讓任務完成時間增加了19%。

銳評：別以為有了AI就能高枕無憂，AI也可能幫倒忙。

四、AI商業與政策——話題總離不開錢和人

1. 新聞：英偉達市值突破4萬億美元。上周三，英偉達股價在投資者熱捧下短暫突破4萬億美元大關，再創歷史新高。自2022年底ChatGPT問世以來，全球對AI硬件和芯片的需求激增，英偉達因此獲利頗豐，并牢牢掌控著大語言模型的GPU市場。

英偉達市值突破4萬億美元！相當于日本去年GDP （來源：科技大佬見聞）

銳評：這是核動力印鈔機。

2. 新聞：英偉達計劃今年9月專為中國市場推出一款AI芯片。這款芯片基于經過修改的Blackwell RTX Pro 6000打造，為了符合規定而移除了高帶寬內存（HBM）和NVLink。盡管美國實施出口限制，但英偉達似乎決心要繼續深耕中國市場。

銳評：黃老板算盤打得比誰都精，有錢就要賺。

3. 新聞：AI人才爭奪戰仍在繼續。此前，OpenAI斥資30億美元收購AI編程初創公司Windsurf的交易已經告吹。隨后，谷歌DeepMind將Windsurf首席執行官瓦倫·莫漢（Varun Mohan）、聯合創始人陳高歌(Douglas Chen)及核心研發人員招至麾下，并獲得了非獨家技術許可。新團隊將專為谷歌Gemini模型開發智能體編程能力，以增強谷歌在AI編程領域的實力。

銳評：谷歌截胡也挺溜。

4. 新聞：蘋果AI再遭重創：其大語言模型負責人龐若鳴即將跳槽至Meta新成立的“超級智能”團隊。彭博社稱，Meta對他開出了2億美金的天價。

14億！小扎天價挖華人大神！網友：這收入都趕上梅西、C羅了（來源：科技大佬見聞）

銳評：蘋果這不是被挖墻腳，是墻被人拆了。

5. 新聞：Manus被爆大規模裁員。年初爆火的AI智能體公司Manus（北京蝴蝶效應科技有限公司）近期在國內進行大規模裁員，120名員工中除40余名核心技術人員遷往新加坡總部，其余皆被裁員，并且公司總部從中國遷至新加坡。

銳評：年初國內刷屏，年中又搞大遷徙，這只蝴蝶不簡單。

6. 新聞：AI重塑招聘市場。招聘網站Indeed和Glassdoor的母公司Recruit Holdings宣布裁員約1300人，占員工總數的6%。該公司正通過整合AI來簡化招聘流程、減少人工操作。其首席執行官將裁員歸因于AI對就業市場的變革性影響。

銳評：被裁別怪領導，都是AI的鍋。

7.新聞：AI顛覆風險投資模式。Sarah Smith Fund基金的獨立合伙人薩沙·史密斯（Sarah Smith）宣布，其首期基金已完成1600萬美元募資。她利用AI高效運營風投公司，以實現快速決策并擴大投資組合。

銳評：以后找風投，除了BP要寫得好，還得先問問AI同不同意。

8.新聞：兩家AI初創公司獲得百萬級融資。由前白宮和國務院官員共同創立的Helios公司正式亮相，獲得400萬美元的種子輪資金。其旗艦產品Proxi是一款專為公共政策、監管事務、法律和政府團隊設計的AI操作系統。此外，空間數據分析初創公司LGND也獲得了900萬美元種子輪融資，其技術將原始地理數據轉化為“地理嵌入向量”進行高效分析，目前正擴展企業應用及空間查詢API。

銳評：AI觸角是越來越多。

9.新聞：星動紀元官宣完成5億元A輪融資。本輪融資將用于人形機器人軟硬件技術的研發與量產落地，推動“模型-本體-場景數據”閉環飛輪的高速運轉。

銳評：人形機器人也要“卷”出新高度。

10.新聞：SpaceX承諾向xAI投資20億美元。此舉將進一步強化馬斯克商業帝國各板塊間的聯動，也有助于xAI全力追趕競爭對手OpenAI。

銳評：馬斯克“左手倒右手”，給AI“輸血”還是“沖業績”？

五、AI觀點與評論——巨頭們的“大實話”與“小算盤”

1. 新聞：Grok失控引發安全擔憂。上周，Grok 3一度徹底失控，發表了極端主義觀點和仇恨言論，甚至自稱為“機械希特勒”。xAI和Grok為此“駭人聽聞的行為”致歉。立法者要求xAI對這些“荒謬且惡劣”的回答來源以及可能導致此問題的開發失誤作出解釋。此外，xAI的Grok 4聊天機器人也因生成偏向馬斯克個人觀點、帶有偏見的輸出內容而受到批評，因為它甚至將馬斯克發布的社交媒體帖子作為信息來源。這些失敗案例疊加AI能力的激增，加劇了人們對AI安全性的憂慮。馬斯克在追求超級智能的同時，只是表示AI“很可能”對人類有益，這無助于緩解擔憂情緒。他說，“我們正處在智能大爆炸的時代，身處史上最有趣的紀元……這對人類是福是禍？……很可能是福，但我也坦然接受：縱使結局是禍，我至少愿活著見證其發生。”

銳評：馬斯克的“AI大爆炸”別整成“AI大翻車”。

2. 新聞：奧特曼似乎在為自家的軟硬一體化轉型鋪路。OpenAI首席執行官稱，當前的筆記本電腦和手機等設備并非為AI而生，難以滿足未來對“始終在線”、“環境感知”智能助手的需求。目前，OpenAI正在主導“星門計劃”AI基礎設施建設，并以65億美元收購了由前蘋果傳奇設計師創辦的硬件公司io，旨在打造全新的AI設備和生態。

銳評：這是在為自家的軟硬一體化生態圈提前吹風吧。

3. 新聞：黃仁勛談AI風險。英偉達CEO在身家反超巴菲特時發出警告，如果行業缺乏持續創新，那么人工智能帶來的生產力飛躍，最終可能演變成一場失業危機。

銳評：只要AI持續創新，英偉達就有錢賺。

4. 新聞：吳恩達為AI熱“降溫”。Google Brain創始人吳恩達在Y Combinator活動上表示“AGI遠未到來”，并認為當前對通用人工智能的炒作過度，他呼吁業界聚焦于提升現有AI工具在各垂直領域的實際應用價值。

銳評：別總想“AI統治世界”這種虛頭巴腦的事兒。（辰辰）