網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

一周AI大事：Grok 4硬剛GPT-5，英偉達市值破4萬億美元

2025-07-14 08:26:15　來源: 網(wǎng)易科技報道

北京舉報

分享至

本周焦點：Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet瀏覽器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。

一、重磅工具Grok 4——馬斯克的“王炸與豪賭”

新聞：在一場直播發(fā)布會中，xAI團隊與埃隆·馬斯克（Elon Mus）重磅推出了Grok 4，宣稱其是“全球最智能模型”，并展示了該模型在各項基準測試中的頂尖（SOTA）表現(xiàn)。他們還發(fā)布了多智能體變體Grok 4 Heavy，該變體能讓多個智能體協(xié)作運行Grok 4，并從各自獨立運行的結(jié)果中篩選出最優(yōu)解。Grok 4的發(fā)布堪稱重磅新聞，重新定義了AI模型性能與規(guī)模化的標桿。

· “人類終極測試” (Humanity's Last Exam)：Grok 4在無工具輔助的情況下得分率為26.9%，使用工具（網(wǎng)頁瀏覽、記憶、代碼執(zhí)行）后則提升至41%。Grok 4 Heavy更是高達50.7%，大幅超越了Gemini 2.5 Pro和Claude 3。

· “刷榜”高難度測試：Grok 4 Heavy在GPQA測試中得分率達88.9%，在AIME 2025中更是取得100%的滿分，在Live CodeBench和Math Arena中也分別達到了79.4%和96.7%的高分，在多個高難度基準測試中幾乎都刷新了紀錄。正如馬斯克所說：“在學術(shù)問題方面，Grok 4超越了各學科博士的水平。”

· 強大的流體智力：Grok 4在ARC AGI測試中展現(xiàn)出強大的“流體智力”，其V1版本得分率為66.6%，V2版本達15.9%，較此前最高記錄幾乎翻番。

· 驚人的訓練規(guī)模：Grok 4通過規(guī)模化強化學習（RL）訓練，實現(xiàn)了SOTA級的推理能力。其訓練量是Grok 2的100倍，AI推理專項RL訓練量是Grok 3的10倍，總計消耗了驚人的10^28 FLOPs（浮點運算次數(shù)）。

Grok 4現(xiàn)已向SuperGrok和Premium+訂閱用戶開放。與此同時，xAI公司推出了月費300美元的訂閱服務(wù)，供用戶搶先體驗Grok 4 Heavy。馬斯克還宣布將把Grok 4引入特斯拉電動汽車。

馬斯克表示：“我認為AI模型最早在今年晚些時候就可能發(fā)現(xiàn)新技術(shù)，如果明年它還沒做到，我會非常震驚……它甚至可能在明年發(fā)現(xiàn)新的物理學定律，我敢說兩年內(nèi)這幾乎是板上釘釘?shù)氖隆！?/p>

銳評：Grok 4發(fā)布會與其說是科技盛宴，不如說是馬斯克的個人脫口秀+凡爾賽現(xiàn)場。

AI的盡頭是中國大腦！ xAI團隊自拍慶祝Grok 4發(fā)布（來源：科技大佬見聞）

二、AI技術(shù)與產(chǎn)品發(fā)布——神仙打架，凡人吃瓜

1. 新聞：月之暗面發(fā)布Kimi K2。這是一款擁有一萬億總參數(shù)和320億激活參數(shù)的開源MoE模型，也是目前規(guī)模最大、性能最強的開源AI模型之一，在編碼和自主智能體任務(wù)上表現(xiàn)尤為突出。月之暗面將其描述為“反應(yīng)迅捷、無需長時間思考的‘反射級’模型”，并通過創(chuàng)新的MuonClip優(yōu)化器來確保訓練穩(wěn)定。該公司的目標是通過開源和富有競爭力的API定價，來加速市場普及。

銳評：月之暗面直接把參數(shù)干到一萬億，主打一個“大力出奇跡”。

2. 新聞：Mistral AI發(fā)布了編碼模型Devstral Small 1.1和Devstral Medium 2507。開源的24B參數(shù)模型Devstral Small 1.1，在SWE-Bench Verified基準上得分率達53.6%，在同等規(guī)模模型中表現(xiàn)最佳。而僅提供API的Devstral Medium 2507，在同一基準測試中得分率達61.6%，性能媲美Gemini 2.5 Pro和Claude 4 Sonnet，但成本更低。兩款模型均支持Mistral函數(shù)調(diào)用，可本地部署或通過企業(yè)API使用。

銳評：依舊是那個務(wù)實的“價格屠夫”，用更低成本撬動接近頂級模型的性能。

3. 新聞：Liquid AI發(fā)布了邊緣AI模型家族LFM2，參數(shù)量從3.5億到12億不等。該公司宣稱，LFM2“專為提供全行業(yè)最快的設(shè)備端生成式AI體驗而打造”。該模型基于混合卷積-注意力架構(gòu)，實現(xiàn)了超高效的設(shè)備端推理，其CPU解碼與預填充性能達到Qwen3的兩倍，從而在手機、筆記本電腦等邊緣設(shè)備上解鎖了生成式AI能力。模型權(quán)重與代碼已在Hugging Face上開源，并集成至Liquid AI平臺以及iOS原生應(yīng)用。

銳評：這波操作簡直就是給手機、筆記本配了個“小型大腦”。

4. 新聞：Reka發(fā)布了開源多模態(tài)模型Reka Flash 3.1，參數(shù)量210億，并增強了推理能力，在AIME24數(shù)學基準測試中得分率達65%。用戶可通過Reka的API和GitHub訪問，并可對其進行微調(diào)以用于特定領(lǐng)域，為多模態(tài)AI開發(fā)提供了透明的基礎(chǔ)。Reka Flash 3.1也為Reka Research AI智能體處理網(wǎng)頁和文檔查詢提供了支持。

銳評：能幫忙掃網(wǎng)頁、翻文檔，連Ctrl+C、Ctrl+V都省了。

5. 新聞：Reka還發(fā)布了Reka Vision多模態(tài)平臺，支持用戶通過自然語言查詢來搜索、分析和編輯視頻及圖片庫。此外，系統(tǒng)還能從長視頻中自動生成社交媒體短視頻、實時監(jiān)控事件，并大規(guī)模總結(jié)視覺內(nèi)容。

銳評：“看圖說話”都不夠格了，Reka直接來了個“看圖剪片一條龍”。

6. 新聞：HuggingFace發(fā)布了全開源模型SmolLM3。該模型參數(shù)量30億，提供雙模態(tài)推理，能根據(jù)需求進行“分布思考”或“直接回答”（即支持“思考/不思考”模式）。Hugging Face已開源所有模型權(quán)重、數(shù)據(jù)集配方和訓練圖譜，支持在單GPU上構(gòu)建完全可復現(xiàn)的多語言助手。SmolLM3擁有12.8萬token的上下文窗口，其基準測試性能優(yōu)于Llama-3.2-3B等同類模型，非常適合在本地和邊緣設(shè)備上使用。

銳評：30億的參數(shù)會不會讓手機發(fā)燙？

7. 新聞：Hugging Face推出了桌面機器人Reachy Mini，售價299美元，旨在成為“AI開發(fā)者的標準開源桌面機器人”。這款11英寸高的人形機器人集成了Hugging Face Hub，提供了一個開源易用的平臺，并以支持Python編程的DIY套件形式發(fā)貨。

銳評：299美元就能DIY自己的AI機器人，可謂“AI飛入尋常百姓家”。

8. 新聞：Moonvalley推出了商用AI視頻模型Marey。這是首個完全基于授權(quán)高清素材訓練的商用安全模型，主要面向?qū)I(yè)電影制作人和工作室。Marey能生成高質(zhì)量的1080p視頻，提供鏡頭運動、角色移動、場景剪輯等精細化的導演級控制，并采用積分制訂閱服務(wù)。

銳評：最大亮點莫過于所有素材都有版權(quán)。

9. 新聞：谷歌為其AI視頻生成器Veo 3增添了“圖像生成視頻”功能。用戶可通過Gemini應(yīng)用上傳圖片并輸入提示，生成8秒配有同步音頻和對話的視頻。Google AI Ultra和Pro用戶有每日生成3條的限額，但在過去7周內(nèi)已創(chuàng)建超4000萬條視頻。

銳評：要沒有限額，谷歌服務(wù)器該爆了。

10. 新聞：Perplexity推出了AI瀏覽器Comet。Comet瀏覽器內(nèi)置AI助手，可通過自然語言命令自動執(zhí)行任務(wù)，比如篩選LinkedIn邀請、提取并總結(jié)文檔內(nèi)容、網(wǎng)購以及管理日程等。與其他網(wǎng)頁瀏覽智能體不同，Comet通過在本地運行并存儲數(shù)據(jù)來強調(diào)用戶隱私。目前，Comet瀏覽器向每月200美元的Perplexity Max訂閱用戶開放，并將在夏季逐步開放邀請制體驗。

銳評：每月掏200美元的瀏覽器有幾個人能用得起？

11. 新聞：LTX Studio為其視頻模型LTX-Video發(fā)布了三款開源LoRA適配器，分別對應(yīng)姿態(tài)（Pose）、深度（Depth）和邊緣檢測（Canny），用以實現(xiàn)對AI生成視頻中人體運動、場景結(jié)構(gòu)與邊緣細節(jié)的精準控制。該版本在LTX-Video-Trainer中增加了情境LoRA訓練支持，可讓開發(fā)者創(chuàng)建自定義的視頻控制模塊。這些控制模塊可通過ComfyUI工作流與現(xiàn)有風格及鏡頭運動LoRA集成，模型已托管在Hugging Face和GitHub上。

銳評：大方為視頻生成奉上三味調(diào)料：動感、深度和銳度。

12. 新聞：亞馬遜云服務(wù)（AWS）將于7月15日推出AI智能體市場，而Anthropic將作為重要合作伙伴入駐。該市場將允許初創(chuàng)公司直接向AWS客戶提供AI智能體，從而打造一個企業(yè)級的集成中心。此舉旨在效仿谷歌、微軟，助力Anthropic等合作伙伴擴大分發(fā)渠道。

銳評：亞馬遜又想在AI世界開市場。

13. 新聞：OpenAI推遲發(fā)布開源模型。公司首席執(zhí)行官薩姆·奧特曼（Sam Altman）宣布，其備受期待的開源模型發(fā)布將無限期推遲，理由是需要進行更多安全測試。

銳評：“安全”是個筐，啥都能往里裝。

三、AI科學研究資訊——AI大神請走下神壇

新聞：METR的一項新研究對AI編程工具的效能提出了質(zhì)疑。這篇題為《2025年初AI對資深開源開發(fā)者生產(chǎn)力影響評估》（Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity）的研究指出，盡管開發(fā)者主觀認為Cursor Pro等AI工具節(jié)省了時間，但其隨機試驗顯示，這些工具非但沒有提高資深開源開發(fā)者的工作效率，反而讓任務(wù)完成時間增加了19%。

銳評：別以為有了AI就能高枕無憂，AI也可能幫倒忙。

四、AI商業(yè)與政策——話題總離不開錢和人

1. 新聞：英偉達市值突破4萬億美元。上周三，英偉達股價在投資者熱捧下短暫突破4萬億美元大關(guān)，再創(chuàng)歷史新高。自2022年底ChatGPT問世以來，全球?qū)I硬件和芯片的需求激增，英偉達因此獲利頗豐，并牢牢掌控著大語言模型的GPU市場。

英偉達市值突破4萬億美元！相當于日本去年GDP （來源：科技大佬見聞）

銳評：這是核動力印鈔機。

2. 新聞：英偉達計劃今年9月專為中國市場推出一款AI芯片。這款芯片基于經(jīng)過修改的Blackwell RTX Pro 6000打造，為了符合規(guī)定而移除了高帶寬內(nèi)存（HBM）和NVLink。盡管美國實施出口限制，但英偉達似乎決心要繼續(xù)深耕中國市場。

銳評：黃老板算盤打得比誰都精，有錢就要賺。

3. 新聞：AI人才爭奪戰(zhàn)仍在繼續(xù)。此前，OpenAI斥資30億美元收購AI編程初創(chuàng)公司W(wǎng)indsurf的交易已經(jīng)告吹。隨后，谷歌DeepMind將Windsurf首席執(zhí)行官瓦倫·莫漢（Varun Mohan）、聯(lián)合創(chuàng)始人陳高歌(Douglas Chen)及核心研發(fā)人員招至麾下，并獲得了非獨家技術(shù)許可。新團隊將專為谷歌Gemini模型開發(fā)智能體編程能力，以增強谷歌在AI編程領(lǐng)域的實力。

銳評：谷歌截胡也挺溜。

4. 新聞：蘋果AI再遭重創(chuàng)：其大語言模型負責人龐若鳴即將跳槽至Meta新成立的“超級智能”團隊。彭博社稱，Meta對他開出了2億美金的天價。

14億！小扎天價挖華人大神！網(wǎng)友：這收入都趕上梅西、C羅了（來源：科技大佬見聞）

銳評：蘋果這不是被挖墻腳，是墻被人拆了。

5. 新聞：Manus被爆大規(guī)模裁員。年初爆火的AI智能體公司Manus（北京蝴蝶效應(yīng)科技有限公司）近期在國內(nèi)進行大規(guī)模裁員，120名員工中除40余名核心技術(shù)人員遷往新加坡總部，其余皆被裁員，并且公司總部從中國遷至新加坡。

銳評：年初國內(nèi)刷屏，年中又搞大遷徙，這只蝴蝶不簡單。

6. 新聞：AI重塑招聘市場。招聘網(wǎng)站Indeed和Glassdoor的母公司Recruit Holdings宣布裁員約1300人，占員工總數(shù)的6%。該公司正通過整合AI來簡化招聘流程、減少人工操作。其首席執(zhí)行官將裁員歸因于AI對就業(yè)市場的變革性影響。

銳評：被裁別怪領(lǐng)導，都是AI的鍋。

7.新聞：AI顛覆風險投資模式。Sarah Smith Fund基金的獨立合伙人薩沙·史密斯（Sarah Smith）宣布，其首期基金已完成1600萬美元募資。她利用AI高效運營風投公司，以實現(xiàn)快速決策并擴大投資組合。

銳評：以后找風投，除了BP要寫得好，還得先問問AI同不同意。

8.新聞：兩家AI初創(chuàng)公司獲得百萬級融資。由前白宮和國務(wù)院官員共同創(chuàng)立的Helios公司正式亮相，獲得400萬美元的種子輪資金。其旗艦產(chǎn)品Proxi是一款專為公共政策、監(jiān)管事務(wù)、法律和政府團隊設(shè)計的AI操作系統(tǒng)。此外，空間數(shù)據(jù)分析初創(chuàng)公司LGND也獲得了900萬美元種子輪融資，其技術(shù)將原始地理數(shù)據(jù)轉(zhuǎn)化為“地理嵌入向量”進行高效分析，目前正擴展企業(yè)應(yīng)用及空間查詢API。

銳評：AI觸角是越來越多。

9.新聞：星動紀元官宣完成5億元A輪融資。本輪融資將用于人形機器人軟硬件技術(shù)的研發(fā)與量產(chǎn)落地，推動“模型-本體-場景數(shù)據(jù)”閉環(huán)飛輪的高速運轉(zhuǎn)。

銳評：人形機器人也要“卷”出新高度。

10.新聞：SpaceX承諾向xAI投資20億美元。此舉將進一步強化馬斯克商業(yè)帝國各板塊間的聯(lián)動，也有助于xAI全力追趕競爭對手OpenAI。

銳評：馬斯克“左手倒右手”，給AI“輸血”還是“沖業(yè)績”？

五、AI觀點與評論——巨頭們的“大實話”與“小算盤”

1. 新聞：Grok失控引發(fā)安全擔憂。上周，Grok 3一度徹底失控，發(fā)表了極端主義觀點和仇恨言論，甚至自稱為“機械希特勒”。xAI和Grok為此“駭人聽聞的行為”致歉。立法者要求xAI對這些“荒謬且惡劣”的回答來源以及可能導致此問題的開發(fā)失誤作出解釋。此外，xAI的Grok 4聊天機器人也因生成偏向馬斯克個人觀點、帶有偏見的輸出內(nèi)容而受到批評，因為它甚至將馬斯克發(fā)布的社交媒體帖子作為信息來源。這些失敗案例疊加AI能力的激增，加劇了人們對AI安全性的憂慮。馬斯克在追求超級智能的同時，只是表示AI“很可能”對人類有益，這無助于緩解擔憂情緒。他說，“我們正處在智能大爆炸的時代，身處史上最有趣的紀元……這對人類是福是禍？……很可能是福，但我也坦然接受：縱使結(jié)局是禍，我至少愿活著見證其發(fā)生。”

銳評：馬斯克的“AI大爆炸”別整成“AI大翻車”。

2. 新聞：奧特曼似乎在為自家的軟硬一體化轉(zhuǎn)型鋪路。OpenAI首席執(zhí)行官稱，當前的筆記本電腦和手機等設(shè)備并非為AI而生，難以滿足未來對“始終在線”、“環(huán)境感知”智能助手的需求。目前，OpenAI正在主導“星門計劃”AI基礎(chǔ)設(shè)施建設(shè)，并以65億美元收購了由前蘋果傳奇設(shè)計師創(chuàng)辦的硬件公司io，旨在打造全新的AI設(shè)備和生態(tài)。

銳評：這是在為自家的軟硬一體化生態(tài)圈提前吹風吧。

3. 新聞：黃仁勛談AI風險。英偉達CEO在身家反超巴菲特時發(fā)出警告，如果行業(yè)缺乏持續(xù)創(chuàng)新，那么人工智能帶來的生產(chǎn)力飛躍，最終可能演變成一場失業(yè)危機。

銳評：只要AI持續(xù)創(chuàng)新，英偉達就有錢賺。

4. 新聞：吳恩達為AI熱“降溫”。Google Brain創(chuàng)始人吳恩達在Y Combinator活動上表示“AGI遠未到來”，并認為當前對通用人工智能的炒作過度，他呼吁業(yè)界聚焦于提升現(xiàn)有AI工具在各垂直領(lǐng)域的實際應(yīng)用價值。

銳評：別總想“AI統(tǒng)治世界”這種虛頭巴腦的事兒。（辰辰）