本周焦點:Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet瀏覽器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。
一、重磅工具Grok 4——馬斯克的“王炸與豪賭”
新聞:在一場直播發布會中,xAI團隊與埃隆·馬斯克(Elon Mus)重磅推出了Grok 4,宣稱其是“全球最智能模型”,并展示了該模型在各項基準測試中的頂尖(SOTA)表現。他們還發布了多智能體變體Grok 4 Heavy,該變體能讓多個智能體協作運行Grok 4,并從各自獨立運行的結果中篩選出最優解。Grok 4的發布堪稱重磅新聞,重新定義了AI模型性能與規模化的標桿。
· “人類終極測試” (Humanity's Last Exam):Grok 4在無工具輔助的情況下得分率為26.9%,使用工具(網頁瀏覽、記憶、代碼執行)后則提升至41%。Grok 4 Heavy更是高達50.7%,大幅超越了Gemini 2.5 Pro和Claude 3。
· “刷榜”高難度測試:Grok 4 Heavy在GPQA測試中得分率達88.9%,在AIME 2025中更是取得100%的滿分,在Live CodeBench和Math Arena中也分別達到了79.4%和96.7%的高分,在多個高難度基準測試中幾乎都刷新了紀錄。正如馬斯克所說:“在學術問題方面,Grok 4超越了各學科博士的水平。”
· 強大的流體智力:Grok 4在ARC AGI測試中展現出強大的“流體智力”,其V1版本得分率為66.6%,V2版本達15.9%,較此前最高記錄幾乎翻番。
· 驚人的訓練規模:Grok 4通過規模化強化學習(RL)訓練,實現了SOTA級的推理能力。其訓練量是Grok 2的100倍,AI推理專項RL訓練量是Grok 3的10倍,總計消耗了驚人的10^28 FLOPs(浮點運算次數)。
Grok 4現已向SuperGrok和Premium+訂閱用戶開放。與此同時,xAI公司推出了月費300美元的訂閱服務,供用戶搶先體驗Grok 4 Heavy。馬斯克還宣布將把Grok 4引入特斯拉電動汽車。
馬斯克表示:“我認為AI模型最早在今年晚些時候就可能發現新技術,如果明年它還沒做到,我會非常震驚……它甚至可能在明年發現新的物理學定律,我敢說兩年內這幾乎是板上釘釘的事。”
銳評:Grok 4發布會與其說是科技盛宴,不如說是馬斯克的個人脫口秀+凡爾賽現場。
二、AI技術與產品發布——神仙打架,凡人吃瓜
1. 新聞:月之暗面發布Kimi K2。這是一款擁有一萬億總參數和320億激活參數的開源MoE模型,也是目前規模最大、性能最強的開源AI模型之一,在編碼和自主智能體任務上表現尤為突出。月之暗面將其描述為“反應迅捷、無需長時間思考的‘反射級’模型”,并通過創新的MuonClip優化器來確保訓練穩定。該公司的目標是通過開源和富有競爭力的API定價,來加速市場普及。
銳評:月之暗面直接把參數干到一萬億,主打一個“大力出奇跡”。
2. 新聞:Mistral AI發布了編碼模型Devstral Small 1.1和Devstral Medium 2507。開源的24B參數模型Devstral Small 1.1,在SWE-Bench Verified基準上得分率達53.6%,在同等規模模型中表現最佳。而僅提供API的Devstral Medium 2507,在同一基準測試中得分率達61.6%,性能媲美Gemini 2.5 Pro和Claude 4 Sonnet,但成本更低。兩款模型均支持Mistral函數調用,可本地部署或通過企業API使用。
銳評:依舊是那個務實的“價格屠夫”,用更低成本撬動接近頂級模型的性能。
3. 新聞:Liquid AI發布了邊緣AI模型家族LFM2,參數量從3.5億到12億不等。該公司宣稱,LFM2“專為提供全行業最快的設備端生成式AI體驗而打造”。該模型基于混合卷積-注意力架構,實現了超高效的設備端推理,其CPU解碼與預填充性能達到Qwen3的兩倍,從而在手機、筆記本電腦等邊緣設備上解鎖了生成式AI能力。模型權重與代碼已在Hugging Face上開源,并集成至Liquid AI平臺以及iOS原生應用。
銳評:這波操作簡直就是給手機、筆記本配了個“小型大腦”。
4. 新聞:Reka發布了開源多模態模型Reka Flash 3.1,參數量210億,并增強了推理能力,在AIME24數學基準測試中得分率達65%。用戶可通過Reka的API和GitHub訪問,并可對其進行微調以用于特定領域,為多模態AI開發提供了透明的基礎。Reka Flash 3.1也為Reka Research AI智能體處理網頁和文檔查詢提供了支持。
銳評:能幫忙掃網頁、翻文檔,連Ctrl+C、Ctrl+V都省了。
5. 新聞:Reka還發布了Reka Vision多模態平臺,支持用戶通過自然語言查詢來搜索、分析和編輯視頻及圖片庫。此外,系統還能從長視頻中自動生成社交媒體短視頻、實時監控事件,并大規模總結視覺內容。
銳評:“看圖說話”都不夠格了,Reka直接來了個“看圖剪片一條龍”。
6. 新聞:HuggingFace發布了全開源模型SmolLM3。該模型參數量30億,提供雙模態推理,能根據需求進行“分布思考”或“直接回答”(即支持“思考/不思考”模式)。Hugging Face已開源所有模型權重、數據集配方和訓練圖譜,支持在單GPU上構建完全可復現的多語言助手。SmolLM3擁有12.8萬token的上下文窗口,其基準測試性能優于Llama-3.2-3B等同類模型,非常適合在本地和邊緣設備上使用。
銳評:30億的參數會不會讓手機發燙?
7. 新聞:Hugging Face推出了桌面機器人Reachy Mini,售價299美元,旨在成為“AI開發者的標準開源桌面機器人”。這款11英寸高的人形機器人集成了Hugging Face Hub,提供了一個開源易用的平臺,并以支持Python編程的DIY套件形式發貨。
銳評:299美元就能DIY自己的AI機器人,可謂“AI飛入尋常百姓家”。
8. 新聞:Moonvalley推出了商用AI視頻模型Marey。這是首個完全基于授權高清素材訓練的商用安全模型,主要面向專業電影制作人和工作室。Marey能生成高質量的1080p視頻,提供鏡頭運動、角色移動、場景剪輯等精細化的導演級控制,并采用積分制訂閱服務。
銳評:最大亮點莫過于所有素材都有版權。
9. 新聞:谷歌為其AI視頻生成器Veo 3增添了“圖像生成視頻”功能。用戶可通過Gemini應用上傳圖片并輸入提示,生成8秒配有同步音頻和對話的視頻。Google AI Ultra和Pro用戶有每日生成3條的限額,但在過去7周內已創建超4000萬條視頻。
銳評:要沒有限額,谷歌服務器該爆了。
10. 新聞:Perplexity推出了AI瀏覽器Comet。Comet瀏覽器內置AI助手,可通過自然語言命令自動執行任務,比如篩選LinkedIn邀請、提取并總結文檔內容、網購以及管理日程等。與其他網頁瀏覽智能體不同,Comet通過在本地運行并存儲數據來強調用戶隱私。目前,Comet瀏覽器向每月200美元的Perplexity Max訂閱用戶開放,并將在夏季逐步開放邀請制體驗。
銳評:每月掏200美元的瀏覽器有幾個人能用得起?
11. 新聞:LTX Studio為其視頻模型LTX-Video發布了三款開源LoRA適配器,分別對應姿態(Pose)、深度(Depth)和邊緣檢測(Canny),用以實現對AI生成視頻中人體運動、場景結構與邊緣細節的精準控制。該版本在LTX-Video-Trainer中增加了情境LoRA訓練支持,可讓開發者創建自定義的視頻控制模塊。這些控制模塊可通過ComfyUI工作流與現有風格及鏡頭運動LoRA集成,模型已托管在Hugging Face和GitHub上。
銳評:大方為視頻生成奉上三味調料:動感、深度和銳度。
12. 新聞:亞馬遜云服務(AWS)將于7月15日推出AI智能體市場,而Anthropic將作為重要合作伙伴入駐。該市場將允許初創公司直接向AWS客戶提供AI智能體,從而打造一個企業級的集成中心。此舉旨在效仿谷歌、微軟,助力Anthropic等合作伙伴擴大分發渠道。
銳評:亞馬遜又想在AI世界開市場。
13. 新聞:OpenAI推遲發布開源模型。公司首席執行官薩姆·奧特曼(Sam Altman)宣布,其備受期待的開源模型發布將無限期推遲,理由是需要進行更多安全測試。
銳評:“安全”是個筐,啥都能往里裝。
三、AI科學研究資訊——AI大神請走下神壇
新聞:METR的一項新研究對AI編程工具的效能提出了質疑。這篇題為《2025年初AI對資深開源開發者生產力影響評估》(Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity)的研究指出,盡管開發者主觀認為Cursor Pro等AI工具節省了時間,但其隨機試驗顯示,這些工具非但沒有提高資深開源開發者的工作效率,反而讓任務完成時間增加了19%。
銳評:別以為有了AI就能高枕無憂,AI也可能幫倒忙。
四、AI商業與政策——話題總離不開錢和人
1. 新聞:英偉達市值突破4萬億美元。上周三,英偉達股價在投資者熱捧下短暫突破4萬億美元大關,再創歷史新高。自2022年底ChatGPT問世以來,全球對AI硬件和芯片的需求激增,英偉達因此獲利頗豐,并牢牢掌控著大語言模型的GPU市場。
銳評:這是核動力印鈔機。
2. 新聞:英偉達計劃今年9月專為中國市場推出一款AI芯片。這款芯片基于經過修改的Blackwell RTX Pro 6000打造,為了符合規定而移除了高帶寬內存(HBM)和NVLink。盡管美國實施出口限制,但英偉達似乎決心要繼續深耕中國市場。
銳評:黃老板算盤打得比誰都精,有錢就要賺。
3. 新聞:AI人才爭奪戰仍在繼續。此前,OpenAI斥資30億美元收購AI編程初創公司Windsurf的交易已經告吹。隨后,谷歌DeepMind將Windsurf首席執行官瓦倫·莫漢(Varun Mohan)、聯合創始人陳高歌(Douglas Chen)及核心研發人員招至麾下,并獲得了非獨家技術許可。新團隊將專為谷歌Gemini模型開發智能體編程能力,以增強谷歌在AI編程領域的實力。
銳評:谷歌截胡也挺溜。
4. 新聞:蘋果AI再遭重創:其大語言模型負責人龐若鳴即將跳槽至Meta新成立的“超級智能”團隊。彭博社稱,Meta對他開出了2億美金的天價。
銳評:蘋果這不是被挖墻腳,是墻被人拆了。
5. 新聞:Manus被爆大規模裁員。年初爆火的AI智能體公司Manus(北京蝴蝶效應科技有限公司)近期在國內進行大規模裁員,120名員工中除40余名核心技術人員遷往新加坡總部,其余皆被裁員,并且公司總部從中國遷至新加坡。
銳評:年初國內刷屏,年中又搞大遷徙,這只蝴蝶不簡單。
6. 新聞:AI重塑招聘市場。招聘網站Indeed和Glassdoor的母公司Recruit Holdings宣布裁員約1300人,占員工總數的6%。該公司正通過整合AI來簡化招聘流程、減少人工操作。其首席執行官將裁員歸因于AI對就業市場的變革性影響。
銳評:被裁別怪領導,都是AI的鍋。
7.新聞:AI顛覆風險投資模式。Sarah Smith Fund基金的獨立合伙人薩沙·史密斯(Sarah Smith)宣布,其首期基金已完成1600萬美元募資。她利用AI高效運營風投公司,以實現快速決策并擴大投資組合。
銳評:以后找風投,除了BP要寫得好,還得先問問AI同不同意。
8.新聞:兩家AI初創公司獲得百萬級融資。由前白宮和國務院官員共同創立的Helios公司正式亮相,獲得400萬美元的種子輪資金。其旗艦產品Proxi是一款專為公共政策、監管事務、法律和政府團隊設計的AI操作系統。此外,空間數據分析初創公司LGND也獲得了900萬美元種子輪融資,其技術將原始地理數據轉化為“地理嵌入向量”進行高效分析,目前正擴展企業應用及空間查詢API。
銳評:AI觸角是越來越多。
9.新聞:星動紀元官宣完成5億元A輪融資。本輪融資將用于人形機器人軟硬件技術的研發與量產落地,推動“模型-本體-場景數據”閉環飛輪的高速運轉。
銳評:人形機器人也要“卷”出新高度。
10.新聞:SpaceX承諾向xAI投資20億美元。此舉將進一步強化馬斯克商業帝國各板塊間的聯動,也有助于xAI全力追趕競爭對手OpenAI。
銳評:馬斯克“左手倒右手”,給AI“輸血”還是“沖業績”?
五、AI觀點與評論——巨頭們的“大實話”與“小算盤”
1. 新聞:Grok失控引發安全擔憂。上周,Grok 3一度徹底失控,發表了極端主義觀點和仇恨言論,甚至自稱為“機械希特勒”。xAI和Grok為此“駭人聽聞的行為”致歉。立法者要求xAI對這些“荒謬且惡劣”的回答來源以及可能導致此問題的開發失誤作出解釋。此外,xAI的Grok 4聊天機器人也因生成偏向馬斯克個人觀點、帶有偏見的輸出內容而受到批評,因為它甚至將馬斯克發布的社交媒體帖子作為信息來源。這些失敗案例疊加AI能力的激增,加劇了人們對AI安全性的憂慮。馬斯克在追求超級智能的同時,只是表示AI“很可能”對人類有益,這無助于緩解擔憂情緒。他說,“我們正處在智能大爆炸的時代,身處史上最有趣的紀元……這對人類是福是禍?……很可能是福,但我也坦然接受:縱使結局是禍,我至少愿活著見證其發生。”
銳評:馬斯克的“AI大爆炸”別整成“AI大翻車”。
2. 新聞:奧特曼似乎在為自家的軟硬一體化轉型鋪路。OpenAI首席執行官稱,當前的筆記本電腦和手機等設備并非為AI而生,難以滿足未來對“始終在線”、“環境感知”智能助手的需求。目前,OpenAI正在主導“星門計劃”AI基礎設施建設,并以65億美元收購了由前蘋果傳奇設計師創辦的硬件公司io,旨在打造全新的AI設備和生態。
銳評:這是在為自家的軟硬一體化生態圈提前吹風吧。
3. 新聞:黃仁勛談AI風險。英偉達CEO在身家反超巴菲特時發出警告,如果行業缺乏持續創新,那么人工智能帶來的生產力飛躍,最終可能演變成一場失業危機。
銳評:只要AI持續創新,英偉達就有錢賺。
4. 新聞:吳恩達為AI熱“降溫”。Google Brain創始人吳恩達在Y Combinator活動上表示“AGI遠未到來”,并認為當前對通用人工智能的炒作過度,他呼吁業界聚焦于提升現有AI工具在各垂直領域的實際應用價值。
銳評:別總想“AI統治世界”這種虛頭巴腦的事兒。(辰辰)