本周焦點:Grok 4 & Grok 4 Heavy, Devstral Small 1.1 & Medium 2507, 月之暗面Kimi K2, Perplexity Comet瀏覽器, LFM2, Reka Flash 3.1, Reka Vision, SmolLM3, Reachy Mini, LTX-Video LoRAs, Moonvalley Marey。
一、重磅工具Grok 4——馬斯克的“王炸與豪賭”
新聞:在一場直播發(fā)布會中,xAI團隊與埃隆·馬斯克(Elon Mus)重磅推出了Grok 4,宣稱其是“全球最智能模型”,并展示了該模型在各項基準測試中的頂尖(SOTA)表現(xiàn)。他們還發(fā)布了多智能體變體Grok 4 Heavy,該變體能讓多個智能體協(xié)作運行Grok 4,并從各自獨立運行的結(jié)果中篩選出最優(yōu)解。Grok 4的發(fā)布堪稱重磅新聞,重新定義了AI模型性能與規(guī)模化的標桿。
· “人類終極測試” (Humanity's Last Exam):Grok 4在無工具輔助的情況下得分率為26.9%,使用工具(網(wǎng)頁瀏覽、記憶、代碼執(zhí)行)后則提升至41%。Grok 4 Heavy更是高達50.7%,大幅超越了Gemini 2.5 Pro和Claude 3。
· “刷榜”高難度測試:Grok 4 Heavy在GPQA測試中得分率達88.9%,在AIME 2025中更是取得100%的滿分,在Live CodeBench和Math Arena中也分別達到了79.4%和96.7%的高分,在多個高難度基準測試中幾乎都刷新了紀錄。正如馬斯克所說:“在學術(shù)問題方面,Grok 4超越了各學科博士的水平。”
· 強大的流體智力:Grok 4在ARC AGI測試中展現(xiàn)出強大的“流體智力”,其V1版本得分率為66.6%,V2版本達15.9%,較此前最高記錄幾乎翻番。
· 驚人的訓練規(guī)模:Grok 4通過規(guī)模化強化學習(RL)訓練,實現(xiàn)了SOTA級的推理能力。其訓練量是Grok 2的100倍,AI推理專項RL訓練量是Grok 3的10倍,總計消耗了驚人的10^28 FLOPs(浮點運算次數(shù))。
Grok 4現(xiàn)已向SuperGrok和Premium+訂閱用戶開放。與此同時,xAI公司推出了月費300美元的訂閱服務(wù),供用戶搶先體驗Grok 4 Heavy。馬斯克還宣布將把Grok 4引入特斯拉電動汽車。
馬斯克表示:“我認為AI模型最早在今年晚些時候就可能發(fā)現(xiàn)新技術(shù),如果明年它還沒做到,我會非常震驚……它甚至可能在明年發(fā)現(xiàn)新的物理學定律,我敢說兩年內(nèi)這幾乎是板上釘釘?shù)氖隆!?/p>
銳評:Grok 4發(fā)布會與其說是科技盛宴,不如說是馬斯克的個人脫口秀+凡爾賽現(xiàn)場。
二、AI技術(shù)與產(chǎn)品發(fā)布——神仙打架,凡人吃瓜
1. 新聞:月之暗面發(fā)布Kimi K2。這是一款擁有一萬億總參數(shù)和320億激活參數(shù)的開源MoE模型,也是目前規(guī)模最大、性能最強的開源AI模型之一,在編碼和自主智能體任務(wù)上表現(xiàn)尤為突出。月之暗面將其描述為“反應(yīng)迅捷、無需長時間思考的‘反射級’模型”,并通過創(chuàng)新的MuonClip優(yōu)化器來確保訓練穩(wěn)定。該公司的目標是通過開源和富有競爭力的API定價,來加速市場普及。
銳評:月之暗面直接把參數(shù)干到一萬億,主打一個“大力出奇跡”。
2. 新聞:Mistral AI發(fā)布了編碼模型Devstral Small 1.1和Devstral Medium 2507。開源的24B參數(shù)模型Devstral Small 1.1,在SWE-Bench Verified基準上得分率達53.6%,在同等規(guī)模模型中表現(xiàn)最佳。而僅提供API的Devstral Medium 2507,在同一基準測試中得分率達61.6%,性能媲美Gemini 2.5 Pro和Claude 4 Sonnet,但成本更低。兩款模型均支持Mistral函數(shù)調(diào)用,可本地部署或通過企業(yè)API使用。
銳評:依舊是那個務(wù)實的“價格屠夫”,用更低成本撬動接近頂級模型的性能。
3. 新聞:Liquid AI發(fā)布了邊緣AI模型家族LFM2,參數(shù)量從3.5億到12億不等。該公司宣稱,LFM2“專為提供全行業(yè)最快的設(shè)備端生成式AI體驗而打造”。該模型基于混合卷積-注意力架構(gòu),實現(xiàn)了超高效的設(shè)備端推理,其CPU解碼與預填充性能達到Qwen3的兩倍,從而在手機、筆記本電腦等邊緣設(shè)備上解鎖了生成式AI能力。模型權(quán)重與代碼已在Hugging Face上開源,并集成至Liquid AI平臺以及iOS原生應(yīng)用。
銳評:這波操作簡直就是給手機、筆記本配了個“小型大腦”。
4. 新聞:Reka發(fā)布了開源多模態(tài)模型Reka Flash 3.1,參數(shù)量210億,并增強了推理能力,在AIME24數(shù)學基準測試中得分率達65%。用戶可通過Reka的API和GitHub訪問,并可對其進行微調(diào)以用于特定領(lǐng)域,為多模態(tài)AI開發(fā)提供了透明的基礎(chǔ)。Reka Flash 3.1也為Reka Research AI智能體處理網(wǎng)頁和文檔查詢提供了支持。
銳評:能幫忙掃網(wǎng)頁、翻文檔,連Ctrl+C、Ctrl+V都省了。
5. 新聞:Reka還發(fā)布了Reka Vision多模態(tài)平臺,支持用戶通過自然語言查詢來搜索、分析和編輯視頻及圖片庫。此外,系統(tǒng)還能從長視頻中自動生成社交媒體短視頻、實時監(jiān)控事件,并大規(guī)模總結(jié)視覺內(nèi)容。
銳評:“看圖說話”都不夠格了,Reka直接來了個“看圖剪片一條龍”。
6. 新聞:HuggingFace發(fā)布了全開源模型SmolLM3。該模型參數(shù)量30億,提供雙模態(tài)推理,能根據(jù)需求進行“分布思考”或“直接回答”(即支持“思考/不思考”模式)。Hugging Face已開源所有模型權(quán)重、數(shù)據(jù)集配方和訓練圖譜,支持在單GPU上構(gòu)建完全可復現(xiàn)的多語言助手。SmolLM3擁有12.8萬token的上下文窗口,其基準測試性能優(yōu)于Llama-3.2-3B等同類模型,非常適合在本地和邊緣設(shè)備上使用。
銳評:30億的參數(shù)會不會讓手機發(fā)燙?
7. 新聞:Hugging Face推出了桌面機器人Reachy Mini,售價299美元,旨在成為“AI開發(fā)者的標準開源桌面機器人”。這款11英寸高的人形機器人集成了Hugging Face Hub,提供了一個開源易用的平臺,并以支持Python編程的DIY套件形式發(fā)貨。
銳評:299美元就能DIY自己的AI機器人,可謂“AI飛入尋常百姓家”。
8. 新聞:Moonvalley推出了商用AI視頻模型Marey。這是首個完全基于授權(quán)高清素材訓練的商用安全模型,主要面向?qū)I(yè)電影制作人和工作室。Marey能生成高質(zhì)量的1080p視頻,提供鏡頭運動、角色移動、場景剪輯等精細化的導演級控制,并采用積分制訂閱服務(wù)。
銳評:最大亮點莫過于所有素材都有版權(quán)。
9. 新聞:谷歌為其AI視頻生成器Veo 3增添了“圖像生成視頻”功能。用戶可通過Gemini應(yīng)用上傳圖片并輸入提示,生成8秒配有同步音頻和對話的視頻。Google AI Ultra和Pro用戶有每日生成3條的限額,但在過去7周內(nèi)已創(chuàng)建超4000萬條視頻。
銳評:要沒有限額,谷歌服務(wù)器該爆了。
10. 新聞:Perplexity推出了AI瀏覽器Comet。Comet瀏覽器內(nèi)置AI助手,可通過自然語言命令自動執(zhí)行任務(wù),比如篩選LinkedIn邀請、提取并總結(jié)文檔內(nèi)容、網(wǎng)購以及管理日程等。與其他網(wǎng)頁瀏覽智能體不同,Comet通過在本地運行并存儲數(shù)據(jù)來強調(diào)用戶隱私。目前,Comet瀏覽器向每月200美元的Perplexity Max訂閱用戶開放,并將在夏季逐步開放邀請制體驗。
銳評:每月掏200美元的瀏覽器有幾個人能用得起?
11. 新聞:LTX Studio為其視頻模型LTX-Video發(fā)布了三款開源LoRA適配器,分別對應(yīng)姿態(tài)(Pose)、深度(Depth)和邊緣檢測(Canny),用以實現(xiàn)對AI生成視頻中人體運動、場景結(jié)構(gòu)與邊緣細節(jié)的精準控制。該版本在LTX-Video-Trainer中增加了情境LoRA訓練支持,可讓開發(fā)者創(chuàng)建自定義的視頻控制模塊。這些控制模塊可通過ComfyUI工作流與現(xiàn)有風格及鏡頭運動LoRA集成,模型已托管在Hugging Face和GitHub上。
銳評:大方為視頻生成奉上三味調(diào)料:動感、深度和銳度。
12. 新聞:亞馬遜云服務(wù)(AWS)將于7月15日推出AI智能體市場,而Anthropic將作為重要合作伙伴入駐。該市場將允許初創(chuàng)公司直接向AWS客戶提供AI智能體,從而打造一個企業(yè)級的集成中心。此舉旨在效仿谷歌、微軟,助力Anthropic等合作伙伴擴大分發(fā)渠道。
銳評:亞馬遜又想在AI世界開市場。
13. 新聞:OpenAI推遲發(fā)布開源模型。公司首席執(zhí)行官薩姆·奧特曼(Sam Altman)宣布,其備受期待的開源模型發(fā)布將無限期推遲,理由是需要進行更多安全測試。
銳評:“安全”是個筐,啥都能往里裝。
三、AI科學研究資訊——AI大神請走下神壇
新聞:METR的一項新研究對AI編程工具的效能提出了質(zhì)疑。這篇題為《2025年初AI對資深開源開發(fā)者生產(chǎn)力影響評估》(Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity)的研究指出,盡管開發(fā)者主觀認為Cursor Pro等AI工具節(jié)省了時間,但其隨機試驗顯示,這些工具非但沒有提高資深開源開發(fā)者的工作效率,反而讓任務(wù)完成時間增加了19%。
銳評:別以為有了AI就能高枕無憂,AI也可能幫倒忙。
四、AI商業(yè)與政策——話題總離不開錢和人
1. 新聞:英偉達市值突破4萬億美元。上周三,英偉達股價在投資者熱捧下短暫突破4萬億美元大關(guān),再創(chuàng)歷史新高。自2022年底ChatGPT問世以來,全球?qū)I硬件和芯片的需求激增,英偉達因此獲利頗豐,并牢牢掌控著大語言模型的GPU市場。
銳評:這是核動力印鈔機。
2. 新聞:英偉達計劃今年9月專為中國市場推出一款AI芯片。這款芯片基于經(jīng)過修改的Blackwell RTX Pro 6000打造,為了符合規(guī)定而移除了高帶寬內(nèi)存(HBM)和NVLink。盡管美國實施出口限制,但英偉達似乎決心要繼續(xù)深耕中國市場。
銳評:黃老板算盤打得比誰都精,有錢就要賺。
3. 新聞:AI人才爭奪戰(zhàn)仍在繼續(xù)。此前,OpenAI斥資30億美元收購AI編程初創(chuàng)公司W(wǎng)indsurf的交易已經(jīng)告吹。隨后,谷歌DeepMind將Windsurf首席執(zhí)行官瓦倫·莫漢(Varun Mohan)、聯(lián)合創(chuàng)始人陳高歌(Douglas Chen)及核心研發(fā)人員招至麾下,并獲得了非獨家技術(shù)許可。新團隊將專為谷歌Gemini模型開發(fā)智能體編程能力,以增強谷歌在AI編程領(lǐng)域的實力。
銳評:谷歌截胡也挺溜。
4. 新聞:蘋果AI再遭重創(chuàng):其大語言模型負責人龐若鳴即將跳槽至Meta新成立的“超級智能”團隊。彭博社稱,Meta對他開出了2億美金的天價。
銳評:蘋果這不是被挖墻腳,是墻被人拆了。
5. 新聞:Manus被爆大規(guī)模裁員。年初爆火的AI智能體公司Manus(北京蝴蝶效應(yīng)科技有限公司)近期在國內(nèi)進行大規(guī)模裁員,120名員工中除40余名核心技術(shù)人員遷往新加坡總部,其余皆被裁員,并且公司總部從中國遷至新加坡。
銳評:年初國內(nèi)刷屏,年中又搞大遷徙,這只蝴蝶不簡單。
6. 新聞:AI重塑招聘市場。招聘網(wǎng)站Indeed和Glassdoor的母公司Recruit Holdings宣布裁員約1300人,占員工總數(shù)的6%。該公司正通過整合AI來簡化招聘流程、減少人工操作。其首席執(zhí)行官將裁員歸因于AI對就業(yè)市場的變革性影響。
銳評:被裁別怪領(lǐng)導,都是AI的鍋。
7.新聞:AI顛覆風險投資模式。Sarah Smith Fund基金的獨立合伙人薩沙·史密斯(Sarah Smith)宣布,其首期基金已完成1600萬美元募資。她利用AI高效運營風投公司,以實現(xiàn)快速決策并擴大投資組合。
銳評:以后找風投,除了BP要寫得好,還得先問問AI同不同意。
8.新聞:兩家AI初創(chuàng)公司獲得百萬級融資。由前白宮和國務(wù)院官員共同創(chuàng)立的Helios公司正式亮相,獲得400萬美元的種子輪資金。其旗艦產(chǎn)品Proxi是一款專為公共政策、監(jiān)管事務(wù)、法律和政府團隊設(shè)計的AI操作系統(tǒng)。此外,空間數(shù)據(jù)分析初創(chuàng)公司LGND也獲得了900萬美元種子輪融資,其技術(shù)將原始地理數(shù)據(jù)轉(zhuǎn)化為“地理嵌入向量”進行高效分析,目前正擴展企業(yè)應(yīng)用及空間查詢API。
銳評:AI觸角是越來越多。
9.新聞:星動紀元官宣完成5億元A輪融資。本輪融資將用于人形機器人軟硬件技術(shù)的研發(fā)與量產(chǎn)落地,推動“模型-本體-場景數(shù)據(jù)”閉環(huán)飛輪的高速運轉(zhuǎn)。
銳評:人形機器人也要“卷”出新高度。
10.新聞:SpaceX承諾向xAI投資20億美元。此舉將進一步強化馬斯克商業(yè)帝國各板塊間的聯(lián)動,也有助于xAI全力追趕競爭對手OpenAI。
銳評:馬斯克“左手倒右手”,給AI“輸血”還是“沖業(yè)績”?
五、AI觀點與評論——巨頭們的“大實話”與“小算盤”
1. 新聞:Grok失控引發(fā)安全擔憂。上周,Grok 3一度徹底失控,發(fā)表了極端主義觀點和仇恨言論,甚至自稱為“機械希特勒”。xAI和Grok為此“駭人聽聞的行為”致歉。立法者要求xAI對這些“荒謬且惡劣”的回答來源以及可能導致此問題的開發(fā)失誤作出解釋。此外,xAI的Grok 4聊天機器人也因生成偏向馬斯克個人觀點、帶有偏見的輸出內(nèi)容而受到批評,因為它甚至將馬斯克發(fā)布的社交媒體帖子作為信息來源。這些失敗案例疊加AI能力的激增,加劇了人們對AI安全性的憂慮。馬斯克在追求超級智能的同時,只是表示AI“很可能”對人類有益,這無助于緩解擔憂情緒。他說,“我們正處在智能大爆炸的時代,身處史上最有趣的紀元……這對人類是福是禍?……很可能是福,但我也坦然接受:縱使結(jié)局是禍,我至少愿活著見證其發(fā)生。”
銳評:馬斯克的“AI大爆炸”別整成“AI大翻車”。
2. 新聞:奧特曼似乎在為自家的軟硬一體化轉(zhuǎn)型鋪路。OpenAI首席執(zhí)行官稱,當前的筆記本電腦和手機等設(shè)備并非為AI而生,難以滿足未來對“始終在線”、“環(huán)境感知”智能助手的需求。目前,OpenAI正在主導“星門計劃”AI基礎(chǔ)設(shè)施建設(shè),并以65億美元收購了由前蘋果傳奇設(shè)計師創(chuàng)辦的硬件公司io,旨在打造全新的AI設(shè)備和生態(tài)。
銳評:這是在為自家的軟硬一體化生態(tài)圈提前吹風吧。
3. 新聞:黃仁勛談AI風險。英偉達CEO在身家反超巴菲特時發(fā)出警告,如果行業(yè)缺乏持續(xù)創(chuàng)新,那么人工智能帶來的生產(chǎn)力飛躍,最終可能演變成一場失業(yè)危機。
銳評:只要AI持續(xù)創(chuàng)新,英偉達就有錢賺。
4. 新聞:吳恩達為AI熱“降溫”。Google Brain創(chuàng)始人吳恩達在Y Combinator活動上表示“AGI遠未到來”,并認為當前對通用人工智能的炒作過度,他呼吁業(yè)界聚焦于提升現(xiàn)有AI工具在各垂直領(lǐng)域的實際應(yīng)用價值。
銳評:別總想“AI統(tǒng)治世界”這種虛頭巴腦的事兒。(辰辰)