本周焦點: ChatGPT Agent、Voxtral Small、EXAONE 4.0、Runway Act-Two、Kiro AI編程IDE、Decart AI MirageLSD、Reflection AI Asimov、Copilot Vision Desktop、Liquid AI LEAP & Apollo、AWS Bedrock AgentCore。
一、重磅工具:OpenAI發布ChatGPT智能體——“AI全能助理”首秀
新聞: OpenAI推出了代號為“Odyssey”的ChatGPT智能體。這款通用型智能體融合了OpenAI旗下Operator和Deep Research兩大項目的特性,能夠自動訪問數據、開展虛擬研究并自動完成任務。ChatGPT智能體搭載了專屬的虛擬計算機環境,可運行高速文本瀏覽器、可視化瀏覽器和終端命令,并集成了各種工具和API。據介紹,ChatGPT智能體通過強化學習(RL)訓練來決定使用哪種工具。
ChatGPT智能體在多項主流基準測試中表現搶眼:其在Humanities Last Exam測試中的得分率為42%,FrontierMath為27%,SpreadsheetBench為45%,WebArena為65%,BrowseComp為69%。這款產品的實際應用場景包括制作PPT、管理EXCEL、生成研究報告、在線購物以及執行定時任務等。ChatGPT智能體現已面向Pro、Plus和Teams訂閱用戶開放。
ChatGPT智能體是OpenAI首款在“生物濫用”方面被歸為“高風險”的模型,但OpenAI表示已啟動強力防護措施來降低相關風險。盡管ChatGPT智能體在真實場景中的表現究竟如何還有待用戶檢驗,但其首席產品官凱文·威爾(Kevin Weil)將其歸入了“勉強能用”的范疇:“(一項技術)起初似乎遙不可及,后來勉強能用;很快就變得非常出色,此后我們就再也離不開它了?!?/p>
銳評: OpenAI終于推出了全能型AI打工仔,雖然老板自己都說“勉強能用”,但至少簡歷看起來很亮眼。
二、AI技術與產品發布——硬核工具“大開箱”,AI廠商各顯神通
1.新聞: Mistral發布了Voxtral語音識別模型。這款開源語音識別模型提供兩種版本:面向生產環境的Voxtral Small版(2.4B參數)和面向邊緣部署的Mini版(0.3B參數)。Voxtral在英語及多語言任務上的詞錯率均低于OpenAI的Whisper large-v3,支持多達32K token上下文的長音頻處理功能,還內置了音頻摘要功能。Voxtral采用Apache 2.0許可協議,用戶可通過Hugging Face下載,也可通過API調用。
Mistral同時還大幅升級了其聊天機器人Le Chat,新增“深度研究”模式、原生多語言推理、由Voxtral支持的語音交互,以及生成結構化、有參考文獻支撐的“項目”功能。Mistral此舉旨在瞄準企業級生產力應用場景,與OpenAI等對手展開競爭。
銳評: 法國AI勁旅Mistral又來卷語音識別,主打一個開源免費還比你強,聽得OpenAI耳根子都癢。
2.新聞: 英偉達推出了全新推理模型套件OpenReasoning-Nemotron,包含四個基于Qwen-2.5微調的模型,參數規模分別為1.5B、7B、14B和32B,均源自6710億參數的DeepSeek R1 0528大模型。通過“蒸餾”這一過程,英偉達成功將這一超大規模模型壓縮成更輕量的推理模型,降低了部署門檻,使得即使在標準游戲電腦上也能進行高級推理實驗。
銳評: 老黃刀法越來越精湛,不僅芯片切得準,現在連大模型都能“蒸餾”成濃縮精華。
3.新聞: LG發布了混合注意力模型EXAONE 4.0,提供32B和1.2B兩種參數規模的版本。其中,EXAONE 4.0 32B在通用語言理解、編程和推理等基準測試中表現優異:MMLU Pro得分率為81.8%,LiveCodeBench v6為66.7%,GPQA-Diamond(科學)為75.4%,AIME 2025(數學)為85%,表現優于同等規模的Qwen 3 32B模型。EXAONE 4.0基于14萬億token的數據預訓練,支持多模態內容理解(MCP)、工具調用和128K的上下文長度。同時發布的14億參數版本則適用于邊緣設備。EXAONE 4.0的開放權重模型已通過HuggingFace發布。
銳評: LG現在竟反手掏出個大模型,在跑分上還把專業選手都比下去了。
4.新聞: Runway發布了新一代動作捕捉模型Act-Two,能通過單段表演視頻精準追蹤頭部、面部、身體和手部的動作。相比Act-One,Act-Two的保真度顯著提升,其目標客群是影視、視覺特效以及游戲工作室。視頻評測結果反響積極,有觀點認為Runway Act-Two足以徹底改變動畫制作方式。Act-Two現已向企業和創意客戶開放,并將即將全面推廣。
銳評: 人人都是卡梅隆的時代不遠了。
5.新聞: GPT-5有望在未來幾天或幾周內正式亮相。有跡象表明,OpenAI正在測試一個代號為gpt-5-reasoning-alpha-2025-07-13的新模型。這款模型已于7月13日定稿,當前正處于最終測試階段。有研究人員透露,GPT-5將融合歷代模型的技術成果,打造一個統一的系統。
銳評: AI進化速度越來越快。
6.新聞: 微軟更新并擴展了Copilot Vision,使其能夠掃描用戶的整個Windows桌面,理解屏幕內容并跨應用實現工作流的自動化。這項名為Copilot Vision Desktop Share的功能嚴格遵循用戶選擇加入(opt-in)機制,目前正逐步向Windows預覽體驗成員推送。
銳評: 微軟Copilot終于拿到了整個電腦桌面的“偷窺”權限。
7.新聞: OpenAI更新了其圖像服務API,新增“高質量模式”,以提升生成圖像的分辨率和視覺細節。新模式已集成到現有API接口中,用戶無需復雜操作即可獲得專業級的輸出效果。
銳評: 一鍵開啟“高清無碼”模式。
8.新聞: 亞馬遜推出了Kiro AI編程IDE,專為“規范驅動”的代碼開發而設計。用戶可用自然語言或圖表來定義項目需求,Kiro會自動完成設計、代碼生成、文檔編寫和測試等工作,全程扮演的是“技術產品經理”的角色。這款工具基于VS Code分支開發,在預覽期間免費,但需要排隊申請。Kiro的規范驅動工作流類似于其他AI編程助手的規劃與編排功能,獲得了早期用戶的廣泛好評。這種“先規劃后行動”的工作模式,是利用AI開發穩健軟件的有效途徑。
銳評: 亞馬遜這是要用AI干掉產品經理。
9.新聞: 亞馬遜在7月16日舉行的AWS峰會上推出了Bedrock AgentCore,旨在助力開發者大規模地安全部署和運營智能體。Bedrock AgentCore可與CrewAI、LangGraph、LlamaIndex等框架和多種模型配合使用。此外,亞馬遜云服務(AWS)還推出了面向AI智能體與工具的全新AWS Marketplace類別,為企業建立一個集中化平臺,用于查找、采購和部署從采購到金融服務等各種功能的第三方智能體解決方案。
銳評: 以后亞馬遜不光賣云服務,還要當中介抽成賣“AI員工”。
10.新聞: Decart AI推出了視頻風格實時擴散工具MirageLSD。MirageLSD能將來自攝像頭、視頻通話、電腦屏幕或游戲的任何視頻流,實時轉換為用戶想要的任何世界(延遲低于40毫秒)。AI大神安德烈·卡帕西(Andrey Karpathy)分享的視頻顯示,MirageLSD的實時模型支持多種應用場景,比如在視頻流中創造平行現實、實時指導電影拍攝,或通過文本提示設計游戲環境。
銳評: 有了MirageLSD,電影特效師再也不用買綠幕了。
11.新聞: DuckDuckGo允許用戶在搜索結果中隱藏AI生成的圖片。這一功能利用了一個開源屏蔽列表,旨在大幅減少搜索結果中出現的AI圖片,從而過濾掉“AI垃圾內容”。
銳評: 在全行業擁抱AI生成內容時,DuckDuckGo的反向操作堪稱一股清流。
12.新聞: Slack推出了大量AI功能,以挑戰微軟在辦公領域的主導地位。其中包括AI寫作助手、消息解讀、自動生成待辦事項,以及跨多個關聯商業應用的企業搜索。母公司Salesforce正將Slack定位為核心生產力樞紐,通過限制外部AI訪問數據來遏制競爭對手,并將AI整合到現有工作流中。
銳評: Slack要在微軟的辦公帝國里殺出一條血路,就看用戶買不買賬。
13.新聞: Reflection AI發布了代碼研究智能體Asimov,旨在通過全面理解代碼上下文來協助工程師。Asimov在多智能體系統中整合了推理器和檢索器,能夠捕獲代碼庫的整體視圖,以支持工程團隊構建復雜系統。
銳評: 治得了屎山代碼和歷史遺留問題嗎?
14.新聞: Liquid AI推出了面向設備端的AI平臺LEAP和Apollo,目標是“讓部署AI到邊緣設備變得如同調用云端模型API般簡單”。LEAP是用于構建設備端模型的開發者平臺,Apollo則是在本地運行緊湊型大語言模型的輕量級iOS應用。這些工具支持體積最高300MB、專為低功耗設備而優化推理的模型,無需連接云端。
銳評: 以后你的iPhone可能比云端服務器還聰明。
15.新聞: Teknium發布了Hermes 3數據集,包含近百萬條高質量條目,用于支持智能體AI模型的訓練。免費開放的Hermes 3數據集旨在通過提供多樣化的純凈樣本,來提升模型在復雜決策和工具使用任務方面的表現。
銳評: AI圈的“慈善家”又來送溫暖,讓各家模型都能吃飽吃好。
三、AI研究資訊——頂級研究員聯名“緊盯”AI思維鏈,要給模型裝上“安全閥”
新聞: 7月15日,40余名來自OpenAI、Meta、Google DeepMind等機構的科學家聯合發布了關于AI推理模型“思維鏈”的立場文件,呼吁加強對AI思維鏈的監控研究。
文件指出,AI已能使用人類語言進行思考,其“思維鏈”為AI安全監控提供了獨特機會。當前AI在執行復雜任務時,必須通過思維鏈進行推理,這讓監控其潛在風險有了可乘之機。但這種可監控性較為脆弱,可能因模型架構或訓練方式的改變而被削弱??茖W家們警示,未來AI模型或許會隱藏其推理過程,導致監控失效。
銳評: 得趕緊趁著AI還愿意“寫日記”的時候看懂它,萬一哪天它學會“腹黑”就晚了。
四、AI商業與政策——融資挖人大戲不斷,AI天團半數來自中國
1.新聞: 英偉達周二官宣將恢復H20芯片在中國的銷售,并宣布推出面向中國市場的全新且完全兼容的GPU。AMD當天也表示,將很快恢復對華出口MI308人工智能芯片。
銳評: 兜兜轉轉,生意還得做。
2.新聞: Meta對蘋果AI團隊的“挖角”行動仍在繼續。繼本月初基礎模型團隊負責人龐若鳴加盟后,蘋果的兩名AI研究員馬克·李(Mark Lee)和湯姆·岡特(Tom Gunter)也已確認將加入Meta新成立的“超級智能實驗室”。
銳評: 小扎用鈔票把蘋果的AI人才果園快薅禿了,庫克心里苦啊。
3.新聞: Meta首席執行官馬克·扎克伯格(Mark Zuckerberg)宣布,該公司將投資數百億美元興建多座AI超算數據中心,為“超級智能實驗室”提供算力保障。
銳評: 這是用鈔能力鋪AI高速公路。
4.新聞: Meta“超級智能實驗室”的44人明星陣容曝光,其中50%的成員來自中國。從人員來源機構來看,有40%的人來自OpenAI,20%出自DeepMind,還有15%來自Scale AI。據悉,這些人的年薪有可能超過千萬甚至達到上億美元。
銳評: 最強大腦都來自中國。
5.新聞: 前OpenAI首席技術官米拉·穆拉蒂(Mira Murati)宣布成立Thinking Machines Lab,并獲得20億美元融資,用于推動開放式AI科學研究。其即將推出的首款多模態AI產品將包含對研究人員大有裨益的重要開源組件。該實驗室將支持基礎AI探索,并促進學術界與工業界的合作。
銳評: OpenAI“畢業”的高管出來創業融資貌似跟呼吸一樣簡單。
6.新聞: AI編程初創公司Cognition宣布收購AI開發者工具初創公司Windsurf,計劃將Cognition的Devin AI工程師智能體整合進Windsurf的IDE,打造一個統一的AI驅動代碼生成平臺。此次收購前,Windsurf與OpenAI的收購談判未能成功,而隨后其公司聯合創始人通過一筆24億美元的人才交易加入了谷歌。
銳評: AI工程師有了自己的專屬豪宅(IDE),只不過房子原主人剛帶著24億美元搬去隔壁谷歌家了。
7.新聞: Lovable公司上線僅8個月后便獲得2億美元融資,估值達到18億美元,一舉成為獨角獸公司。其Lovable vibe-coding應用能幫助用戶通過自然語言創建網站和應用,目前已擁有230萬用戶。
銳評: AI風口上只要故事講得好,八個月就能走完別人八年都走不完的路。
8.新聞: 特斯拉開始在美國向符合條件的車輛推送由xAI開發的人工智能助手Grok,但目前Grok尚不能直接控制車輛。當前,這一功能以Beta測試版的形式推出,激活時無需Grok賬號或xAI訂閱。
銳評: 特斯拉現在不僅能跑,還能跟你“扯淡”了。
9.新聞: 馬斯克于上周一宣布,Grok付費訂閱用戶現可試用AI聊天機器人的新版“虛擬伙伴”功能,目前僅支持iOS端,月費30美元。首批上線的虛擬形象包括動漫角色Ani和卡通熊貓Rudy,其中Ani設有“NSFW模式”,Rudy還支持“Bad Rudy”模式。該產品一經推出便迅速沖上X平臺熱搜。
銳評: 宅男的福音來了。
10.新聞: 馬斯克周日通過社交平臺X宣布,其人工智能公司xAI將開發一款專為兒童設計的應用“Baby Grok”。據報道稱,馬斯克未透露“Baby Grok”的具體功能細節,僅表示該應用將為兒童提供“友好型內容”。
銳評: AI也要從娃娃抓起。
11.新聞: Netflix開始在影視制作中使用生成式AI。該公司聯席CEO泰德·薩蘭多斯(Ted Sarandos)證實,由生成式AI制作的最終鏡頭已經出現在劇集《永航員》(El Eternauta)中,據稱制作速度提升了10倍,成本也顯著降低。此外,Netflix還利用AI進行個性化推薦、搜索和投放廣告。
銳評: 以后看的劇,可能編劇是AI、特效是AI,演員的臉說不定也是AI換的。
12.新聞: 語音AI專業公司SoundHound在醫療健康領域取得重要進展,其AI語音助手已部署到多家診所和醫院,用于簡化患者入院登記、預約安排和醫生問詢等關鍵工作流程。
銳評: 以后導醫臺說話的可能不是護士小姐姐,而是不知疲倦的AI。
13.新聞: Meta拒絕簽署歐盟的自愿性《AI行為準則》,理由是這套準則存在法律不確定性,且部分措施已超出《AI法案》的范圍。這一決定在歐盟針對通用AI模型的新規生效前幾周做出,表明Meta認為這套準則將阻礙歐洲的AI發展。
銳評: 小扎說歐洲規矩太多,我先不陪你們玩了。
14.新聞: 來自OpenAI和Anthropic的AI安全研究人員批評馬斯克的xAI公司存在“魯莽”的安全文化。他們指出,xAI未按行業標準發布Grok模型的安全報告,且發生過Grok發表仇恨言論等事件。
銳評: 同行都說馬斯克的AI是個熊孩子。
五、AI觀點與評論——巨頭們的“大實話”與“小算盤”
1.新聞: 黃仁勛在出席鏈博會時稱贊阿里、騰訊等中國AI模型“世界一流”,并強調中國市場對H20芯片的強勁需求。黃仁勛還認為,AI正在為中國供應鏈創造“新增長點”,而對美國企業而言,扎根中國“至關重要”。此外在談到AI演進時,黃仁勛認為,未來AI將從文本/圖像大模型向物理AI演進,實現物理規律的建模與仿真。
銳評: 黃老板一邊賣力推銷自家芯片,一邊不忘給中國客戶戴高帽,商業頭腦滿分。
2.新聞: 克萊利亞·阿斯特拉·貝爾泰利(Clelia Astra Bertelli)所著的《向量搜索漫游指南》是一份基于文本向量搜索構建生產級RAG系統的詳細指南,被開源工具平臺LlamaIndex聯合創始人Jerry Liu譽為“入門必讀”。這份指南涵蓋了AI系統中RAG和知識管理的多個方面:文本提取、分塊、嵌入向量、利用語義緩存增強搜索效果、查詢重寫等。
銳評: 大佬都推薦的“武功秘籍”,趕緊收藏學習。
3.新聞: 《AI蛇油》(AI Snake Oil)作者阿爾溫德·納拉亞南(Arvind Narayan)和薩亞什·卡普爾(Sayash Kapoor)近日發表了一篇批判性文章,認為AI可能正在加劇“產出-進步悖論”,即科研論文產出呈指數級增長,而實際科學進步卻停滯不前。他們主張,AI公司的目標與科學研究存在錯位,當前用于科學的AI工具也走錯了方向,只關注如何制造“AI發現X!”這類博人眼球的頭條新聞,而不是解決真正的科研瓶頸問題。
銳評: 論文越發越多,突破越來越少,AI這是在幫科學家“刷KPI”,還是在拖科學進步的后腿?(辰辰)