AI 行業大事記
2025 年 6 月
聯合出品:
Jomy @ 302.AI
南喬 @ ShowMeAI
大聰明 @ 賽博禪心
① 本期月刊期次 2506(2025年6月),整理和分析的是上個月(5月)AI 領域里有重大意義和影響的各類事件;
② 本期月刊共收錄 101 條內容;
③ 月刊分類中的「模型」均指代語言模型;
④ 前往 WaytoAGI 專區查看「賽博月刊」飛書版 → https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc (期待互動)
趨勢觀察
1. 模型
? 基礎模型繼續小步伐升級,這個月 Claude 4 系列不負眾望正式面世,Deepseek R1 也出了小版本更新。
? 專注于 Coding 的小模型開始大量出現,并且在一些細分場景超越了大模型。可以預見,垂直領域模型還有非常大的發展空間。
2. 圖像
? GPT-Image-1 的開源競爭者陸續出現,例如 Hidream-E1 和字節的 Bagel;但最有威脅的還是 Flux-Kontext,在元素一致性上徹底超越了 GPT-Image-1。
? 傳統圖像模型和全模態模型的邊界逐漸模糊,GPT-Image-1 的神奇能力也不再是獨家專有。
3. 視頻/數字人
? 這個月最興奮的進展來自 Google Veo3,第一個可以原生生成人物對話的視頻模型,讓 AI 視頻不再是啞劇。
? 開源視頻模型在功能上逐漸追趕閉源模型,例如主體參考、元素編輯等等,開閉源的差距在逐漸縮小。
? 基于開源視頻模型的快速發展,數字人領域的進步也比較明顯。數字人現在已經不再是對嘴型,而是根據主體參考重新生成的完整視頻。
4. 音頻
? 音樂生成領域,閉源模型 Suno 還在持續領先,開源模型也在慢慢追趕,但是至今開閉源還有比較大的差距。
? 文字轉語音(TTS)賽道已經沒有太多創新,大家都是 90 分往 95 分努力,未來卷的應該就是性價比了。
5. 3D
? 3D 領域開始被模型公司投射注意力,背后應該是因為 3D 建模離商業化路徑很短,比較容易產生收益。
? Tripo 意識到了只有模型沒有應用是不夠的,開始親自下場做原生 AI 3D 應用,直接提供端到端的服務。
6. 機器人
? 通過一場機器人拳擊賽就能看出,頭部機器人公司對于機器人的動作控制已經比較成熟。
? 至于如何讓機器人不通過預設的程序,而是自發的學會新的動作,世界模型應該是必不可少的。這個領域應該會隨著自動駕駛領域的發展,很快有新的突破。
7. 應用
? 應用大的方向主要還是集中在 Coding 和 Agent,沒有新的范式出現。
? 這個月讓人眼前一亮的應用是 Lovart.ai,第一個專注于設計的 Agent 產品,生成結果的可用性也不錯。可以預見,各個領域的垂直 Agent 產品會是商業化的一條捷徑。
? AI 瀏覽器,會成為大廠之間 Agent 的另一個戰場。與其做一個網頁版的 Agent,那為什么不進一步做成客戶端呢。
8. 新聞/融資
? 現在已經很少見到模型公司融資的消息了,模型大戰已經結束,應用大戰已經開啟。
? Coding 領域大戰基本到了尾聲,老大 Cursor 不到半年估值翻了 4 倍,老二 Windsurf 已被 OpenAI 收購。
? Agent 領域大戰才剛剛開始,如同春秋戰國時期,百家爭鳴。
時光機
5 月 1 日
| 模型 |NVIDIA● Describe Anything Model(DAM)多模態模型,為圖片和視頻的指定區域生成描述(開源)→ 別家都是文字生成圖片/視頻,這個模型卻專注于圖片/視頻生成文字 →
| 模型 |Microsoft● Phi-4 推理模型,專注數學與編程等復雜推理任務的小模型(開源)→ 體驗下來,不如 Qwen3 ?♂?
| 模型 |Amazon● Amazon Nova Premier 教師模型,Nova 系列最強版本
| 圖像 |HiDream 智象未來● HiDream-I1 圖像生成模型 && HiDream-E1 交互編輯模型(開源)→ 相當優秀的國產開源圖像模型 可惜風頭很快就被月底的 flux-Kontext 給蓋過去了
5 月 2 日
| 圖像 |Midjourney● Omni-Reference 全向參考功能 && MJ 近期重要更新匯總 → 在真正的全模態模型的猛烈攻勢下,MJ 所剩的唯一優勢可能就是審美了
| 音頻 |Suno● Suno v4.5 音樂生成模型,音質與人聲全面升級 → Suno 持續保持領先
| 新聞 |Sequoia Capital(紅杉資本)AI Ascent 2025● 匯聚超 100 位 AI 領軍人物,探討行業未來發展
5 月 3 日(無) 5 月 4 日(無) 5 月 5 日(無) 5 月 6 日
| 模型 |智源研究院● 中文互聯網語料庫 CCI 4.0,擴展為多語種(開源)
| 模型 |智源研究院 X 南開大學● Chinese-LiPS 中文多模態語音識別數據集(開源)
| 模型 |360● 360Zhinao3-7B 新系列模型升級 && O1.5 推理模型開源 → 沒有什么特色,感覺是戰略性開源
| 應用 |阿里巴巴● 通義靈碼編程智能體上線 → 每個巨頭都要做自己的 AI Coding 工具,但是都陷入了同質化的怪圈
| 融資 |OpenAI 斥資 30 億美元收購編程應用 Windsurf → OpenAI 沒有選擇自己開發,直接收購了業界老二,是因為老大不肯賣嗎
| 融資 |Anysphere(Cursor)完成 9 億美元融資,估值達到 90 億美元 → Cursor 估值,每個月都在漲
5 月 7 日
| 模型 |Mistral AI● Medium 3 多模態模型,高性能、低成本,企業級 AI 新選擇
| 模型 |Cognition Labs(Devin)● Kevin-32B 用于編寫 CUDA Kernel 的多輪強化學習模型(開源)→ 針對某個細分領域進行后訓練的小模型,可以做到「小模型,大效果」
| 模型 |Apple● FastVLM 視覺-語言模型,支持端側部署(開源)→ 很快就在 WWDC 上見到了這款模型的實際應用,效果不錯
| 音頻 |階躍星辰 X ACE Studio● ACE-Step 音樂生成基礎模型,消費級顯卡可用(開源)→ 實測距離 Suno 還有不小的差距
| 視頻 |HeyGen● Avatar IV 數字人視頻生成模型,一張照片+一段文本=逼真的視頻 → 與 Hedra 類似,都是用圖片生成的數字人
5 月 8 日
| 應用 |阿里巴巴● 夸克「深度搜索」升級 &&「深度研究」上線 → Deep (Re)Search 逐漸成為各家的標配
| 應用 |魔樂社區● 開放共享的 AI 工具與模型生態平臺
| 應用 |Figma Config 2025● Figma 發布 4 項重要更新,Figma Buzz、Figma Draw、Figma Make、Figma Sites
5 月 9 日
| 視頻 |騰訊● HunyuanCustom 多模態定制化視頻生成模型,保持視頻中多主體一致性(開源)→ 人物一致性做的不錯,很適合拿來做數字人 就是生成速度很慢 ?
| 視頻 |Luma AI● Reframe 智能擴展圖像視頻畫面,適配多平臺尺寸需求 → 之前 Runway 已經上線了這個功能,現在 Luma 補上了
| 3 D |Enigma Labs● Multiverse 多人模式游戲模型(全開源)
| 應用 |秘塔AI搜索●講題功能上線 → 在提升用戶體驗方面,秘塔的理念極具獨創性
5 月 10 日(無) 5 月 11 日(無) 5 月 12 日
| 模型 |Prime Intellect● INTELLECT-2 推理模型,全球首個分布式強化學習訓練模型 → 如果分布式能成,訓練的門檻將會大大的降低
| 新聞 |教育部● 發布兩項指南,科學規范推進人工智能全學段教育 → AI教育要從娃娃抓起
5 月 13 日
| 模型 |OpenAI● HealthBench 醫療基準測試,評估大模型在醫療健康領域的表現(開源)→ 可以預見,這種高質量的私有數據,會是未來模型差異化的源頭
| 視頻 |愛詩科技● Pixverse V4.5 視頻生成模型,實現電影級鏡頭控制 → 繼續進步,從而應對可靈的競爭
| 3 D |昆侖萬維● Matrix-Game 可交互視頻生成世界模型,推動游戲世界建模(開源)
| 應用 |阿里巴巴● QwenChat 上線網頁開發和 Deep Research 功能
| 應用 |Lovart.ai● 首個通用 Design Agent,一句話搞定全鏈路設計 → 無邊畫布很適合設計 Agent,用戶體驗非常不錯
| 應用 |Notion● AI Meeting Notes 功能上線,自動轉錄會議內容并生成結構化摘要 → 會議紀要,真是個剛需的大市場
5 月 14 日
| 模型 |Google● AlphaEvolve 用于算法設計的編程智能體
| 模型 |快手 X 中科院 X 清華大學 X 南京大學● R1-Reward 多模態獎勵模型,性能提升 5%-15%(開源)
| 音頻 |Stability AI X Arm● Stable Audio Open Small 文本轉音頻模型,支持移動端快速生成短音頻(開源)→ 生成速度是個亮點 ?
| 視頻 |阿里巴巴● Wan2.1-VACE 視頻生成與編輯統一模型,支持全功能生成(開源)→ 把商用模型的秘密都開源出來了 但生成的視頻質量還差點意思
| 3 D |階躍星辰 X 光影煥像● Step1X-3D 生成大模型,支持高保真可控生成(全開源)→ 階躍也做 3D 了? 3D 這個賽道慢慢開始火熱
| 應用 |面壁智能 X 清華大學● SurveyGO 學術長文本寫作工具(開源)→ Long to Long 領域非常不錯的實踐
5 月 15 日
| 音頻 |MiniMax● Speech-02 文本轉語音(TTS)模型,音色克隆技術領先全球 → 音色克隆能力很強
| 融資 |Hedra 完成 3200 萬美元 A 輪融資,估值達到 2 億美元 → 對標 Heygen
5月 16 日
| 模型 |Windsurf● SWE-1 編程模型,專注于復雜的軟件工程任務 → AI Coding 公司推出自己的模型在意料之中,據說蒸餾了不少其他模型的數據
| 圖像 |騰訊● Hunyuan Image 2.0 圖像生成模型,實現毫秒級響應 → 質量比之前的 sd-lightning 強,適合拿來做提示詞測試
| 視頻 |Higgsfield AI● Higgsfield Ads 將產品圖片轉為專業的廣告視頻 → Higgisfield 對商用需求的把握非常精準
| 應用 |ElevenLabs● SB-1 無限音效板,可以定制音效的控制面板
| 新聞 |特朗普● 訪問中東三國,達成多項大額 AI 交易
5 月 17 日
| 模型 |阿里巴巴● ZeroSearch 強化學習框架,通過模擬搜索引擎提升大模型的搜索能力(開源)
| 應用 |OpenAI● Codex 云端編程智能體,高效處理復雜軟件工程任務 → 更偏向專業 Coding輔助,而不是 Vibe Coding
5 月 18 日
| 新聞 |五源資本● 72 小時 AI 生存挑戰,依靠 AI 工具解決生存需求
5 月 19 日
| 視頻 |嗶哩嗶哩● Index-AniSora 動漫視頻生成模型,獻給二次元世界的禮物(開源)→ 這個模型 B 站做最對味
| 應用 |字節跳動● 火山引擎 MCP Servers 大模型生態廣場發布 → 暫時不支持第三方 MCP Server,不夠開放 ?♂?
| 應用 |騰訊 QQ 瀏覽器● QBot 上線,正式升級為 AI 瀏覽器 → 瀏覽器也是 AI 廠商的必爭之地 ?
| 應用 |Flowith● Neo 云端 Agent 系統,首個「無限」智能體
5 月 20 日
| 模型 |字節跳動● Seed-Coder 輕量級編程模型,字節的前沿探索成果(開源)
| 機器人 |智元機器人●EVAC 基于機器人動作序列驅動的具身世界模型 && EWMBench 具身世界模型基準測試(開源)
| 融資 |美圖獲得阿里巴巴 2.5 億美元投資,雙方達成戰略合作 → 阿里投資開始在 AI 應用領域發力
| 模型 |Google I/O 2025● Gemini 2.5 Pro && Gemini 2.5 Flash 模型升級 → Google 徹底打了個翻身仗,全方位領先
| 模型 |Google I/O 2025● Gemma 3n 多模態模型,移動端優化(開源)
| 圖像 |Google I/O 2025● Imagen 4 圖像生成模型,實現 2K 高分辨率
| 音頻 |Google I/O 2025● Lyria 2 音樂生成模型 && Lyria RealTime 交互式音樂生成應用 → 只能生成沒有人聲的音樂,無法生成歌曲
| 視頻 |Google I/O 2025● Veo 3 視頻生成模型,進入音畫同步時代 → 第一個可以自動生成人物配音的視頻模型,AI視頻不再是啞劇
| 應用 |Google I/O 2025● Flow 電影級影視片段制作工具,集成了 Google 最先進模型
| 應用 |Google I/O 2025● SynthID Detector 識別 AI 生成內容的檢測平臺
| 應用 |Google I/O 2025● Jules 異步編程智能體,在云端虛擬機中獨立執行任務
| 應用 |Google I/O 2025● Stitch 基于自然語言的 UI 設計與代碼生成工具
| 應用 |Google I/O 2025●AI Mode 正式登錄 Google Search,搜索從此「千人千面」→ 如此龐大的日活下,背后的算力成本應該相當高昂
5 月 21 日
| 模型 |Mistral AI X All Hands AI● Devstral 編程模型,專注于復雜的軟件工程任務 → 又一個專注于 Coding 的小模型 ?
| 圖像 |騰訊● 混元游戲視覺生成平臺 && Hunyuan-Game 工業級游戲內容資產生成模型
| 機器人 |NVIDIA● Cosmos-Reason1-7B 面向機器人技術的視覺-語言推理模型(開源)
| 應用 |字節跳動● 飛書知識問答功能上線,整合企業內資源實現智能解答 → 企業內部的 Deep Search
| 應用 |騰訊● 騰訊云智能體開發平臺(TCADP)上線 → 一個類似 Coze 和 Dify 的平臺,但是非常簡陋,看不出有什么競爭力 ?
| 融資 |面壁智能完成新一輪數億元融資 → 全球為數不多專注端側小模型的企業
5 月 22 日
| 音頻 |Kyutai● Unmute.sh 語音系統,可以為任何文本大語言模型添加語音功能(即將開源)
| 應用 |Mistral AI● Document AI 高精度文檔解析工具,成本低至 1 美元 2000 頁 → 一個基于 OCR 模型 API 實現的簡單應用
| 應用 |昆侖萬維● Skywork Super Agents 天工超級智能體上線 → 又一個類 Manus 應用,做 PPT 尤其出色
| 融資 |LMArena● 完成 1 億美元種子輪融資,估值達到 6 億美元
| 融資 |OpenAI以 65 億美元收購 io,進軍 AI 硬件領域
| 新聞 |Microsoft Build 2025● 邁向 AI Agent 時代,構建 Open Agentic Web 成為新愿景
5 月 23 日
| 模型 |Anthropic● Claude Opus 4 和 Claude Sonnet 4 推理模型,專注持續性推理與復雜任務執行 → 重奪編程模型之王的寶座
| 模型 |上海人工智能實驗室● 書生·思客(InternThinker)圍棋推理模型 → 用 LLM 下圍棋,有一種奇特的復古感
| 模型 |字節跳動● Dolphin 文檔解析模型,高效精準處理復雜文檔(開源)→ 非常利好本地化 RAG
5 月 24 日(無) 5 月 25 日
| 機器人 | 《CMG世界機器人大賽·系列賽》機甲格斗擂臺賽,展現高難度格斗技術 → 比上個月馬拉松比賽的機器人,看起來強多了
5 月 26 日
| 模型 |紅杉中國● xbench 基準測試,聚焦真實場景效用與垂類智能體評測(開源)
5 月 27 日
| 音頻 |字節跳動● 豆包·語音播客模型(預告)&& 扣子空間 Agent 播客制作功能上線 → 語音播客模型的語氣非常真實自然,中文領域最佳
5 月 28 日
| 模型 |Mistral AI● Codestral Embed 代碼嵌入模型,性能超越主流方案 → 連 Embedding 模型都有為代碼設計的了,Coding 賽道真的火
| 圖像 |字節跳動● BAGEL 統一多模態理解與生成模型(開源)→ 人物一致性比 gpt-image-1 強 但其他都遠遠不如
| 視頻 |騰訊● HunyuanVideo-Avatar 語音數字人模型,圖像+音頻=說話&唱歌的數字人(開源)
| 3 D |Odyssey●實時 3D 互動視頻技術(研究預覽),延遲僅 40 毫秒,成本低至 1 美元/小時
| 機器人 |北京人形機器人創新中心牽頭制定全球首個《人形機器人智能化分級》→ 人形機器人的發展,有一個標準了
| 應用 |昆侖萬維● Opera Neon 智能 Agent 瀏覽器,開啟內測
5 月 29 日
| 模型 |DeepSeek● DeepSeek-R1-0528 推理模型「小升級」,思考更深,推理更強 → 還是基于 deepseek-v3 舊版訓練的,并不是基于最新的 v3 訓練的
| 視頻 |快手● 可靈 2.1 && 可靈 2.1 大師版上線,理解力與生成速度全面升級
| 融資 |Grammarly 完成 10 億美元融資,加速 AI 產品升級與平臺化轉型 → 一個看似簡單的語法糾錯需求,也可以生長出巨頭
5 月 30 日
| 模型 |字節跳動● Web-Bench 編程能力基準測試,評估模型在復雜 Web 全棧任務中的表現(開源)→ 2.1 終于有普通版了 性價比不錯,可以大規模商用了
| 模型 |小米● Xiaomi MiMo-VL 多模態大模型(開源)→ 小米開始在大模型領域發力,表現都比較亮眼
| 圖像 |Black Forest Labs● FLUX.1 Kontext 圖像生成與編輯模型,角色一致性能力亮眼 → 解決了 gpt-image-1 人物一致性的問題,圖像編輯領域的 New King
| 音頻 |ElevenLabs● Conversational AI 2.0 企業級語音 Agent 平臺
| 應用 |Perplexity● Labs 智能體創作平臺,一站式生成報告、演示與可視化項目
5 月 31 日
| 3 D |VAST●Tripo Studio 工作站上線,實現一站式 3D 建模 → 從模型到應用,Tripo 要打造 3D 領域的完整生態
| 應用 |Google● Gemini App(應用)近期重要更新匯總
| 應用 |OpenAI● ChatGPT 近期重要更新匯總
5 月 1 日
NVIDIA Describe Anything Model(DAM)多模態模型,為圖片和視頻的指定區域生成描述(開源)
Describe Anything Model(描述一切模型)是 NVIDIA 推出的一款多模態模型,能為圖像或視頻中的指定區域生成精準的描述。
該模型支持用戶通過點、邊界框、涂鴉或掩碼等多種交互方式靈活標注目標區域,多樣化的輸入機制不僅提升了操作的便捷性,還確保了描述結果與用戶關注區域的高度匹配。
使用入口:開源;前往 HugingFace 獲取模型/數據/基準(huggingface.co/collections/nvidia/describe-anything-680825bb8f5e41ff0785834c);前往 Github 獲取代碼(github.com/NVlabs/describe-anything)。
權威信源:https://describe-anything.github.io
> “業內解讀(By Jomy)→ 別家都是文字生成圖片/視頻,這個模型卻專注于圖片/視頻生成文字 →”
Microsoft Phi-4 推理模型,專注數學與編程等復雜推理任務的小模型(開源)
Phi-4 推理模型家族是 Microsoft Phi 系列最新成員,通過技術創新實現小參數量模型的高效推理能力,尤其擅長解決數學、編程及科學領域的復雜問題。本次開源的三款模型針對不同應用場景進行了專項優化:
Phi-4-reasoning:Phi-4 監督微調版本,參數量 14B,在復雜推理任務中能與更大尺寸的模型相媲美。
Phi-4-reasoning-plus:Phi-4-reasoning 增強版本,采用強化學習進一步優化,提供更強的推理時計算能力。
Phi-4-mini-reasoning:基于 Transformer 架構深度優化了數學推理能力,專為計算資源有限或低延遲需求場景打造。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/microsoft/Phi-4-mini-reasoning)。
權威信源:https://azure.microsoft.com/en-us/blog/one-year-of-phi-small-language-models-making-big-leaps-in-ai
> “體驗下來,不如 Qwen3 ?♂?”
Amazon Amazon Nova Premier 教師模型,Nova 系列最強版本
Amazon Nova Premier 是 Amazon Nova 系列模型的最高階版本,上下文窗口長達 1M Token,能夠高效處理深度理解上下文、多步驟規劃、跨工具協作等復雜任務。與 Nova 系列中的 Lite 和 Pro 版本類似,Premier 也具備多模態能力,支持文本、圖像和視頻等模態輸入(不包括音頻)。
此外,Nova Premier 作為教師模型,還承擔著定制化衍生模型的關鍵角色。基于 Amazon Bedrock 的模型精簡功能,企業可以根據需求定制 Nova Pro、Lite 和 Micro 版本模型。
使用入口:前往 Amazon Nova 官網體驗(nova.amazon.com);或者前往 Amazon Bedrock 調用 API(aws.amazon.com/bedrock)。
權威信源:https://aws.amazon.com/cn/blogs/aws/amazon-nova-premier-our-most-capable-model-for-complex-tasks-and-teacher-for-model-distillation
HiDream 智象未來 HiDream-I1 圖像生成模型 && HiDream-E1 交互編輯模型(開源)
HiDream 陸續開源了兩款圖像大模型——HiDream-I1 圖像生成模型與HiDream-E1 交互編輯模型。
HiDream-I1 基于 DiT 架構,參數量 17B,在圖像質量、語義理解及藝術表現方面表現卓越,曾登頂 Artificial Analysis 全球文生圖模型榜單。為滿足多元場景需求,該模型開源三個版本:完整版 HiDream-I1-Full、開發版 HiDream-I1-Dev 及高效版 HiDream-I1-Fast。
作為 I1 的延伸,HiDream-E1 專注于交互式圖像編輯,其核心優勢在于強大的自然語言交互能力。用戶僅需輸入簡單指令,即可實現圖像修改、內容添加等復雜操作,大幅降低專業級創作門檻。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/collections/HiDream-ai/hidream-i1-67f3e90dd509fed088a158b3);前往 Github 獲取代碼(github.com/HiDream-ai/HiDream-I1);前往 vivago官網體驗(vivago.ai/studio)。
權威信源: |
> “相當優秀的國產開源圖像模型 可惜風頭很快就被月底的 flux-Kontext 給蓋過去了”
5 月 2 日
Midjourney Omni-Reference 全向參考功能發布 && MJ 近期重要更新匯總
Omni-Reference 是 Midjourney V7 版本引入的一項新功能,允許用戶將參考圖像中的特定元素(如人物、物體、車輛或非人類生物)無縫融入新生成的圖像中,實現高度風格化與個性化定制。、
Omni-Reference 核心參數為 --ow(Omni-Weight),用于調節參考圖像對新生成圖像的影響強度。參數范圍為 0 至1000,默認值為 100。數值越高,參考元素的特征保留越顯著;數值降低則減弱其影響力,使生成結果更貼近自然隨機效果。
使用入口:前往 MidJourney 官網體驗(midjourney.com)。
權威信源:https://www.midjourney.com/updates
Midjourney 自 4 月初發布 V7 新模型后,最近兩個月一直在密集更新,以下是模型和產品重要更新的簡單介紹:
- V7:最新版本模型,顯著提升了圖像細節的連貫性與個性化定制能力(4月4日)
- V7 draft mode(草稿模式):支持以 10 倍速度生成低成本的低分辨率草圖,成本僅為標準模式的一半(4月5日)
- 圖像編輯器升級:支持智能圖層編輯和更精細的圖像調整(4月18日)
- --weird:生成更具創意或非傳統的圖像(4月18日)
- V7 升級:提升了渲染速度和圖像質量(5月1日)
- --exp:探索高階特效(5月1日)
- Omni-Reference:角色參考升級版,支持通過上傳圖片將其精準融合到新作品中(5月2日)
- V7 Fast mode(快速模式):進一步提升了生成速度(5月3日)
- Faster V7:渲染速度提升約 40%(5月30日)
> “在真正的全模態模型的猛烈攻勢下,MJ 所剩的唯一優勢可能就是審美了 ”
Suno Suno v4.5 音樂生成模型,音質與人聲全面升級
Suno v4.5 版本音樂生成模型,在音質、人聲表現及功能體驗上實現顯著突破。新版本通過算法優化,使音樂層次更豐富、細節更細膩,演唱效果更具情感深度,同時將默認生成時長延長至 8 分鐘,滿足更長篇幅的創作需求。
此次升級,重點引入兩大創新功能:一是「智能混搭」,支持用戶自由融合不同風格的音樂元素,拓展創作可能性;二是「提示詞增強助手」,可自動優化用戶輸入的文本提示,降低操作門檻并提升生成質量。
使用入口:前往 Suno 官網體驗(suno.com),目前僅對 Pro 和 Premier 付費用戶開放使用。
權威信源:https://suno.com/blog/introducing-v4-5
> “Suno 持續保持領先 ”
紅杉資本 AI Ascent 2025 匯聚超 100 位 AI 領軍人物,探討行業未來發展
5月2日,Sequoia Capital(紅杉資本)在舊金山舉辦了第三屆 AI Ascent 2025 活動。這場閉門會議匯聚了超過 100 位全球頂尖的 AI 創始人、研究人員和行業領導者,共同探討了 AI Agent 新商業模式、數據中心建設、垂直應用的潛力、開源的重要性等話題。
權威信源:https://www.sequoiacap.com/article/ai-ascent-2025 |
5 月 6 日
智源研究院 中文互聯網語料庫 CCI 4.0,擴展為多語種(開源)
在法國巴黎舉行的 GOSIM 全球開源創新論壇上,智源研究院正式發布大型開源文本數據集 CCI 4.0。該數據集從單一語言擴展為中英雙語版本,未來還將開源更多語種,為全球大模型研發提供關鍵數據支持。
此次發布的 CCI 4.0-M2-V1 包含 3 個子數據集,總規模達 35TB,涵蓋高質量互聯網文本資源,旨在推動人工智能領域的開放創新與合作發展。
使用入口:開源;前往 HugingFace 獲取數據(huggingface.co/BAAI)。
權威信源:
智源研究院 X 南開大學 Chinese-LiPS 中文多模態語音識別數據集(開源)
在法國巴黎舉行的 GOSIM 全球開源創新論壇上,智源研究院正式發布 Chinese-LiPS 中文多模態語音識別數據集。數據集核心優勢為多模態數據的規模性與專業性,其中:
音頻模態包含 36208 條高質量語音片段,總時長約 100 小時,由 207 位專業講者在安靜環境中錄制,確保語音清晰度。視覺模態涵蓋兩類數據:唇讀視頻(720P 分辨率)與幻燈片演示視頻(1080P 分辨率),二者均與語音內容精準對齊。幻燈片素材由領域專家設計,結構清晰且富含圖像與視覺語義信息,輔以專業標注,為多模態關聯研究提供可靠支撐。
使用入口:開源;前往 HugingFace 獲取數據(huggingface.co/datasets/BAAI/Chinese-LiPS)。
權威信源:https://data.baai.ac.cn/datadetail/Chinese-LiPS |
360 360Zhinao3-7B 新系列模型升級 && O1.5 推理模型開源
360 集團近日升級了自研 7B 參數大模型系列,包含 360Zhinao3-7B、360Zhinao3-7B-Instruct 及 360Zhinao3-7B-O1.5 三個版本。
其中,360Zhinao3-7B-O1.5 作為重點開源版本,在數學、科學等領域的表現尤為突出,同時具備更優的綜合性能,還能在端側應用中發揮廣泛價值。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/collections/qihoo360/360zhinao3-67f87dd16d4a93368c4a9c49);前往 Github 獲取代碼(github.com/Qihoo360/360zhinao3)。
權威信源:
阿里巴巴 通義靈碼編程智能體上線
通義靈碼正式上線編程智能體,從此不再只是「寫代碼」工具,而是真正能「理解任務」的智能搭檔。依托 Qwen3 的強大能力,結合智能體與 MCP 能力,通義靈碼可以自動感知項目結構、分析需求內容,并通過調用多種編程工具,幫助開發者高效完成整個編碼任務。
使用入口:前往 通義靈碼 官網(lingma.aliyun.com)下載 ;體驗智能體模式,需在 VS Code、JetBrains IDEs 中,將通義靈碼插件升級到 2.5.0 或以上版本。
權威信源:
> “ 每個巨頭都要做自己的 AI Coding 工具,但是都陷入了同質化的怪圈 ”
OpenAI 斥資 30 億美元收購編程應用 Windsurf
媒體報道,OpenAI 以 30 億美元收購了 AI 編程應用 Windsurf。此次收購的目的是為了強化 OpenAI 在 AI 編程助手市場的競爭力。Windsurf 的技術資源將被整合到 OpenAI 的生態系統中,以推動智能開發工具鏈的升級,并加速 AI 與軟件開發的深度融合。
權威信源:https://www.forbes.com/sites/johnwerner/2025/05/06/its-openais-biggest-acquisition-to-date--but-what-does-windsurf-do
> “OpenAI 沒有選擇自己開發,直接收購了業界老二,是因為老大不肯賣嗎 ”
Anysphere(Cursor) 完成 9 億美元融資,估值達到 90 億美元
媒體報道,Anysphere(Cursor)已經完成 9 億美元的融資,估值達到 90 億美元。本輪融資由 Thrive Capital 領投,Andreessen Horowitz 和Accel 等知名投資機構跟投。本輪融資將用于技術研發、吸引頂尖技術人才以及加速商業化進程。
權威信源:https://techcrunch.com/2025/05/04/cursor-is-reportedly-raising-funds-at-9-billion-valuation-from-thrive-a16z-and-accel
> “Cursor 估值,每個月都在漲 ”
5 月 7 日
Mistral AI Medium 3 多模態模型,高性能、低成本,企業級 AI 新選擇
Mistral Medium 3 是 Mistral AI 推出的最新多模態模型,在性能與成本之間實現了突破性平衡。該模型在編程、函數調用等專業任務中表現優異,性能可達 Claude Sonnet 3.7 的 90% 以上;同時在圖像識別、語音轉換等多模態任務中,其表現超越了Llama 4 Maverick 和 Cohere Command A 等領先模型,但 Mistral Medium 3 成本顯著更低。
此外,Mistral Medium 3 還針對企業需求提供了全面的定制化功能。企業可通過持續預訓練、全面微調等方式,將模型深度融入自身知識庫與業務場景。這一設計解決了企業在 API 微調與自部署模型之間的選擇難題。
使用入口:前往 Mistral La Plateforme、Amazon Sagemaker、Azure AI Foundry、Google Cloud Vertex 等平臺調用 API。
權威信源:https://mistral.ai/news/mistral-medium-3
Cognition Labs(Devin) Kevin-32B 用于編寫 CUDA Kernel 的多輪強化學習模型(開源)
Kevin-32B 核心創新在于多輪強化學習機制,通過多次交互和反饋,使模型能夠逐步優化其生成的 CUDA Kernel。這一機制不僅增強了模型對復雜編程任務的理解能力,還確保了生成代碼的性能與可讀性。
該模型基于 QwQ-32B 模型,通過在 KernelBench 數據集上進行多輪強化學習訓練,顯著提升了代碼生成效率與質量,其推理表現已超越 o3 和 o4-mini 等頂級推理模型。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/cognition-ai/Kevin-32B)。
權威信源:https://cognition.ai/blog/kevin-32b
> “針對某個細分領域進行后訓練的小模型,可以做到「小模型,大效果」”
Apple FastVLM 視覺-語言模型,支持端側部署(開源)
FastVLM 是 Apple 最新開源的視覺語言模型,具備圖像識別、物體計數、手寫文字識別及表情符號理解等多項視覺任務處理能力。
為適配移動端場景,蘋果特別針對 Apple Silicon 芯片優化了推理效率,并提供了 0.5B、1.5B 和 7B 三種參數規模的模型版本。開發者可靈活選擇不同尺寸的預訓練模型,或基于開源的 stage2、stage3 微調權重進行二次開發,實現在 iPhone、Mac 等設備上的本地化部署與高效運行。
使用入口:開源;前往 Github 獲取模型和代碼(github.com/apple/ml-fastvlm);論文(arxiv.org/abs/2412.13303)。
權威信源:https://github.com/apple/ml-fastvlm
> “很快就在 WWDC 上見到了這款模型的實際應用,效果不錯 ”
階躍星辰 X ACE Studio ACE-Step 音樂生成基礎模型,消費級顯卡可用(開源)
ACE-Step(音躍大模型)是階躍星辰與 ACE Studio 聯合推出的一款音樂生成基礎模型,參數量 3.5B,專為消費級顯卡優化。該模型在生成效率與音樂質量之間實現了出色平衡,僅需 20 秒就能在 A100 GPU 上合成長達 4 分鐘的音樂,同時保證了音樂的連貫性、結構完整性和情感表現力。
該模型支持 LoRA、ControlNet 等多種微調方式,能夠靈活適配多樣化的音樂生成任務,如音頻編輯、人聲合成、伴奏生成、聲線克隆及風格遷移等。這一設計顯著降低了音樂類 AI 應用的開發門檻。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/ACE-Step/ACE-Step-v1-3.5B);前往 Github 獲取代碼(github.com/ace-step/ACE-Step)。
權威信源:https://ace-step.github.io |
> “實測距離 Suno 還有不小的差距 ”
HeyGen Avatar IV 數字人視頻生成模型,一張照片+一段文本=逼真的視頻
Avatar IV 是 HeyGen 推出的最新數字人視頻生成模型,僅需一張圖片和一段文本腳本,即可在幾秒內生成高度逼真的動態視頻。無論是人類、動物、外星人還是素描畫,該模型都能精準驅動數字人的面部表情、微表情和手勢動作,使視頻自然生動。
與傳統技術相比,Avatar IV的創新之處在于其對圖像輸入的高兼容性。它不僅支持正面照片,還能處理側臉、多角度圖像甚至全身視角,生成的數字人更具立體感和動態細節。
使用入口:前往 HeyGen 官網體驗(heygen.com/avatars/avatar-iv)。
權威信源:https://www.heygen.com/avatars/avatar-iv
> “與 Hedra 類似,都是用圖片生成的數字人 ”
5 月 8 日
阿里巴巴 夸克「深度搜索」升級 &&「深度研究」上線
阿里巴巴旗下夸克應用,近期對其 AI 功能進行了重要升級。
深度搜索:新版本不僅能理解用戶提問,還能主動構建問題分析框架,通過智能信息調取與整合,提供更精準的答案。官方稱其為「高搜商」(5月8日)
深度研究:專注于學術和專業領域的研究需求,通過快速解析用戶的研究意圖,自動檢索多源信息并進行智能分析,最終生成結構完整、內容充實的研究報告(5月30日)
使用入口:前往 夸克 官網(quark.cn)下載電腦版,或者手機下載 夸克 App。
權威信源: |
> “Deep (Re)Search 逐漸成為各家的標配 ”
魔樂社區 開放共享的 AI 工具與模型生態平臺
魔樂社區是中國電信天翼云牽頭發起的人工智能社區,致力于構建一個開放共享生態的人工智能社區。
平臺提供人工智能工具、模型、數據的托管。以模型為例,魔樂社區包含了文本、圖像、音頻等多模態模型,涵蓋從基礎模型到針對不同算力環境優化的專項版本,并且已經完成了國產化硬件適配。
使用入口:前往 魔樂社區 官網體驗(Modelers.cn)。
權威信源:
Figma Config 2025 Figma 發布 4 項重要更新
5月6日至8日,Figma Config 2025 大會在舊金山舉辦,會上宣布了 Figma 多項新功能,其中與 AI 關系最密切的有 Figma Buzz、Figma Draw、Figma Make、Figma Sites 這 4 項。
權威信源:https://config.figma.com/san-francisco
Figma Buzz
面向品牌團隊推出的 Figma Buzz,通過內置模板庫與 AI 輔助功能,可快速生成符合品牌規范的多樣化素材。該功能顯著縮短了設計周期,尤其適用于需要高頻產出營銷物料的場景。
使用入口:前往 Figma 官網體驗(figma.com/buzz)。
權威信源:https://help.figma.com/hc/en-us/categories/31194838351767-Figma-Buzz
Figma Draw
作為對標 Adobe Illustrator 的新功能,Figma Draw 支持矢量繪圖、插圖創作及混合編輯模式,并與現有設計組件無縫銜接。這一工具填補了 Figma 在復雜圖形設計領域的短板,提升了設計靈活性。
使用入口:前往 Figma 官網體驗(figma.com/draw)。
權威信源:https://help.figma.com/hc/en-us/sections/31830768959511-Figma-Draw
Figma Make
Figma Make 允許產品經理通過自然語言直接生成代碼或交互原型,加速創意可視化進程。其與 GitHub 的文檔同步功能,進一步減少了設計與開發團隊間的溝通成本,推動協作效率提升。
使用入口:前往 Figma 官網體驗(figma.com/make)。
權威信源:https://help.figma.com/hc/en-us/categories/31304285531543-Figma-Make
Figma Sites
設計師可在 Figma 中完成視覺設計后,直接填充文案并一鍵發布網站。Figma Sites 支持自動適配移動端,半小時內即可上線,為無代碼建站提供了更輕量化的解決方案。
使用入口:前往 Figma 官網體驗(figma.com/sites)。
權威信源:https://help.figma.com/hc/en-us/categories/31823555275671-Figma-Sites
5 月 9 日
騰訊 HunyuanCustom 多模態定制化視頻生成模型,保持視頻中多主體一致性(開源)
HunyuanCustom 是騰訊混元開源的一款視頻生成模型,其核心創新在于解決了生成視頻中單主體或多主體身份特征一致性的技術難題,在面部特征相似度、DINO 視覺相似度以及視頻時序一致性等關鍵指標上均超越當前主流開源方案,達到與商業閉源模型比肩的水準。
該模型基于 HunyuanVideo 架構開發,可以靈活接收文本、圖像、音頻、視頻等多元輸入形式,在虛擬人廣告制作、電商虛擬試穿、動態視頻編輯、教育內容生成等場景展現出顯著應用價值。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/tencent/HunyuanCustom);前往 Github 獲取代碼(github.com/Tencent/HunyuanCustom);前往 騰訊混元 官網體驗(hunyuan.tencent.com/modelSquare/home/play?modelId=192)。
權威信源:https://hunyuancustom.github.io |
> “人物一致性做的不錯,很適合拿來做數字人 就是生成速度很慢 ?”
Luma AI Reframe 智能擴展圖像視頻畫面,適配多平臺尺寸需求
Reframe 是 Luma 最新推出的尺寸調整功能,可以靈活調整圖像和視頻畫面的尺寸。該功能支持在垂直、水平或對角線方向上自由擴展畫面,并能適配 6 種常用寬高比(9:16、4:3、1:1、3:4、16:9、21:9),幫助用戶快速優化內容,滿足不同社交平臺的發布要求。
使用步驟也很簡單:只需點擊底部 Reframe 按鈕進入畫布頁面,通過拖拽調整內容的位置與大小,選擇目標寬高比并輸入提示詞,即可完成重新構圖。
使用入口:前往 Luma AI 官網體驗(lumalabs.ai)。
權威信源:https://lumalabs.ai/blog/news/introducing-reframe
> “之前 Runway 已經上線了這個功能,現在 Luma 補上了 ”
Enigma Labs Multiverse 多人模式游戲模型(全開源)
Multiverse 是 Enigma Labs 推出的一款游戲生成模型,支持多人實時互動。該模型通過動態生成畫面,使兩名玩家能在同一虛擬世界中流暢交互,同時保持場景連貫性與一致性。
其訓練數據源自索尼經典游戲《GT賽車4》,研發成本不足 1500 美元,兼具低門檻與高性能優勢,可適配普通 PC 運行。
使用入口:全開源;前往 HugingFace 獲取模型/數據集(huggingface.co/Enigma-AI);前往 Github 獲取代碼(github.com/EnigmaLabsAI/multiverse)。
權威信源:https://enigma-labs.io/blog
秘塔AI搜索 講題功能上線
秘塔AI搜索正式上線「講題」功能,幫助學生高效解決學習難題。用戶只需用手機拍攝題目或試卷并上傳,AI 便會以分步驟講解的方式還原完整解題過程。
與直接提供答案的工具不同,該功能模擬真實教師的教學邏輯,逐步拆解題目關鍵點,引導學生理解背后的思路與方法。
使用入口:前往 秘塔AI搜索 官網體驗(metaso.cn/study);或者下載 App 今天學點啥。
權威信源:
> “在提升用戶體驗方面,秘塔的理念極具獨創性 ”
5 月 12 日
Prime Intellect INTELLECT-2 推理模型,全球首個分布式強化學習訓練模型
INTELLECT-2 是由 Prime Intellect 團隊開源的一款推理模型,參數量 32B,憑借分布式強化學習架構,在數學和編程領域展現出卓越性能。與傳統依賴集中式超算的訓練方式不同,該模型通過創新的眾包模式,整合了全球閑置計算資源。這一模式顯著降低了訓練門檻,使中小企業和個人開發者也能參與高性能 AI 模型的開發。
為實現這一目標,團隊自主研發了 PRIME-RL 訓練框架,重點改進了 GRPO 訓練方案,并引入高效數據過濾技術,有效解決了分布式環境下的訓練穩定性問題。
使用入口:開源;前往 HugingFace 獲取模型/數據集/代碼(huggingface.co/collections/PrimeIntellect/intellect-2-68205b03343a82eabc802dc2);前往 Prime Intellect 官網體驗(chat.primeintellect.ai)。
權威信源:https://www.primeintellect.ai/blog/intellect-2-release
> “如果分布式能成,訓練的門檻將會大大的降低 ”
教育部 發布兩項指南,科學規范推進人工智能全學段教育
教育部基礎教育教學指導委員會發布《中小學人工智能通識教育指南(2025年版)》和《中小學生成式人工智能使用指南(2025年版)》,是進一步落實培養具有人工智能素養的創新人才的重要舉措。
《中小學人工智能通識教育指南(2025年版)》旨在構建一套科學完備的人工智能通識教育體系:小學階段注重興趣培養與基礎認知,初中階段強化技術原理與基礎應用,高中階段注重系統思維與創新實踐。
《中小學生成式人工智能使用指南(2025年版)》緊密圍繞生成式人工智能在中小學教育中的應用場景,明確各學段使用規范,確保技術安全、合理、有效地輔助教學、促進學生個性化學習、推動教育管理智能化。
權威信源: |
> “AI教育要從娃娃抓起 ”
5 月 13 日
OpenAI HealthBench 醫療基準測試,評估大模型在醫療健康領域的表現(開源)
HealthBench 是 OpenAI 推出的全新基準測試,旨在系統評估大語言模型在醫療健康領域的專業表現與安全性。該測試由來自 60 個國家的 262 名醫生合作開發,核心數據集包含 5000 段真實醫患對話,每段均配備由臨床專家制定的精細化評分標準。測試結果顯示,o3 模型在當前參評模型中綜合表現最優。
為滿足不同場景需求,HealthBench 同步推出兩個專項版本:HealthBench Hard 聚焦更具挑戰性的疑難醫學問題,考驗模型的深度推理能力;HealthBench Consensus 則通過多醫生聯合驗證機制,確保評估標準的專業性與一致性。
使用入口:開源;前往 Github 獲取(github.com/openai/simple-evals)。
權威信源:https://openai.com/index/healthbench
> “可以預見,這種高質量的私有數據,會是未來模型差異化的源頭 ”
愛詩科技 Pixverse V4.5 視頻生成模型,實現電影級鏡頭控制
PixVerse V4.5 是愛詩科技最新上線的一款視頻生成模型。該版本整合了 20 余種電影級鏡頭控制功能,支持多元素參考與動態融合,顯著提升了視頻生成的流暢度與細節表現力。
尤其在復雜動作處理方面,V4.5 通過優化算法實現了更自然的運動軌跡和場景過渡,使生成效果接近專業影視制作水準。
使用入口:前往 Pixverse 官網體驗(app.pixverse.ai);或者調用 API(platform.pixverse.ai)。
權威信源:https://x.com/PixVerse_/status/1922296498127298754
> “繼續進步,從而應對可靈的競爭 ”
昆侖萬維 Matrix-Game 可交互視頻生成世界模型,推動游戲世界建模(開源)
Matrix-Game 是昆侖萬維開源的一款交互式世界基礎模型,參數量 17B,專注于視頻生成與用戶交互的深度融合。該模型通過簡單指令即可實現對虛擬世界的自由探索、操控與創造,生成細節豐富且符合物理規則的動態場景。
其核心架構包含三大模塊:Matrix-Game-MC 數據集提供高質量訓練數據,Matrix-Game 主模型實現動態世界生成與交互,GameWorld Score 評測體系則量化生成內容的合理性與豐富度。
作為昆侖萬維 Matrix 系列在交互式世界生成方向的正式落地,Matrix-Game 也成為工業界首個開源的 10B+ 參數級空間智能大模型,為游戲開發等場景提供了可擴展的技術基礎。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/Skywork/Matrix-Game);前往 Github 獲取代碼(github.com/SkyworkAI/Matrix-Game)。
權威信源:https://matrix-game-homepage.github.io |
阿里巴巴 QwenChat 上線網頁開發和 Deep Research 功能
QwenChat 是阿里千問團隊推出的智能對話交互平臺,旨在為用戶提供便捷、豐富的 Qwen 模型交互體驗。網站近期更新了兩大實用功能:
網頁開發(Web Dev):用戶僅需輸入簡單提示詞,系統即可自動生成完整代碼,并支持一鍵部署,大幅降低從創意到實際網頁或應用落地的技術門檻(5月9日)
深度研究(Deep Research):通過引導用戶精準聚焦問題范圍,生成結構清晰、內容實用的分析報告。該功能還加入了「隨機驚喜」機制,在嚴謹調研的基礎上增添探索趣味性(5月13日)
使用入口:前往 QwenChat 官網體驗(chat.qwen.ai)。
權威信源: |
Lovart.ai 首個通用 Design Agent,一句話搞定全鏈路設計
Lovart.ai 作為世界首個通用設計Agent,通過 AI 技術徹底重構設計流程。它能夠自動完成意圖解析、任務規劃、批量執行與成果交付,實現從創意構思到最終成品的全鏈路自動化設計。
平臺可視化任務鏈與無邊畫布功能,支持圖層編輯、蒙版處理、文字精修等專業操作,并可分層導出PNG、JPG、SVG等多種格式,全面覆蓋設計師從靈感到落地的全流程需求。
使用入口:前往 Lovart.ai 官網體驗(lovart.ai)。
權威信源:
> “無邊畫布很適合設計 Agent,用戶體驗非常不錯 ”
Notion AI Meeting Notes 功能上線,自動轉錄會議內容并生成結構化摘要
AI Meeting Notes 是 Notion 推出的一款新功能,可以自動將會議轉錄文本轉化為結構化筆記,并智能生成會議摘要、核心要點及行動項,大幅提升信息整理效率。
用戶只需在任意頁面輸入快捷指令 /meet 即可啟動,無需跳轉其他 AI 工具,操作便捷。此外還可以與日歷功能無縫銜接,把 AI 會議記錄添加到日歷活動中。
使用入口:前往 Notion 官網下載桌面應用并升級到 4.7.0 版本(notion.com)。
權威信源:https://www.notion.com/help/ai-meeting-notes
> “會議紀要,真是個剛需的大市場 ”
5 月 14 日
Google DeepMind AlphaEvolve 用于算法設計的編程智能體
AlphaEvolve 是 Google DeepMind 推出的一款編程智能體,采用迭代優化機制,通過持續改進最具潛力的算法方案實現性能提升。其核心優勢在于內置的自動化評估系統,能夠對生成的算法代碼進行多維度驗證。
根據官方示例,該智能體已在多個領域取得突破性成果:不僅設計出更高效的矩陣乘法算法,為開放性數學問題提供了新解法,還成功應用于谷歌數據中心運營、芯片架構設計和AI訓練流程優化等實際場景,顯著提升了系統運行效率。
使用入口:前往 AlphaEvolve Doc 填表申請體驗(docs.google.com/forms/d/e/1FAIpQLSfaLUgKtUOJWdQtyLNAYb3KAkABAlKDmZoIqPbHtwmy3YXlCg/viewform)。
權威信源:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms
快手 X 中科院 X 清華大學 X 南京大學 R1-Reward 多模態獎勵模型,性能提升 5%-15%(開源)
R1-Reward 是快手聯合中科院等開源的一款多模態獎勵模型,通過引入 StableReinforce 算法,有效解決了多模態獎勵模型訓練穩定性與推理能力的核心難題。
實驗數據顯示,R1-Reward 在現有 Benchmark 上的表現,較 SOTA 模型提升 5%-15%,為多模態任務優化提供了高效解決方案。目前,R1-Reward 已成功應用于快手短視頻、電商及直播等實際業務場景,顯著提升了推薦系統與交互體驗的精準度。
使用入口:開源;前往 HugingFace 獲取模型/數據(huggingface.co/yifanzhang114/R1-Reward);前往 Github 獲取代碼(github.com/yfzhang114/r1_reward)。
權威信源:
Stability AI X Arm Stable Audio Open Small 文本轉音頻模型,支持移動端快速生成短音頻(開源)
Stable Audio Open Small 是一款專為移動設備優化的開源文本轉音頻模型。該模型繼承了 Stable Audio Open 的核心功能,能夠根據文本提示生成短音頻樣本、音效及音樂制作元素,例如鼓點循環、環境音效、樂器片段等,適用于創意內容的高效生產。
其突出優勢在于大幅精簡的模型體積,參數規模從原版的 1.1B 壓縮至 0.34B,成為首個可在 Arm 架構 CPU 上流暢運行的音頻生成模型。實測數據顯示,該模型在智能手機等移動端設備上僅需 8 秒即可生成 11 秒的高質量音頻,顯著降低了硬件門檻。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/stabilityai/stable-audio-open-small);前往 Github 獲取代碼(github.com/Stability-AI/stable-audio-tools)。
權威信源:https://stability.ai/news/stability-ai-and-arm-release-stable-audio-open-small-enabling-real-world-deployment-for-on-device-audio-control
> “生成速度是個亮點 ?”
阿里巴巴 Wan2.1-VACE 視頻生成與編輯統一模型,支持全功能生成(開源)
Wan2.1-VACE 時阿里同意萬相推出的一款模型,是目前業界功能最全面的視頻生成與編輯統一模型。其核心優勢在于,通過單一模型實現了多樣化的視頻創作需求,不僅支持文生視頻、圖像參考生成、視頻重繪等基礎功能,還能完成局部編輯、背景延展和時長延展等高級任務,用戶可自由組合不同功能以滿足復雜創作需求。
此次開源版本包含 1.3B 和 14B 兩個尺寸,其中 1.3B 版本經過優化,可在消費級顯卡上流暢運行,顯著降低了技術使用門檻,為開發者和創作者提供了更靈活的部署選擇。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/Wan-AI);前往 Github 獲取代碼(github.com/Wan-Video/Wan2.1);前往 通義萬相 國內站官網體驗(tongyi.aliyun.com/wanxiang);或者調用 API(bailian.console.alibabacloud.com)。
權威信源:https://ali-vilab.github.io/VACE-Page |
> “把商用模型的秘密都開源出來了 但生成的視頻質量還差點意思 ”
階躍星辰 X 光影煥像 Step1X-3D 生成大模型,支持高保真可控生成(全開源)
Step1X-3D 是階躍星辰推出的一款 3D 生成大模型,總參數量 4.8B,由 1.3B 的幾何模塊和 3.5B 的紋理模塊構成,能夠高效生成高保真且高度可控的 3D 資產。
該模型通過技術創新,顯著提升了生成結果的精確度和易用性。用戶可通過直觀參數,靈活調節3D資產的對稱性、表面細節(如鋒利度與平滑度)等屬性,確保輸出內容精準匹配設計意圖,降低了 3D 創作的準入門檻。
使用入口:全開源;前往 HugingFace 獲取模型/數據/資產(huggingface.co/stepfun-ai/Step1X-3D);前往 Github 獲取代碼(github.com/stepfun-ai/Step1X-3D);前往 Demo 頁面體驗(huggingface.co/spaces/stepfun-ai/Step1X-3D)。
權威信源:
> “階躍也做 3D 了 ? 3D 這個賽道慢慢開始火熱 ”
面壁智能 X 清華大學 SurveyGO 學術長文本寫作工具(開源)
SurveyGO(卷姬)是清華大學與面壁智能團隊共同研發的開源 AI 論文寫作工具,尤其適用于文獻綜述撰寫。它能夠幫助科研人員、學生及行業分析師快速整合海量文獻資料,生成邏輯清晰、結構嚴謹的學術內容。
在技術實現上,SurveyGO 采用了 LLMxMapReduce-V2 框架,通過文本卷積算法,逐步將局部文獻信息抽象為全局結構化內容,確保生成文章的邏輯性和連貫性。
使用入口:開源;前往 Github 獲取代碼/數據/論文(github.com/thunlp/LLMxMapReduce);前往 SurveyGO 官網體驗(surveygo.thunlp.org)。
權威信源:
> “Long to Long 領域非常不錯的實踐 ”
5 月 15 日
MiniMax Speech-02 文本轉語音(TTS)模型,音色克隆技術領先全球
MiniMax Speech-02 是 MiniMax 推出的一款 TTS 模型,憑借突破性的 Zero-Shot 能力,在音色克隆領域表現出色,在 Artificial Analysis 與Hugging Face 音頻評測中雙雙登頂,成為全球同類模型的標桿。
該模型僅需一段參考音頻,就可以精準提取說話人的音色、音調和風格特征,生成的語音效果高度擬真且穩定。此外,Speech-02 定價僅為行業競品 ElevenLabs Flash V2.5 模型的四分之一,大幅降低了用戶使用門檻。
使用入口:前往 MiniMax Audio 官網體驗(minimax.io/audio);或者調用 API(minimaxi.com/platform_overview)。
權威信源:
> “音色克隆能力很強 ”
Hedra 完成 3200 萬美元 A 輪融資,估值達到 2 億美元
Hedra 宣布完成 3200 萬美元 A 輪融資,至此公司已經完成 4400 萬美元融資。本輪融資由 a16z 領投,Matt Bornstein 將加入董事會。現有投資者,包括 a16z speedrun、Abstract 和 Index Ventures 也參與了本輪融資。資金將用于基礎模型訓練、產品升級和擴大團隊規模。
Hedra 成立于 2023 年,專注于數字角色創作,核心產品是 Character 系列模型,以及一站式視頻創作平臺 Hedra Studio。
權威信源:https://www.hedra.com/blog/series-a-announcement
> “對標 Heygen ”
5 月 16 日
Windsurf SWE-1 編程模型,專注于復雜的軟件工程任務
SWE-1 是 Windsurf 推出的一款編程模型,專為軟件工程任務設計,在內部 prod task(生產任務)基準測試中接近頂尖基礎模型,在生產環境盲測實驗中也表現優秀。
該模型具備處理不完整狀態和模糊結果的能力,可實時感知用戶在 Windsurf Editor 中的操作并動態調整,實現高效的人機協作體驗:
- SWE-1:旗艦模型,工具調用推理能力接近 Claude 3.5 Sonnet,但運行成本更低。推廣期內所有付費用戶免費使用。
- SWE-1-lite:更小但質量更高,全面取代了原有的 Cascade Base。所有用戶免費使用。
- SWE-1-mini:專為 Windsurf Tab 低延遲被動體驗而設計一個小型、極其快速的模型。所有用戶免費使用。
使用入口:前往 Windsurf 官網下載并最新體驗(windsurf.com)。
權威信源:https://windsurf.com/blog/windsurf-wave-9-swe-1
> “AI Coding 公司推出自己的模型在意料之中,據說蒸餾了不少其他模型的數據 ”
騰訊 Hunyuan Image 2.0 圖像生成模型,實現毫秒級響應
Hunyuan Image 2.0(混元圖像 2.0)是騰訊發布的一款圖像生成模型,將生圖速度從原本的幾秒甚至幾十秒大幅縮短至毫秒級。這一技術實現了實時交互體驗:用戶輸入提示詞的同時,畫面即動態生成,真正達到「邊說邊畫、邊打字邊出圖」的效果。
在性能方面,該顯著提升了圖像質量,生成的作品不僅細節豐富、寫實感強,還有效減少了傳統 AI 圖像的生硬感。
使用入口:前往 騰訊混元 官網體驗(hunyuan.tencent.com);或者調用 API(cloud.tencent.com/product/hunyuan)。
權威信源:
> “質量比之前的 sd-lightning 強,適合拿來做提示詞測試 ”
Higgsfield AI Higgsfield Ads 將產品圖片轉為專業的廣告視頻
Ads 是 Higgsfield 平臺新上線的功能,可以快速制作廣告視頻。用戶只需要上傳一張產品圖片,并從 40 多種專業模板中選擇需要的效果,就可以在幾秒鐘后獲得一條精美的、媲美專業工作室水準的商品廣告視頻。
這一功能突破了傳統視頻制作對設備、技術和時間的限制,為商家提供高效低成本的營銷解決方案。
使用入口:前往 Higgsfield Ads 官網體驗(higgsfield.ai/ads);或者調用 API(higgsfield.typeform.com/HiggsfieldAPI)。
權威信源:https://x.com/higgsfield_ai/status/1923158316764758122
> “Higgisfield 對商用需求的把握非常精準 ”
ElevenLabs SB-1 無限音效板,可以定制音效的控制面板
SB-1 Infinite Soundboard 是 ElevenLabs 推出的一款音效定制應用,用戶通過文字描述即可實時生成對應音效。該工具搭載了文本到音效(Text-to-SFX)模型,內置海浪、火焰、雷電等預設音效,支持一鍵觸發或自由替換為自定義音效,并可混合多種音效疊加使用。
目前,ElevenLabs 正圍繞 Text-to-SFX 模型開發更多插件,未來將適配 OBS 及數字音頻工作站等平臺,幫助用戶在不切換軟件的情況下直接生成并調用音效,進一步提升音頻制作效率。
使用入口:前往 ElevenLabs Soundboard 官網體驗(elevenlabs.io/sound-effects/soundboard);API 調用方式詳見下方鏈接。
權威信源:https://elevenlabs.io/blog/how-we-created-a-soundboard-using-elevenlabs-sfx-api
特朗普訪問中東三國 達成多項大額 AI 交易
5月13日至16日,美國總統特朗普訪問沙特、卡塔爾和阿聯酋三國,達成總額超2萬億美元的經貿協議,其中人工智能領域合作尤為突出。
在沙特,數字基建企業 DataVolt 宣布將投資 200 億美元,在美國建設 AI 數據中心及配套能源設施。同時,沙特新成立的 AI 公司 HUMAIN 與亞馬遜云服務(AWS)達成戰略合作,計劃投入 50 億美元打造該國首個「人工智能園區」,推動本土 AI 技術發展。
阿聯酋則聚焦 AI 基礎設施布局。由 G42 集團主導建設的 5GW(吉瓦)人工智能園區正式啟動,將成為美國境外規模最大的 AI 園區。此外,據媒體報道,美方已批準自 2025 年起,允許阿聯酋每年進口 50 萬片英偉達尖端 AI 芯片,進一步強化其算力基礎。
權威信源:
5 月 17 日
阿里巴巴 ZeroSearch 強化學習框架,通過模擬搜索引擎提升大模型的搜索能力(開源)
ZeroSearch 是阿里巴巴通義實驗室提出的一種強化學習框架,通過創新性地模擬搜索引擎行為,有效提升了大語言模型的自主搜索能力。其核心突破在于擺脫了對真實搜索引擎的依賴,轉而利用大模型預訓練階段積累的海量知識構建檢索模塊。
實測數據顯示,該模型在 NQ、TriviaQA、PopQA、HotpotQA 等問答數據集上表現出色,綜合成本較傳統谷歌搜索降低了 80% 以上。
使用入口:開源;前往 HugingFace 獲取模型/數據(huggingface.co/collections/sunhaonlp/zerosearch-google-v2-6827f4ee6b6265069d443d4e);前往 Github 獲取代碼(alibaba-nlp.github.io/ZeroSearch)。
權威信源:https://alibaba-nlp.github.io/ZeroSearch |
OpenAI Codex 云端編程智能體,高效處理復雜軟件工程任務
OpenAI Codex 云端編程智能體,基于專為軟件工程優化的 codex-1(o3版本)模型,能夠高效完成功能開發、代碼庫問題解答、漏洞修復及拉取請求提交等任務。
用戶可通過 ChatGPT 側邊欄快速調用 Codex:輸入提示詞后,點擊 Code 分配編程任務,或點擊 Ask 咨詢代碼庫相關問題。任務完成后,智能體會在云端環境中提交更改,并提供完整的操作追溯功能,便于用戶審查結果或請求進一步調整。
使用入口:前往 ChatGPT Codex 官網體驗(chatgpt.com/codex)。
權威信源:https://openai.com/index/introducing-codex
> “更偏向專業 Coding 輔助,而不是 Vibe Coding ”
5 月 18 日
五源資本 72 小時 AI 生存挑戰,依靠 AI 工具解決生存需求
五源資本發起了一項名為「72 小時 AI 生存挑戰」的創新實驗,靈感來源于 26 年前的「網絡生存測試」。活動將 7 位不同背景的參與者置于一個封閉空間內,沒有智能手機,無法使用(移動)互聯網產品。挑戰者僅能依靠 AI 工具和 100 元啟動資金完成生存挑戰,并鼓勵創造額外價值。
本次挑戰于5月15日至18日在上海展開,參與者涵蓋大廠產品經理、大學生、獨立開發者、大模型算法工程師、金雞獎提名導演、AI博士生等多領域人士。
權威信源:
5 月 19 日
嗶哩嗶哩 Index-AniSora 動漫視頻生成模型,獻給二次元世界的禮物(開源)
Index?AniSora 是嗶哩嗶哩開源的一款動漫視頻生成模型,支持一鍵生成多種動漫風格的視頻鏡頭,包括番劇片段、國創動畫、漫畫改編、VTuber 內容、動畫 PV、鬼畜(MAD)等。
該模型基于 B 站自研的 AniSora 技術,并在此基礎上進一步提出了首個專為二次元視頻生成打造的強化學習技術框架,全面提升了二次元動畫內容的生產效率與質量。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/IndexTeam/Index-anisora);前往 Github 獲取代碼(github.com/bilibili/Index-anisora)。
權威信源:|
> “這個模型 B 站做最對味 ”
字節跳動 火山引擎 MCP Servers 大模型生態廣場發布
火山引擎發布 MCP Servers 大模型生態廣場,集成了眾多高質量的 MCP 協議適配工具,涵蓋搜索、數據庫、業務系統 API 等高頻場景。開發者無需編寫接口代碼,直接拖拽所需工具即可使用。
此次發布,旨在通過「MCP Market(工具廣場)+ 火山方舟(大模型服務)+Trae(應用開發環境)」深度協同,實現工具調用、模型推理到應用部署的全鏈路開發閉環,助力開發者以「模塊化組裝」模式告別復雜手動開發流程。
使用入口:前往 大模型生態廣場 官網體驗(volcengine.com/mcp-marketplace)。
權威信源:
> “暫時不支持第三方 MCP Server,不夠開放 ?♂?”
騰訊 QQ 瀏覽器 QBot 上線,正式升級為 AI 瀏覽器
QQ 瀏覽器近日宣布全面升級為 AI 瀏覽器,正式推出智能助手 QBot,為用戶提供 AI 驅動的搜索、瀏覽、辦公、學習及寫作五大核心功能。
QBot 通過整合多 Agent 協作技術,能夠高效執行復雜任務,例如「AI 高考通」可為考生提供專業指導,下載助理、更新助理和股票助理等則針對不同場景提供精準服務。
使用入口:前往 QQ瀏覽器 官網下載(browser.qq.com)桌面端;或者移動端下載 App。
權威信源:
> “瀏覽器也是 AI 廠商的必爭之地 ?”
Flowith Neo 云端 Agent 系統,首個「無限」智能體
Flowith Neo 是 Flowith 團隊開發一款云端智能體系統,具備無限步驟、無限上下文和無限工具的特性,能夠完成長上下文、長時間運行的復雜任務。
無限步驟,指任務執行過程中持續進行推理和規劃,無需用戶手動干預;無限上下文,指上下文窗口長達 10M Token,能夠處理超大規模的數據,確保任務全程的連貫性;無限工具,指 Oracle 能動態調用多種外部工具,包括圖像生成、聯網搜索、提示詞優化等等。
使用入口:前往 Flowith 官網體驗(flowith.io)。
權威信源:https://x.com/flowith_ai/status/1924453961538670755
5 月 20 日
字節跳動 Seed-Coder 輕量級編程模型,字節的前沿探索成果(開源)
Seed-Coder 是字節開源的編程模型家族,專注于提升代碼生成、補全、編輯及邏輯推理等能力。該模型基于 Llama 3 架構開發,參數量 8.2B,上下文窗口 32K,包含基座模型(Base Model)、指令微調模型(Instruct Model)和推理模型(Reasoning Model)三個版本。
其核心創新在于數據處理的自動化機制,通過模型自生成與篩選高質量訓練數據,顯著減少了傳統方法中依賴人工預處理的工作量。不過,受限于構建的代碼數據規模,Seed-Coder 對通用自然語言的理解和對非代碼任務的處理表現仍十分有限。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/collections/ByteDance-Seed/seed-coder-680de32c15ead6555c75b0e4);前往 Github 獲取代碼(github.com/ByteDance-Seed/Seed-Coder)。
權威信源:https://bytedance-seed-coder.github.io |
智元機器人 EVAC 基于機器人動作序列驅動的具身世界模型 && EWMBench 具身世界模型基準測試(開源)
智元機器人發布的具身世界模型 EVAC 及基準測試 EWMBench,旨在構建「低成本模擬 - 標準化評測 - 高效迭代」的全新開發范式,賦能全球具身智能研究。二者已全面開源。
EVAC 是全球首個機器人動作序列驅動的世界模型,能夠動態復現機器人與環境復雜交互,標志著從傳統仿真到生成式模擬的躍遷。
使用入口:開源;前往 HugingFace 獲取模型(huggingface.co/agibot-world/EnerVerse-AC);前往 Github 獲取代碼(github.com/AgibotTech/EnerVerse-AC)。
EWMBench 是具身世界模型基準測試,可以科學、系統地衡量具身世界模型的性能表現,填補了行業空白。
使用入口:開源;前往 HugingFace 獲取數據(huggingface.co/agibot-world/EWMBench-model);前往 Github 獲取代碼(github.com/AgibotTech/EWMBench)。
權威信源:
美圖 獲得阿里巴巴 2.5 億美元投資,雙方達成戰略合作
美圖宣布與阿里巴巴簽署 2.5 億美元可轉債協議,雙方還將在電商和模型開發領域展開深入合作。
阿里巴巴將在旗下電商平臺優先推廣美圖 AI 電商工具,同時協助美圖開發電商生圖及生視頻的新工具/新功能。阿里巴巴將為美圖公司核心業務提供技術支持,滿足美圖公司旗下 AI 產品推理/訓練等算力需求。美圖公司承諾未來三年向戰略投資者阿里巴巴采購不低于 5.6 億元的云服務。
權威信源: |
> “阿里投資開始在 AI 應用領域發力 ”
Google I/O 2025 Gemini 2.5 Pro && Gemini 2.5 Flash 模型升級
Google I/O 2025 開發者大會于5月20日至21日在加州舉行,不僅展示了谷歌在人工智能領域的最新進展,還發布了多項重要產品和功能。
權威信源:https://blog.google/technology/ai/google-io-2025-all-our-announcements
> “Google 徹底打了個翻身仗,全方位領先 ”
Gemini 2.5 Pro 和 Gemini 2.5 Flash
本次大會的主角之一,兩款模型新增了原生音頻輸出功能,讓對話體驗更加自然流暢,還引入了 Project Mariner 的計算機使用能力。
Gemini 2.5 Pro 還配備 Deep Think 模式來增強推理功能,用于處理高度復雜的數學和編程問題;還增加了 Thinking Budgets 功能,允許用戶能自由控制思維鏈長度。
Gemini 2.5 Flash 以快速和低成本優勢深受開發者喜愛,本次升級后在推理、多模態、代碼和長文本處理等關鍵基準測試中都表現出色。
使用入口:前往 Gemini App 官網(gemini.google.com)或者 Google AI Studio 官網(aistudio.google.com)體驗;或者調用 API(cloud.google.com/vertex-ai)。
權威信源...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.