網易首頁 > 網易號 > 正文申請入駐

大風起兮云飛揚：Agent, o3幻覺, 刷榜, 大廠布局深意… | 南喬的月度觀察

2025-05-20 12:11:02　來源: 賽博禪心

北京舉報

分享至

ShowMeAI

南喬的月度觀察

在紛亂的歷史里，找尋共性和規律

大家好，我是南喬。本文是「賽博月刊」25 年 4 月刊的觀察和隨筆，匯總了我們整理月刊過程中的諸多思考。

點擊上方卡片，閱讀月刊全文

說明：「賽博月刊」系列發表在 @賽博禪心，每期收錄 AI 領域百件大事，希望能為這個日新月異、浩浩蕩蕩的時代留下一份完整可信的「數字底稿」。

觀察目錄

1. OpenAI ? 依然是最勇敢的 AGI 探索者，踉蹌是開拓者的勛章

2. Google ? Gemini 2.5 Pro 重回王座，但這只是龐大帝國的一個角落

3. Amazon ? 模型矩陣迅速補齊，基建狂魔開始暴露勃勃野心

4. Benchmark ? 有人作弊，有人逃避，短暫的苦澀勝利和持久的 Scling 法則

5. 圖像模型宣傳套路：先沖到 Artificial Analysis 榜單第一，再揭秘，最后現身官宣

6. Agent ? 國外廠商做協議，國內廠商做生態，創業公司做應用

7. 大廠 AI Coding 產品矩陣：高度趨同下的默契與戰略考量

8. 幾款應用成功轉型：在激蕩的 AI 洪流里，求新求變求生存

1. OpenAI ? 依然是最勇敢的 AGI 探索者，踉蹌是開拓者的勛章

近半年來，OpenAI 形象開始變得灰暗：團隊骨干相繼離職引發猜疑、組織轉型遭受口誅筆伐、GPT-4.5 等模型表現不及預期，還有被 DeepSeek R1 打破的敘事神話……

踉蹌前行的身影，讓大眾逐漸意識到：在人類最前沿的研究領域，強如 OpenAI，也無法躲避被「失敗」肘擊的命運。

我們觀察到，OpenAI 在 4 月份經歷了至少 3 次顛簸：1）o3 和 o4-mini 強大的視覺推理能力帶來了同樣強大的幻覺，2）GPT-4o 新版本因為諂媚而被撤回，3）DeepSeek R1 余威仍在。

逐一剖析下。

1）o3 與 o4-mini：探索模型能力邊界，以及帶來的「幻覺」代價

賽博月刊收錄：

4 月 17 日，OpenAI 發布 o3 和 o4-mini 視覺推理模型，作為 o 系列的最強版本，其推理能力和工具調用能力都獲得了顯著增強。

OpenAI 在 System Card 里坦陳，與前代 o1 相比，o3 和 o4-mini 幻覺率明顯上升（如上圖所示）。

o4-mini 尚可以解釋，畢竟小模型的世界知識相對有限，更容易產生幻覺。但旗艦級 o3 為什么也有這么高的幻覺率呢？OpenAI 初步分析是 o3 傾向于做出更多的斷言，這在提升回答準確率的同時，也導致了不準確/幻覺內容的增加。但其深層機制仍然有待研究。

在將近一周的話題討論中，有兩項分析非常值得關注：非營利研究機構 Transluce 的分析報告與機器學習專家 Nathan Lambert 的一篇長文。

Transluce 在報告指出，o 系列推理模型普遍存在「幻覺」，不僅限于 o3。可能的原因有兩類：1）強化學習機制誘導模型陷入了「正確率陷阱」，導致模型為了獲取正確獎勵而生成看似合理但實則虛構的內容；2）徹底丟失思維鏈使模型在后續對話中失去了推理記憶，被迫為過往行為編造解釋，從而出現了「堅持錯誤 - 突然改口」的典型矛盾行為。

Nathan Lambert 則認為幻覺產生的根源在強化學習的「過度優化（Over-optimization）」。他推測，OpenAI 訓練模型時大量采用其他 LLM 作為評估器，并且在優化過程中過于重視數學推理和代碼生成等任務的準確性，從而犧牲了其他維度的魯棒性，衍生出了嚴重的幻覺問題。

2）GPT-4o 新版本過度迎合人類：OpenAI 撤回了一次更新（瀑布汗

賽博月刊收錄：

4 月 25 日，OpenAI 更新了 ChatGPT GPT-4o 模型，目標是提升問答自然度。但是，4 月 30 日，因新版本模型過于迎合用戶，官方撤回了本次更新，恢復到了之前更平衡的版本。

對于本次新版本過于「諂媚」的原因，官方技術文檔給出的解釋是：OpenAI 一直在使用用戶反饋（如點贊/點踩行為）來優化模型，但是本次更新的版本過于重視短期反饋數據，沒有充分考慮到用戶與 ChatGPT 長期互動的特點，導致模型有時會給出看似支持實則不夠真誠的回答。

3）OpenAI 開源/閉源、付費/免費策略的搖擺，是百天前 DeepSeek 驚天一爆的余波

賽博月刊收錄：

3 月 26 日，ChatGPT 上線新版 GPT-4o 圖像生成模型，其受歡迎程度遠超想象，為 ChatGPT 帶來了新一波用戶增長。

4 月 1 日，Sam Altman 宣布 ChatGPT 圖像生成功能開放給所有免費用戶，并在同一天宣布未來幾個月將開源一款語言推理模型。

發現了嗎？OpenAI 很矛盾。它把本可以繼續吸引付費的圖像生成功能，直接開放給免費用戶。它不遺余力堆砌資源構建的封閉生態，卻又要開源一款模型。

為什么會這樣呢？或許可以從 Sam Altman 一次訪談中找到線索：他分析 DeepSeek 成功的原因，一是最前沿的模型完全免費開放，二是沒有保留地展示了「思維鏈」過程（OpenAI 隱藏了），迅速占領了用戶心智。

作為回應，OpenAI 調整了模型和產品策略，希望通過擴大用戶范圍（即免費）、展示技術實力（即開源）等措施，提升更大眾對 OpenAI 的了解和認可。

資料鏈接：

? OpenAI | Introducing OpenAI o3 and o4-mini → https://openai.com/index/introducing-o3-and-o4-mini

? OpenAI | OpenAI o3 and o4-mini System Card → https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

? Transluce | Investigating truthfulness in a pre-release o3 model → https://transluce.org/investigating-o3-truthfulness

? Nathan Lambert | OpenAI's o3: Over-optimization is back and weirder than ever → https://www.interconnects.ai/p/openais-o3-over-optimization-is-back

? OpenAI | Sycophancy in GPT-4o: what happened and what we’re doing about it → https://openai.com/index/sycophancy-in-gpt-4o

? Stratechery | An Interview with OpenAI CEO Sam Altman About Building a Consumer Tech Company → https://stratechery.com/2025/an-interview-with-openai-ceo-sam-altman-about-building-a-consumer-tech-company |

2. Google ? Gemini 2.5 Pro 重回王座，但這只是龐大帝國的一個角落

從多個社區的反饋來看，Gemini 2.5 Pro 終于在 4 月份拿到了它應得的認可，成為開發者與先鋒用戶心中的首選模型。這是 Google 一次極為有力的自我證明，一掃早期的陰霾，重新回到人工智能競賽的舞臺中央。

然而，耀眼的 Gemini 只是 Google 整體戰略的冰山一角。Google Cloud Next '25 大會，為外界清晰地勾勒出了 Google 在 AI 領域的深遠布局。

1）Google Cloud Next '25 大會：從 229 項公告，看 Google 的野心

賽博月刊收錄：

4 月 9 日至 11 日，Google Cloud Next '25 大會在拉斯維加斯舉行，35,000 多名從業人員與 350 多家贊助合作伙伴參與了會議。

Google Cloud Next 自 2016 年首辦以來，已經成功舉辦了十屆。Next '25 會議主題是 AI-Driven Transformation（AI 驅動的轉型），系統闡述了 Google 將 AI 全面滲透至云平臺各個層級的決心與能力，推動 AI 從概念驗證走向企業規模化部署，切實創造商業價值。

特別值得一提的是，官方發布了一份包含 229 項更新的大會總結，內容橫跨 AI 基礎設施、數據處理、安全防護及開發者工具等多個領域，讓外界得以窺見 Google AI 商業帝國的宏偉版圖。隨便挑幾個我們比較熟悉的：Gemini 2.5 Flash、Imagen 3、Veo 2、Vertex、Agent Development Kit（ADK）、Agent2Agent（A2A） protocol、Deep Research agent、AlphaFold 3、Ironwood、 Gemini Code Assist、Firebase Studio……

2）WIRED 雜志采訪 50 多名 Google 員工，深挖追趕 OpenAI 的艱辛歷程

2022 年底，ChatGPT 橫空出世，OpenAI 真的把 Google 拽下了王座。

從疲于應對到重回巔峰，Google 經歷了非常艱辛的兩年：內部進入 Code Red（紅色警報）狀態、Bard 聊天機器人回答踩中敏感話題、Google Brain 與 DeepMind 整合為 Google DeepMind、Gemini 系列模型正式入局、強勢將 AI 功能整合到幾乎所有產品線中（包括 Google 搜索），以及發布會一次次被 OpenAI 截胡…、

在最艱難混亂的時候，Google 員工聚集在走廊里聊天，擔心 Google 可能成為下一個雅虎。

前段時間，WIRED（連線雜志）采訪了 50 多名 Google 員工，包括工程師、市場人員、法律專家、安全顧問以及十幾名高管，回顧了這段艱辛但也傳奇的歷程，內容非常詳細（因此略微有點「流水賬」）。

回過頭看，此輪競賽中，Google 是大型科技企業里面應對最有效、策略最徹底、體系最完善的組織，沒有之一。

3）Google 還有目前最優秀的 AI 創新產品「孵化 - 放大」鏈路

在 AI Native 產品創意層面，Google 也是大型科技公司里面最出色的。我們熟知的 AI Overview、AI Mode，NotebookLM，Whisk、Learn About、Firebase Studio 等等，全都來自于 Google，而且是內部一個「神秘」組織 —— Google Labs。

前段時間，Google Labs 副總裁 Josh Woodward 在訪談中揭秘了 Google Labs 的運營精髓。我摘錄幾個印象深刻的點，推薦你閱讀原文，找找他們層出不窮的創意到底從何而來！

其一，Google Labs 獨立于其他產品部門，專注于開發創新型 AI 產品，核心使命是通過實驗和快速迭代，在 50 到 100 天內完成創意的市場驗證。

其二，Google Labs 人才團隊非常多元，不僅有經驗豐富的 Google 資深員工，還吸納了外部優秀的全能型創業人才，也會邀請作家、音樂家等專業創作者深度參與產品設計。

其三，Google Labs 推崇實驗精神與對失敗的高度容忍，鼓勵團隊大膽嘗試。產品能獲取少量（如一萬名）高粘性周活躍用戶，即被視為重要的階段性勝利。

資料鏈接：

? Google | 229 things we announced at Google Cloud Next '25 – a recap → https://cloud.google.com/blog/topics/google-cloud-next/google-cloud-next-2025-wrap-up

? WIRED | Inside Google’s Two-Year Frenzy to Catch Up With OpenAI → https://www.wired.com/story/google-openai-gemini-chatgpt-artificial-intelligence |

? Josh Woodward | Google Labs is Rapidly Building AI Products from 0-to-1 you → https://www.youtube.com/watch?v=3-wVLpHGstQ |

3. Amazon ? 模型矩陣迅速補齊，基建狂魔開始暴露勃勃野心

Amazon 過去兩年間在大模型領域一直比較低調，研發重心更多服務于內部業務和云客戶。然而，從 4 月開始，Amazon 突然在模型、產品、Agent 等多個維度同時發力，以驚人的速度和效率，僅用一個月就搭建起了基本框架。管中窺豹，Amazon 內部戰略規劃之成熟、執行力之強大，可見一斑。

1）Amazon Nova 模型體系：初具規模，關鍵組件清晰可見

賽博月刊收錄：

4 月 1 日，Amazon Nova Act，瀏覽器 AI Agent 及開發 SDK 發布。

4 月 8 日，Amazon Nova Sonic 通用音頻基礎模型發布，單一框架整合理解和生成能力。

4 月 30 日，Amazon Nova Premier 多模態基礎模型的旗艦版本發布。

整體梳理下 Amazon Nova 目前的模型體系：

理解模型：

Amazon Nova Micro（純文本，低成本低延遲）
Amazon Nova Lite（多模態，低成本）
Amazon Nova Pro（多模態）
Amazon Nova Premier（多模態，旗艦模型，教師模型）

創意模型：

Amazon Nova Canvas（繪畫）
Amazon Nova Reel（視頻）
Amazon Nova Reel 1.1

語音轉語音模型：

Amazon Nova Sonic（音頻）

2）Amazon Nova 網站：開放模型體驗，加速觸達用戶

為了讓普通用戶也能便捷體驗 Nova 模型的能力，Amazon 專門上線了免費體驗網站 Amazon Nova。用戶通過郵箱或亞馬遜賬戶輕松注冊，就可以試用包括文本對話、繪畫生成、語音處理在內的多種模型功能了。

網站更新非常快！3 月 31 日上線，目前已經把基本功能追了個七七八八，而且最新的 Agent 領域也沒落下，已經先后公布了 Nova Act 和 SDK（類似 OpenAI Oprater），看演示效果還行。

3）亞馬遜的殺手锏：AI 與電商的終極融合

賽博月刊收錄：

2024 年 11 月 19 日，Perplexity 推出 AI 購物功能，一鍵完成從搜索到購買的全鏈路。

4 月 29 日，ChatGPT 搜索功能升級購物體驗，向全球用戶（含免費及未登錄）提供商品查找、比較與購買服務。

近期，AI 頭部公司開始試水電子商務業務，紛紛上線 Shopping 功能，并引起了不小的反響。其中，比較出圈的是 Perplexity AI 和 ChatGPT。

然而，美國電商領域的王者 Amazon 才是擁有絕對優勢的玩家：領先的電商平臺、海量的真實購物數據以及成熟高效的物流配送網絡。Amazon 這些核心資產，一旦與頂尖大模型實現深度整合，能構建起從智能搜索、精準個性化推薦到無縫線下履約的商業閉環。這種生態級的壁壘，是其他 AI 創業公司在短期內難以復制和逾越的。

資料鏈接：

? Amazon Nova 官方頁面 → https://aws.amazon.com/ai/generative-ai/nova

? Amazon Nova 體驗網站 → https://nova.amazon.com

4. Benchmark ? 有人作弊，有人逃避，短暫的苦澀勝利和持久的 Scling 法則

最近，關于「大模型刷榜」的討論又開始變多了。與以往「碾壓 GPT-4」「遠超 Claude 3.5」的陳詞濫調不同，這輪討論直指技術操作層面，切實抓住了模型廠商和排行榜弄虛作假的證據。

至此，「刷榜」話題超越了宣傳策略的道德范疇，演變為可能實質性扭曲榜單表現、甚至誤導模型研發方向的嚴重問題。曾經「投機取巧」的捷徑，終于被驗證是一條徹頭徹尾的歧途。

1）Llama 4「刷榜」風波，還有頭部廠商與榜單之間的「狼狽為奸」

賽博月刊收錄：

4 月 6 日，Meta 推出 Llama 4 系列模型，包含 Scout、Maverick 和仍在訓練中的 Behemoth 三個版本。

Meta 上個月把臉丟到了全世界面前。Llama 4 發布時宣稱在 Chatbot Arena 獲得了極高排名，但隨后被開源社區打假并實錘，一并擊碎了行業的殷殷期待。一周時間，從「開源之光」跌進「信任危機」，把開源之王的寶座徹底拱手讓了出去。

我們快速捋一下事件脈絡：

4 月 6 日，Meta 推出 Llama 4 系列模型，包含 Scout、Maverick 和仍在訓練中的 Behemoth 三個版本，并高調宣稱 Maverick 版本在 Chatbot Arena 拿到了第二名的好成績，僅次于 Gemini-2.5-Pro。

4 月 7 日，「一畝三分地」網絡論壇上，有自稱參與 Llama 4 訓練的員工爆料稱，模型在訓練后期針對性地混入了 Benchmark 測試數據，以此來提升榜單表現。

很快，Meta 研究科學家主管 Licheng Yu 實名辟謠（如上圖所示），Meta GenAI 團隊負責人 Ahmad Al-Dahle 也發帖澄清，確認 Llama 4「沒有在測試集上進行訓練」。

4 月 8 日，開源社區開發者發現，Meta 提交給 Chatbot Arena 的模型版本與公開發布的開源版本存在顯著差異。

Chatbot Arena 隨后說明，先前榜單上的高分模型 Llama-4-Maverick-03-26-Experimental 是一個經過人類偏好深度優化的定制版本。算是承認了。

最終，Llama-4-Maverick 公開發布的開源版本在 Chatbot Arena 的對戰成績，從第二名滑落至二十名開外，坐實了公眾的疑慮。（在 5 月 11 日更新的排行榜里已經滑落到了 41 名）

兩周后，一篇名為《The Leaderboard Illusion》的論文，進一步揭發了頭部模型廠商與 Chatbot Arena 之間的種種「潛規則」，直指當前評估機制的深層缺陷。

作者團隊有成員就職于 Cohere 實驗室，曾參與模型訓練并向 Chatbot Arena 提交模型。他們在操作過程和對榜單的長時間觀察中，發現了排名被操縱的痕跡：OpenAI 和 xAI 的模型曾在同一天輪流占據榜首，Google和 OpenAI 也曾在幾天內交錯拿到第一名。這么頻繁的排名更新，顯然違背了常理和平臺自身規則。

所以！有貓膩！作者團隊開始收集數據，把少數模型廠商與 Chatbot Arena 之間的作弊方式，扒了個干干凈凈：

作弊方式1：Chatbot Arena 允許少數特權廠商（主要是 Meta、Google、OpenAI、Amazon 等）同時提交多個模型變體進行匿名測試，最終只選擇性地公開表現最好的版本。僅僅 3 月份，Meta 公司就私測了 27 個版本，Google 私測了 10 個版本。（然后，Llama 4 和 Gemma 3 就發布了）

作弊方式2：部分商業閉源模型在 Chatbot Arena 社區對戰中獲得了遠超開源模型的曝光與用戶反饋數據（67.7%）。這種事實上的數據傾斜，為其模型迭代優化提供了不公平的優勢。

作弊方式3：實驗發現，針對特定榜單進行少量微調（如加入 Chatbot Arena 對戰數據），能顯著提升模型在該榜單的排名，但對其在其他任務上的真實泛化能力助益甚微，甚至可能造成損害。也就是說，Chatbot Arena 榜單上的高分模型不一定能力更強，也有可能是過擬合了。

2）另辟蹊徑的代價：不搏競技場排名，而是對齊人類品味，能通向更高的智能么？

賽博月刊收錄：

4 月 4 日，Midjourney V7（alpha）圖像生成模型，提升理解能力與圖像質量。

面對 Benchmark 和排行榜的殘酷內卷，部分模型及產品團隊選擇了一條看似更「取巧」的路徑：避開硬核的量化指標競爭，轉而全力優化用戶感官體驗，對齊當前主流的人類審美偏好。比如，近期更新的 Midjourney v7 側重于細節清晰度和畫面質感，可靈 2.0 側重于畫面美學和流暢度，Suno 4.5 側重于音質和人聲表現力。

短期內，這種策略當然是奏效的，「好看」和「好聽」就是硬道理，用戶喜歡就可以，何必在榜單上卷生卷死。但是，從更長遠的視角來看，過度依賴人類主觀品味就注定會被人類當前水平所束縛，永遠做不出超越人類的模型和產品。

Midjourney v7 發布后，資深用戶反饋其進步幅度不及預期。團隊應該已經開始品嘗 The Bitter Lesson（苦澀的教訓）了。

"歷史的經驗一次又一次地告誡我們：

1）AI 研究者常常試圖將人類的知識灌輸到 AI 算法中；2）這種做法在短期內通常有效，并且能給研究人員帶來個人的成就感和虛榮心；3）但從長遠來看，它會造成瓶頸，甚至阻礙進一步發展；4）最終的突破性進展往往源于一種截然不同的思路，即通過搜索和學習來擴展算力規模。而那些最終的成功往往伴隨著是苦澀，常常難以被下咽，因為算力的成功意味著對我們所虛榮的以人類為中心的固有思維一記響亮的打臉。

3）我們需要新的 Benchmark：重塑大模型能力的評估基準

優秀的 Benchmark 有助于模型智能增長，平庸的 Benchmark 會把模型帶到反面。現有主流 Benchmark 的全面性與有效性已然捉襟見肘，有些還為模型廠商「應試優化」提供了可乘之機。

行業迫切需要建立一套全新的、能夠更真實、更全面反映大模型核心能力的測評基準體系。這方面走在前沿的，依然是 OpenAI（國內字節跟進）。以下是 OpenAI 和字節跳動近期發布的新測試基準，你也可以從中窺見接下來一段時間內的模型發展趨勢。

OpenAI SWE-Lancer：評估大模型編程能力
字節跳動 SuperGPQA：評估大模型知識推理能力
OpenAI PaperBench：評估 AI Agent 復現前沿研究的能力
字節跳動 Multi-SWE-bench：評估大模型多語言代碼修復泛化能力
OpenAI BrowseComp：評估 AI Agent 復雜信息檢索能力
OpenAI HealthBench：評估模型在醫療領域的表現

資料鏈接：

? Chatbot Arena → https://lmarena.ai/?leaderboard

? Chatbot Arena 承認的帖子 → https://x.com/lmarena_ai/status/1909397817434816562

? The Leaderboard Illusion → https://arxiv.org/abs/2504.20879 |

? The Bitter Lesson（苦澀的教訓）→ http://www.incompleteideas.net/IncIdeas/BitterLesson.html |

? The Second Half → https://ysymyth.github.io/The-Second-Half |

5. 圖像模型宣傳套路：先沖到 Artificial Analysis 榜單第一，再揭秘，最后現身官宣

賽博月刊收錄：

2024 年 10 月31 日，Recraft Recraft V3 圖像生成模型發布。

3 月25 日，Reve Reve Image（Halfmoon）圖像生成模型發布發布。

4 月 15 日，字節跳動 Seedream 3.0（Mogao）圖像生成模型，原生高清輸出與商業級文本效果。

Artificial Analysis 是一家提供 AI 模型性能數據的分析機構，其發布的各類 Leaderboard（排行榜），特別是「文生圖（Text To Image）」細分榜單，已成為行業觀察模型能力的重要參考之一。

該榜單首次大規模進入公眾視野，是去年名不見經傳的 red_panda 模型超越 FLUX1.1 意外登頂，引發了大眾的好奇心。幾天后，該模型被一家英國初創團隊 Recraft AI 認領并正式發布。之后，同樣絲滑的小連招偶有觸發但無傷大雅，直到我看見字節也用上了這個套路

要知道，在競爭激烈且套路滿滿的模型營銷環節，被各大廠商盯上的宣傳渠道，其真實性和公正性就要被打上一個大大的問號了 (?_?)??

1）Recraft V3（red_panda）

第一步：新模型突然登頂。

2024 年 10 月 28 日，red_panda 模型登上 Artificial Analysis 網站 Text To lmage 細分榜單第一名。Artificial Analysis 截圖發 X 表示疑惑。

第二步：幾天之后再揭秘。

2024 年 10 月 31 日，Artificial Analysis 再發 X 宣布，red_panda 模型正式名稱為 Recraft V3，所屬公司 Recraft AI 是一家位于英國倫敦的平面設計公司。

第三步：團隊認領并發布。

同一天，Recraft AI 團隊發帖認領，模型正式發布。

2）Reve Image（Halfmoon）

第一步：新模型突然登頂。

3 月 19 日，Halfmoon 模型登上 Artificial Analysis 網站 Text To lmage 細分榜單第一名。Artificial Analysis 截圖發 X 表示疑惑。

第二步：幾天之后再揭秘。

3 月 25 日，Artificial Analysis 再發 X 宣布， Halfmoon 模型正式名稱為 Reve Image。

第三步：團隊認領并發布。

同一天， Reve 團隊發帖認領，模型正式發布。

3）SeeDream 3.0（Mogao）

第一步：新模型突然登頂。

4 月 13 日，Mogao 模型登上 Artificial Analysis 網站 Text To lmage 細分榜單第一名。Artificial Analysis 截圖發 X 表示疑惑。

第二步：幾天之后再揭秘。

4 月 15 日，Artificial Analysis 再發 X 宣布，Mogao 模型正式名稱為 SeeDream 3.0，所屬團隊 Dreamina AI（即夢）是 ByteDance（字節跳動）的圖像&視頻團隊。

第三步：團隊認領并發布。

同一天， Dreamina AI（即夢）團隊發帖認領，模型正式發布。

資料鏈接：

? Recraft V3→ https://x.com/recraftai/status/1851706399631224939

? Reve Image → https://x.com/reveimage/status/1904211082870456824

? SeeDream 3.0→ https://x.com/dreamina_ai/status/1912145370978881763

? Artificial Analysis 文生圖榜單 → https://artificialanalysis.ai/text-to-image/arena

6. Agent ? 國外廠商做協議，國內廠商做生態，創業公司做應用

最近兩個月，Agent 最火爆但也最讓人困惑。Manus 的爆火，首次將 Agent 從抽象概念推進到產品時代，但也在公眾認知中形成了一些初步的、可能不完全準確的「刻板印象」。就在這半明半昧的熱鬧里，MCP 和 Agent 風風火火地發展起來了。

從 4 月份的行業動態來看，Agent 領域的討論主要圍繞三大方向展開：協議、生態、應用。

1）國外大廠開始定義 Agent 概念及開發范式

賽博月刊收錄：

4 月 11 日，Google Gemini 模型將支持 MCP 協議。

Anthropic 在此領域布局較早，早在 2024 年 10 月就已經發布了 MCP（Model Context Protocol）。目前，OpenAI 和 Google 已經陸續宣布接入 MCP。

Google 在 2025 年 4 月的 Cloud Next '25 大會上正式推出了 A2A（Agent-to-Agent）開放協議。OpenAI 則圍繞 Agent 開發構建基礎生態，目前已經公開的工作就有 Operater、Response API、Codex CLI、Agents SDK、Deep Research、o 系列推理模型等等。

2）國內科技巨頭緊隨其后，紛紛圍繞 MCP 搭建本土化的 Agent 開發服務平臺

賽博月刊收錄：

4 月 9 日，阿里云百煉上線業界首個全生命周期 MCP 服務。

4 月 9 日，騰訊云上線 AI 開發套件（SDK），可以快速搭建 AI Agent 小程序，并提供 MCP 插件托管服務。

阿里巴巴和騰訊同一天宣布了 Agent 方向的進展，都是希望降低 Agent 的開發門檻，并且構建屬于自己的垂直 Agent 開發平臺。阿里的動作幅度更大。

3）初創公司憑借創新能力和組織效率，陸續開始發布 Agent 應用

賽博月刊收錄：

4 月 2 日，Genspark AI Super Agent 通用 AI Agent。

4 月 22 日，Fellou.ai 是全球首款 Agentic Browser（內測）。

4 月 19 日，字節跳動 Coze Space（扣子空間）AI Agent 應用內測。

自 Manus 一鳴驚人之后，Agent 應用的巨大潛力被市場充分認知，相似或同類型的 Agent 產品如雨后春筍般涌現。賽博月刊收錄了 4 月份在國內市場獲得較高關注度的 Agent 應用。

資料鏈接：

? Anthropic | Building effective agents → https://www.anthropic.com/engineering/building-effective-agents

? Google | Agents → https://www.kaggle.com/whitepaper-agents

? OpenAI | A practical guide to building agents → https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

? Genspark Super Agent → https://www.genspark.ai

? Fellou.ai → http://fellou.ai

? 扣子空間（Coze Space）→ https://www.coze.cn/space-preview

Jomy 寫了一個系列，目前更新了兩篇，厘清了 MCP 和 Agent 的原理和基礎知識。讀完應該會刷新你的認知。

7. 大廠 AI Coding 產品矩陣：高度趨同下的默契與戰略考量

隨著 Cursor、Winsurf、V0、Bolt.new 等輔助編程產品的陸續崛起，AI Coding 賽道最近變得異常擁擠。科技巨頭也不甘示弱，近期密集發布或更新了自家 AI Coding 應用，其產品形態和功能定位也呈現出了高度的趨同性。

這種高度一致的布局背后，是各大廠商之間心照不宣的戰略默契，也是搶占高質量代碼數據、鎖定核心開發者群體等深層原因。當然，或許還有其他尚未顯露的、更為長遠的戰略意圖。

以下是對主要廠商在 AI Coding 領域產品形態的梳理與歸納：

8. 幾款應用成功轉型：在激蕩的 AI 洪流里，求新求變求生存

整理月刊資料時，一個集中且有趣的現象浮現在我眼前：多個在各自領域具備一定知名度的產品團隊，果斷選擇戰略轉型并取得了成效，新方向帶來了更大的市場關注和認可。

在大模型能力迭代升級、創新產品層出不窮的當下，及時轉型是產品團隊要做出的艱難但必要的選擇。成功的轉型，能帶領產品迎來「柳暗花明又一村」的全新局面。

以下重點介紹賽博月刊 4 月份收錄的成功轉型案例，希望能為從業者帶來一點信心和啟發：

1）Higgsfield AI

賽博月刊收錄：

4 月 1 日，Higgsfield AI 上線 DoP I2V-01-preview 視頻生成模型，具有專業運鏡效果。

4 月 29 日，Higgsfield AI 上線 Iconic Scenes 功能，將照片一鍵融入經典電影場景。

Higgsfield AI 此前聚焦在 AI 視頻工具領域，從 4 月份開始，戰略重心轉向了專業影視級視頻生成與特效制作。憑借 4 月 1 日發布的 DoP I2V-01-preview 視頻生成模型，以及 4 月 29 日上線的 Iconic Scenes 功能，Higgsfield AI 以令人耳目一新的技術實力和應用場景，拿到了非常棒的成績。

2）Genspark

賽博月刊收錄：

4 月 2 日，Genspark AI Super Agent 通用 AI Agent。

Genspark 創始團隊擁有前百度高管背景，早期定位是 AI 搜索引擎。搭乘近期 Manus 的東風，Genspark 果斷調整航向，于 4 月 2 日正式推出了其通用 AI Agent 產品——Super Agent。

據 Genspark CEO Eric Jing 透露，Super Agent 發布后短期內即實現了千萬美金級別的 ARR，為此團隊不惜關停了已擁有數百萬用戶的原 AI 搜索產品，將公司資源全面聚焦于 AI Agent 的研發與推廣。

資料鏈接：

? Higgsfield AI → https://higgsfield.ai

? Genspark → https://genspark.ai

賽博月刊 | 往期推薦

THE END

已經開放全域快捷轉載

Powered by 帶帶弟弟排版器Pro

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.