網易首頁 > 網易號 > 正文申請入駐

萬字長文！大模型開源開發全景與趨勢解讀

2025-05-27 18:10:42　來源: CSDN

北京舉報

分享至

“當我們看到這些數據趨勢的時候，一個詞浮現在我的眼前——黑客松（Hackathon），AI 領域的項目，快速地出現、快速地停更，他們似乎在做一場真實市場里的黑客松，那么，什么領域涌現了最多項目，哪些方面是停更的重災區，哪些項目幸存了，激烈競爭的項目們如今怎么樣了，我們都嘗試著在這份趨勢報告里敘述一二。”

--王旭，螞蟻開源技術委員會副主席

作者 | 王旭、夏小雅

本文經授權轉載自螞蟻開源

「根據 OpenDigger 的數據顯示，人工智能已經于 2023 年超越云原生，成為協作影響力最大的技術領域」

從近十年來 AI、云原生、數據庫、前端、操作系統這五大技術領域的發展曲線來看，AI 類項目在近些年得到了快速發展，尤其在 2022 年后發展迅猛。AI 項目影響力總值在 2017 年超越前端技術，2022 年后進入快車道，并且在 2023 年超越了已經在逐漸下降的云原生領域，成為影響力最大的技術領域。

五大技術領域近十年 OpenRank 曲線

大模型開發生態全景春節期間，DeepSeek 再次引爆大模型開發生態，2025 年 2 月，GitHub Trending 周榜上一度有 94% 的開源項目都和 AI 有關。這個生態如此嶄新，迭代速度也如此驚人，我們觀察了近三個月的 GitHub Trending 榜單，60% 的大模型開發生態相關的項目是在 2024 年之后新興出現的，甚至有將近 21% 的項目在近半年內才創建，當然，有來也有去，同樣有大量曾經熱門的項目沒有等到我們發出這份報告的日子。從螞蟻開源團隊的視角，我們希望從社區數據中了解當下大模型開發生態的演進全貌：有哪些新興的趨勢，以及趨勢下最頂尖的項目有哪些。螞蟻的開源團隊其實不叫開源辦公室（OSPO），而是叫“開源技術增長”，是螞蟻的一個技術架構性團隊，我們的一個工作目標就是“利用對開源社區的洞察來為螞蟻的架構和技術的演進提供指引”。我們做的這樣的全景圖和趨勢分析，也正是希望能依據對社區的洞察，指出哪些項目是最應該跟蹤、使用、參與的，哪些方向是值得投入的，反之亦然。開源開發世界的一個很大的優點是，我們可以從公開數據中看到開發者們的協作分布動向，以此模擬項目們在生態之中的關聯關系和生態位置：也許是上下游合作關系，也可能是同生態位競爭關系。因此，在做這份全景圖的一開始，我們選取了時下 AI 領域中大家最耳熟能詳的一些項目（例如 PyTorch，LangChain，vLLM 等），把它們作為種子節點，然后通過開發者在 GitHub 上的不同項目之間產生的協作關聯關系，不斷去探查生態的多個側面。在得到初始的項目列表的基礎上，我們和一些相關領域的開發者們探討，手動的維護項目所屬的技術領域標簽，并不斷做列表的收斂和更新。AI 技術迭代一日千里，我們希望呈現的是當下最頂尖的和最火熱的開源項目，所以，這里用到了華東師范大學 X-lab 實驗室的OpenRank 影響力評價指標（https://open-digger.cn/docs/user_docs/metrics/global_openrank）作為一個重要的數據依據——在今年的 OpenRank 月均值大于 10 的項目才會出現在全景圖上，一些年久失修，或者是過于嶄新的項目，如果沒有達到這個閾值，則會被拿掉。最終，呈現下面這張 2025 年大模型開源開發生態全景圖，截止 2025 年 5 月發布時，全景圖上收錄了 135 個項目，涵蓋了智能體應用層和模型基礎設施層一共 19 個技術領域。雖然我們非常努力想從中挖掘更多信息，但我們也完全明白，社區的數據既不全面也不完全準確，而且也不一定能反映出很多最新最優秀的技術變化，我們只希望這個報告能給大家一些有益的參考，有什么錯漏之處和其他值得補充的觀點，也歡迎大家反饋給我們。

地址： https://antoss-landscape.my.canva.site

以下是本次全景圖上所有項目中，在2025 年 OpenRank 排名 Top 20的項目詳情：

結合這些項目的排名分布，再對比 2024 和 2025 年 OpenRank 的同比絕對值變化，可以看到三大主導的技術領域：模型訓練框架、高效推理引擎和低代碼應用開發框架。

在訓練上：PyTorch是當之無愧的生態頂流，在全景圖中的所有項目中影響力位列第一。而國產的深度學習平臺百度飛槳，對比去年同期 OpenRank 降低了 41%，絕對值降低 150；
在推理上：高效推理引擎vLLM和SGlang在過去一年都處于飛速迭代之中，分別位于 OpenRank 同比增長的第一和第三位，他們以優越的 GPU 推理性能優勢在企業級 LLM 部署中廣受擁躉；
在應用側：結合低代碼工具鏈和 RAG 知識檢索管理技術的Dify和RAGFlow，由于契合企業快速構建 AI 應用的需求，正在迎接屬于他們的高速增長，而這兩個應用開發平臺都是從中國開發者社區中生長出來的強勢項目。

在觀察了 100 多個大模型開發相關領域的開源項目之后，我們得到了一個暴論：

大模型開發生態是一場真實世界的黑客松（A Real-world Hackathon）

在 AI 技術擴散速度遠超預期的背景下，大模型開發生態正演變為一場在真實世界發生的、實時公開直播的黑客松。開發者借助 AI 的力量得以以“超級個體”的姿態，在熱點事件中快速構建開源項目，通過技術能力爭奪公共流量與行業話語權。與此同時，一波又一波的開源項目和產品也在技術概念浪潮中爆火或者消亡。這種快速構建，快速消亡，注重開發速度的迭代，正如“幾十個小時完成一款軟件”的黑客馬拉松（Hackathon）一般。

在觀察和這張全景圖相關的開源項目時，我們發現了一些有趣的故事，從側面印證了上述觀點：

開發者的短線投資與技術聲譽

當 Devin、Perplexity、Manus 等閉源產品引發行業震動時，開發者們在短時間內迅速復刻出了開源版本：

Devin 與 OpenDevin：在 Devin 發布的當月（2024 年 3 月），在 UIUC 計算機專業在讀 PhD 的王星堯發起了 OpenDevin 項目，項目開源的次月， OpenRank 就飆升至了 190。后來，OpenDevin 改名為 OpenHands，并且成立了相應的商業化公司 All Hands AI，專注于做 AI 軟件開發應用平臺；
Perplexity 與 Perplexica：獨立開發者 ItzCrazyKns 于 2024 年創建了 Perplexica 項目，作為熱門的閉源AI 搜索引擎 Perplexity 的開源替代，迄今項目已經積累了 22K Star 的極高關注，但 OpenRank 始終不溫不火地維持在 25 左右；有趣的是，在 Devin 發布的同時間，這位開發者也同步發起了一個更輕量的開源版本“Not Devin”，如今也已經明確不再維護；
Manus 與 OpenManus：今年 3 月，Manus 刷屏的同時，MetaGPT 背后的創業公司 DeepWisdom 再次帶來一場經典的“ 3小時復刻”，在 OpenManus 倉庫創建的當天就獲得了 8k Star。

這些項目的生命力究竟如何，還需要時間驗證（當然，有一些已經被時間驗證），但開發者通過短期內獲得的技術聲譽實現了自身的長期價值 -- GitHub Star 數、社區討論熱度以及與頭部機構的合作機會，成為衡量開發者“影響力資產” 的新指標，即便那些項目最終沉入 “AI 墓園”，開發者也能夠憑借早期貢獻獲得行業認知的紅利。

AI “墓園” - 曇花一現的技術實驗

LLM 浪潮同時催生了一批 “速生速死” 的 AI 項目和產品。在 Dang AI 收錄的 5079 個 AI 應用工具中，有 1232 個已經停止維護，其中最容易被關停的產品類別是寫作類工具。Dang AI 為這些曇花一現的產品們做了一個“AI 墓園”（https://dang.ai/ai-graveyard）。

在開源生態中，也不乏這樣的項目，他們在創建后的短時間內獲得了大量的關注，而如今已經不再活躍，我們為這些項目做了一個“開源 AI 墓園”（如下圖）。這些項目均在 2023 年之后發起，擁有上萬 Star 的關注度，除了 Swarm 是由 OpenAI 在今年 3 月官方宣布不再維護外，其余項目的上一次代碼提交都還停留在 2024 年。

其中，比較有代表性的有兩個項目：

2023 年 4 月，個人開發者 Yohei 發起了 BabyAGI 項目，在很早期就提出了 “自我進化 Agent” 的設想，通過任務分解、學習反饋和動態規劃模擬通用人工智能（AGI），可謂是最早的一波對 AGI 的想象；
2024 年 2 月，OpenAI 發布了 Swarm，提出了 “群體智能”的概念，在發布時獲得了極高關注度，被視為探索多智能體協作的前沿嘗試，目前已經被產業可落地的 OpenAI Agents SDK 所替代，Swarm 則逐漸淡出公眾視野。

這兩個項目在發布時就聲稱是 “實驗性”、“探索性” 的嘗試，可以說在一開始就沒打算做深謀遠慮的長期規劃。然而他們所提出的先鋒概念，所激發的討論和創新性嘗試，在一起推動這場“黑客松接力賽”從概念驗證向工程落地的演進。

模型能力對應用場景的沖擊與重塑

隨著模型能力的不斷提升，應用開發生態也在隨之發生變革，有沖擊與擠壓，但也帶來了更多新的想象空間。

AI Search 開源項目的式微：AI 搜索是最早落地的應用場景，以 Perplexity 為代表的產品一度形成了對谷歌搜索的實質性挑戰，而 Morphic.sh、Scira 等開源項目也試圖通過本地化部署和 API 自由配置打破閉源產品的壟斷。從發展趨勢上來看，這類項目的存活率并不高。模型能力的泛化在加劇專用搜索工具的生存壓力，GPT4、Gemini2.0 等新一代模型已經能夠自主完成網絡檢索、信息整合和答案生成的全流程，這種內置的聯網檢索功能也許在壓縮專用的搜索工具的市場空間；

AI Search 開源項目們的 OpenRank 趨勢

AI Coding 開源項目的火熱：與之相對的，模型能力的提升正在引發軟件開發范式的變革。Claude 3.7 Sonnet 在編碼和 Web 開發方面的突出表現讓 AI 輔助編程進入了一個新階段。開發者通過自然語言描述場景，模型自主完成需求分析和代碼實現的 “氛圍編程”（Vibe Coding）開發范式已經悄然形成。現階段，除了商業化產品 Cursor、Windsurf 等驗證了市場熱情外，以 Continue、Cline 為代表的 IDE 插件形態的項目們也是主流的開源選擇，這兩個項目的社區參與者人數都已經超過 3000 人，且 OpenRank 曲線持續攀升。順便提一下，螞蟻也在 2023 年開源了 AI Coding 平臺 CodeFuse，從軟件開發的全生命周期輔助開發者進行 AI 原生的軟件開發，雖然本次沒出現在全景圖上，但還是歡迎大家關注。

AI Coding 開源項目們的 OpenRank 趨勢

生態位之間的動態博弈

從整體格子的變化來看，生態位之間也在進行動態的博弈。

在增長的兩端分別是以 Dify 為代表的應用平臺和以 LangChain 為代表的應用開發框架。不同開發模式表現出的 “冰火兩重天” 態勢，也是該生態極快迭代與極強生命力的體現。此處要特別提一下本次唯一出現在全景圖上的、由螞蟻發起的開源項目 DB-GPT，它是一個結合了“AI 應用開發” 和“大數據應用”兩個場景的 Agent 開發平臺，精準的定位和精準的出擊，讓項目在 2023 年一經推出就吸引了大量高校和產業界的開發者們參與共建。
DeepSeek-R1 推理模型帶來的 "Aha Moment" 證明了強化學習這一后訓練路徑的有效性，以 Verl，OpenRLHF 為代表的強化學習框架在今年顯著增長。在今年 2 月份，inclusionAI 也全面開源了強化學習框架 AReaL，旨在訓練每個人都可以復現和貢獻的大型推理模型，當然，項目還很新，讓我們期待下一次它能夠出現在全景圖上。
生態之間也在彼此摸索能力的邊界。例如，向量化的存儲、計算和檢索是作為大模型應用接入領域知識的重要一環，一度給 Milvus、Qdrant 等垂類的向量數據庫帶來“潑天的流量”，而傳統大數據系統也紛紛做向量化轉型，螞蟻的開源分布式數據庫 OceanBase 也在去年支持了向量存儲功能，并且同步兼容了 Milvus 的 API。我們可以看到，技術的邊界在不斷的流動和融合中保持著微妙的生態平衡。

大模型開源開發生態技術趨勢觀察

在生態全景之外，我們選取了當下熱門的七大趨勢，基于社區數據進行了趨勢分析、行業觀察，并且比較大膽的做了一些趨勢論斷。這些趨勢包括了在大模型時代新興出現的生態，例如以應用層為主的 Agent 開發框架，以 MCP 為代表的 AI 原生標準協議，改變了軟件開發模式的 Coding Agent；也包括了發生在傳統的大數據和人工智能領域的生態，它們在大模型時代也發生了一些轉向，有些領域一度被顯著地波及，例如向量化的存儲，也有些領域發生了生態格局的顛覆，例如模型的推理服務。

2023-2024 年間，以 LangChain 為代表的"全能型"框架憑借其開創性的任務編排能力和豐富的工具集成一度主導市場，在此期間也涌現出了一大批新的 Agent 開發框架，無論是主打工具調用、RAG 接入、長上下文記憶、ReAct 規劃，無數的智能體開發框架在不同的技術概念和浪潮下迅速崛起；到 2024 年下半年，格局初步形成，已經少有看到新的開發框架出現，熱潮褪去之后，我們看到早期主導市場的 LangChain 因為陡峭的學習曲線和復雜的調試成本在明顯的走向下坡；進入 2025 年，格局呈現出分化的趨勢：Dify、RAGFlow 等平臺通過低代碼工作流和企業級服務的落地開始主導市場；而以 LangChain 和 LlamaIndex 為代表的開發框架日漸式微。

Agent 開發框架 OpenRank Top 10 排名變化

Agent 開發框架 OpenRank 曲線

作為當前最熱門的 AI 應用開發平臺，Dify 精準把握了企業級用戶的需求：一方面通過直觀的可視化工作流編排大幅降低技術門檻，另一方面則提供完善的企業級安全管控方案。AI 應用開發者們并不缺乏新的選擇，易用性、快速構建或許是當下應用開發框架的關鍵標簽。在下表中，我們對比了當下三大主流框架的功能特性：

三大 Agent 框架功能特性對比

隨著 AI 技術逐漸成熟，框架的競爭焦點已經從單純的技術創新轉向對企業實際業務場景的深度適配。那些能夠提供完整企業級解決方案（包括權限管理、審計追蹤、數據隔離等特性）的平臺，正在獲得越來越多企業用戶的青睞。可以預見，未來 AI Agent 框架的發展將呈現"馬太效應"：功能完善、生態健全的平臺將吸引更多企業用戶，而這些用戶的反饋和需求又將進一步推動平臺優化，形成正向循環。在這一過程中，像 Dify 這樣既保持技術領先又深入理解企業需求的項目，很可能會持續擴大其市場優勢。

2022 年，ChatGPT 興起，早期的大模型應用開發者借助在 Prompt 中附上函數說明，來試圖進行工具調用，使模型和外部世界交互。這種實現方式五花八門，效果也不盡人意；

2023 年，OpenAI 在發布 GPT4-0613 模型時同時推出了函數調用（Function Calling）功能，初現標準的端倪；由于函數調用過程需要開發者來完成，因此生成過程中多個函數的協同和編排都成為了難題，而且在現有工具中集成新的函數也極為困難，擴展性受到極大的限制；

2024 年 11 月，Anthropic 開源了模型上下文（Model Context Protocol，MCP）協議，標準化了智能體與工具之間的通信。3 月起，各個大模型都快速跟進并支持了 MCP，由此 MCP 也成為了目前實現大模型 Agent 調用外部工具資源的事實標準；

2025 年 4 月，Google 開源了智能體間協議（Agent2Agent，A2A）協議，該協議與 MCP 不同，并不是約定如何為大模型實現一個 Agent，而是規定不同的 Agent 應用之間如何進行交流和互操作；

2025 年 5 月，CopilotKit 推出智能體用戶交互（Agent-User Interaction，AG-UI）協議。推出僅一周，倉庫漲星 2.2K，該協議用于標準化智能體后端調用的工具和前端用戶界面之間的交互層。

從 MCP、A2A 到 AG-UI 的陸續出現，我們可以想見，未來大模型應用會逐步向微服務化演進，即具有特定功能的 Agent/MCP 將成為互聯網上獨立發布并可被隨時調用的服務，或者是以標準配置的形式發布以方便開發者或用戶隨時本地構建和啟動服務。這種演進路徑一方面面臨傳統微服務的技術挑戰：如參數配置、版本管理、安全鑒權、數據隱私、服務編排等，但也引入了大模型特有的新命題：如 GPU 彈性調度、上下文跨節點共享與協同推理、多模態協同合作、Prompt 注入防御、輸出內容合規審查、精細化多維計費、配額智能管理等。

面對上述的各種挑戰，在技術標準層面，可能部分沿用現有技術標準，但更需要原生協議創新—— 例如定義大模型服務專屬的元數據規范、流式通信協議、多模態交互協議、服務監控協議、聯邦推理協議等。而在實踐層面，開源生態將成為關鍵戰場：主導標準制定的先行者可通過協議制定權的優勢進一步綁定開發者工具鏈（如框架、SDK 等），進而形成從接口規范到運維實踐的完整技術閉環，最終在模型即服務（MaaS）時代構筑生態護城河。

隨著大模型服務的加速演進，標準協議層也會成為頭部玩家的戰略要塞，在可見的未來一到兩年，標準協議層可能迎來密集的生態卡位戰，而那些深度融合技術前瞻性與開發者體驗的協議框架將逐漸占據生態話語權，并引導大模型技術領域創新的規模化涌現。

程序員會率先被 AI 取代嗎？再往前幾個月，這樣的問句頻繁出現。當 GitHub Copilot 幫助做代碼自動補全時，開發者們產生了存在主義危機；當 AI IDE 們直接上手創建完整的工程項目時，真香定律上線，氛圍編程（Vibe Coding）成為當代的軟件開發新范式。

在調研了無數火熱的 AI 開發類閉源產品，并觀察了如下流行的開源項目之后，我們發現：

大廠在 AI Coding 領域快速下場，但幾乎以閉源為主。這其中主流的有 GitHub Copilot、Amzon Q developer、CodeArts Snap（華為）、通義靈碼（阿里）、Trae（字節）、 CodeFuse（螞蟻）。大廠的天然優勢是有可以快速迭代的內部落地場景，短板則來自于對內部數據的過度依賴而導致的泛化能力不足，以及復雜的內部流程可能會阻礙創新速度。由此可見，大廠做輔助編程類工具，乃至做 AI 開發工具，有優勢也有掣肘。

反而是一些創業公司或三五人的小團隊能夠快速產出一個該領域的開源項目，迅速出圈。比如創業公司 Continue 的“continuedev”開源項目，憑借小團隊的高效協作和靈活的創新機制，迅速在開源社區獲得關注。在與 OpenAI 或 Google 等行業巨頭競爭時，AI Coding 賽道是少數幾個不會因數據或場景資源匱乏而處于明顯劣勢的領域。5月初，OpenAI 甚至計劃用 30 億美元收購 AI 開發工具 Windsurf。

根據項目的智能化程度以及目標受眾群體的專業化程度，我們將這些 GitHub 上熱門的 AI Coding 類開源項目劃分為四個象限：

可以看出，AI Coding 正在嘗試從一次性代碼生成走向真實的軟件工程場景下的開發，但依然面臨很大挑戰。盡管當前明星項目（如 Continue、Cline）在代碼補全和簡單 API 調用場景取得顯著進展，但距離實現真正的 Dev Agent 仍存在本質差距。

現有系統在語義等價性驗證、多語言項目協同、安全敏感代碼生成等維度存在明顯短板，尤其在處理包含復雜業務邏輯的大規模代碼庫時，重構成功率低于預期。技術演進的關鍵在于突破上下文感知能力（Context-Awareness）與領域知識融合（Domain Knowledge Integration）的雙重瓶頸。預計未來 24 個月內，隨著代碼驗證技術（如形式化方法與符號執行的結合）、多模態訓練數據（代碼+文檔+運行時日志）的成熟，以及開發者反饋閉環的優化，AI 開發助手將會承擔更多常規開發任務，但仍需人類開發者在關鍵決策點進行監督。

當我們看到上述這些當下熱門的項目時，或許還會記得 Devika、TabNine、GPT-Pilot 這些逐漸沉寂的項目。它們日薄西山的原因背后，也反映了 AI 開發領域的市場分化：已經成熟的商業產品（Copilot、Devin、Cursor 等）和開源工具瓜分了市場，功能同質化或迭代緩慢的項目（如 Devika、GPT-Pilot）難以生存，而像 GPT Engineer這樣早期積累了大量用戶的明星開源項目，也通過開源的成功實踐而發展為閉源的商業化產品：開源項目 GPT Engineer 作為熱門的 AI 應用構建產品 Lovable 的前身，由于背后團隊注意力的轉移，如今已經不再繼續維護。

逐漸沉寂的 AI Coding 項目們

如果形容向量數據庫的發展，可以說是“起于潑天的富貴，回歸理性的沉淀”。 2023 年 2 月前后，以 Qdrant，Chroma 為代表的項目收到了一波極其夸張的關注，分別收獲了超過 5000 的 Star 數，但這種高關注并未形成持續的趨勢。

向量數據庫的每月 Star 增量變化

在 2024-2025 年的整體發展期，我們看到各個項目新獲得的關注整體趨于穩定，沒有出現很大的差異；在 OpenRank 趨勢上，開源較早并且由 LF AI & Data 基金會中立托管的 Milvus 在一直保持著穩定的領先，而整個技術領域似乎像是平行的跑道，一起平穩的向前發展。

向量數據庫的 OpenRank 增量變化

這種狀態的背后的原因有幾個關鍵的可能性：

開源產品并非唯一的市場選擇：同期有純商業版的強力競爭者如 Pinecone，KDB.AI 出現，且 Pinecone 的產品力和市場拓展相當不錯；
傳統大數據系統的向量化升級：隨著時間的推移，傳統數據庫開始推出向量化的插件或向量搜索引擎（如圖中的 pgvector），這當中包含了大量很受歡迎的 DB 選型，如 PostgreSQL，MongoDB Atlas，OpenSearch，ElasticSearch 等，這對于純粹的向量數據庫帶來了一些沖擊；
OpenCore 模式下，商業公司不那么關心 Core 的數據活躍：正如傳統數據庫有大量的項目是通過「開源核心」的方式來做商業模式，向量數據庫也是類似。而這種模式下，有一個可用完整的開源核心非常重要，但核心的整體活躍度并不是背后的商業公司最關注的事情，基于 Core 版本形成的有競爭力的生態才是。

這帶來了另一個討論：

向量數據庫是不是一個“冗余技術”？是否用傳統數據庫結合向量搜索中間件就可以滿足模型應用的需求場景？

答案是沒有。社區數據顯示，pgvector 的趨勢處于不升反降的狀態。由于模型規模極大，且主要在大中型公司中部署，可擴展性和企業服務能力是剛需，而目前的向量數據庫基于開源的商業產品如 Zilliz 等都具備很好的橫向擴展能力、云兼容能力、安全性、以及對于現有 AI/ML 框架的系統化支持。相應的商業服務在市場上比較受歡迎，而單純的向量搜索引擎目前做不到這種服務能力。

從 vLLM 和 SGLang 的發展也能看到，技術“薄”不是問題，有沒有迭代空間和范式變化可能才是最大的問題，向量的需求，場景和算法都比較具體，開發層面可能并沒有那么大的想象空間；另一方面，非結構化數據雖然數據量在增加，但更好的解決方案，多模態模型或生態玩家還沒有形成規模，從而導致向量層要解決和優化的迭代發展相對較為緩慢和穩定。

與 Agent 等應用層的“生死時速”不同，在向量數據庫層面，前浪還沒有被拍到沙灘上。

數據湖技術是在大數據時代就已經提出的，對多模態的數據進行存儲、檢索和預處理的能力，而數據目錄解決了在數據湖和湖倉一體架構中對海量、多樣化數據資產的統一管理需求。在大模型時代，大家常說，重要的是數據、數據、還是數據。那么，這些面向多模態和多源的數據進行治理的開源技術與項目們，在這一波浪潮中，社區發生了怎樣的變化？

數據湖表格式方面，Apache Iceberg、Apache Hudi、Apache Paimon、Delta Lake 共同構成了湖倉技術生態的“四足鼎立”。Iceberg 鞏固了開源湖倉的通用框架，Hudi 和 Paimon 則在實時增量領域各展所長，Delta 憑借廠商支持穩步前進。可以預見，這些項目將彼此競爭又互相借鑒，推動數據湖存儲技術不斷進化，為非結構化海量數據的可靠管理提供支撐；

數據湖表格式項目 OpenRank 曲線變化

元數據治理與數據目錄方面，OpenMetadata 和 DataHub 穩居一線，功能日臻完善；與此同時，Apache Gravitino 和開源版 Unity Catalog 等新秀異軍突起，預示著下一代統一數據與 AI 治理平臺的雛形正在形成。值得關注的是，它們紛紛將目光投向非結構化數據和 AI 資產，也順應了大模型時代對廣義數據治理的需求。

元數據治理項目 OpenRank 曲線變化

從全景圖上所有項目所構成的生態協作網絡上，我們可以看到大數據系統領域的這些項目們還處在整個大模型開發生態相對邊緣的位置，這可能跟大數據生態下的開發者們，本身就不像 AI 生態那樣密集地產生交集有關。但也從一個側面體現出，大數據和 AI 生態的融合還在路上。在未來，隨著基座模型進一步融入數據基礎設施，這些項目之間的聯動也許會更加緊密，無論是大數據項目為機器學習任務提供高質量的數據，還是利用模型的能力反向的支持數智化的數據治理。

全景圖項目生態關聯網絡

隨著大語言模型的大規模部署，模型推理效率、資源利用率和部署靈活性成為影響應用落地的關鍵因素。2023 年以來，出現了一大波面向于模型部署和高效推理的大模型服務工具，在性能和生態上彼此追趕，混戰一直持續到今天。從 Top 10 的模型服務項目的排名變化上來看，仍有新的項目不斷冒出來，并吸引開發者參與到其中去。例如去年 7 月清華推出的 KTransformers 和今年 3 月 NVIDIA 推出的 Dynamo。

模型服務 Top 10 項目 OpenRank 排名變化

而無論是從排名還是從發展勢頭上，vLLM 和 SGLang 都可謂是當下大模型領域最著名、熱度最高的兩個推理引擎，也都是 DeepSeek 推薦使用的推理引擎。從 OpenRank 的趨勢來看，vLLM 與 SGLang 的社區仍在持續擴張。2024 年第四季度，vLLM 的增長一度趨于停滯，而同期 SGLang 正在快速迭代，其 Q4 OpenRank 平均增速達 12%。進入 2025 年后，vLLM 發布了 v1 重大版本，完成核心架構升級，重新進入增長通道。推理引擎生態似乎由此開啟了新一輪 “AI 軍備競賽”：2025 年第一季度，vLLM 的 OpenRank 平均增速為 17%，SGLang 則高達 31%。

繼 Ray 和 Spark 之后，UC Berkeley 又一次展示了其強大的頂尖開源技術的孵化能力：vLLM 誕生于 UCB SkyLab，和 Spark、Ray 是一脈相承；SGLang 則誕生于 UCB 和多家大學共同發起的研究性組織 LMSYS，從官網上可以看到，這個組織還開源了火爆的大模型對抗式評測平臺 Chatbot Arena。

vLLM 和 SGLang 的社區對比

但模型服務這條賽道上，并不只有 vLLM 與 SGLang。

Ollama 與 llama.cpp：端側推理和本地部署的輕量級優選。使用 llama.cpp 進行模型訓練、量化和性能調優，再通過 Ollama 進行快速部署和服務化管理是開發者中的一種常見實踐。這兩個項目不僅僅是在模型服務賽道最近一個月的排名上位列第 3 和第 4，從整個生態的排名來看，也占據不可忽視的頭部位置。
KTransformers：超大規模參數場景下的異軍突起。2025 年 2 月，清華大學 KVCache.AI 團隊推出的 KTransformers 宣布成功在 24 GB 顯存 + 382 GB 內存的 PC 上實現本地運行 DeepSeek-R1、V3 的 671B 滿血版，并且據說速度提高了 3~28 倍，項目隨即迎來社區爆發式增長。當月項目 OpenRank 飆升 34 倍，吸引了 736 名開發者參與協作與討論，倉庫 Star 數突破 1 萬。

幾大模型服務項目的 OpenRank 曲線變化

PyTorch 的項目關聯生態

PyTorch 是如今大模型開發生態的絕對頂流和生態核心，也是模型訓練領域當之無愧的事實標準。憑借模塊化和輕量化的開放設計，在 2020 年正式超過了 TensorFlow，成為大模型時代深度學習的基礎設施，而 TensorFlow、MXNet、Caffe 等框架已經成為了上一個時代的過去式。

幾大訓練框架的 OpenRank 趨勢變化

2022 年 9 月，Meta 宣布將 PyTorch 以獨立基金會的形式歸入 Linux 基金會（LF）旗下運作，成立 PyTorch 基金會。憑借 PyTorch 近乎“蠻橫”的生態虹吸效應，這個子基金會現在也發展成為強大的傘形組織：今年 3 月份，推理引擎 SGLang 加入 PyTorch 生態；5 月份，推理引擎 vLLM 和分布式訓練平臺 DeepSpeed 也宣布加入 PyTorch 基金會。

雖然以中立的、獨立基金會的形式治理 PyTorch 項目生態的發展，我們依然能夠從社區數據中看到 Meta 在其背后產生的巨大影響力，倉庫中有幾位頭部貢獻者：ezyang （提交 3280 次）， jerryzh168（提交 1216 次），soumith（提交 1151 次），在 GitHub 首頁都可以找到是 Meta 員工的證明。截至報告發出時，倉庫中有 9000 多個帶有 fb-exported 標簽的 PR（占所有 PR 數量的 9%），推測是由 Meta 內部系統開發和評審之后，再對外和 GitHub 做同步時的產物。

發布前的一周，還發生了什么？

黑客松最重要的事情就是快速響應，所以報告的最后一部分，我們給發布之前的一個星期留了位置，而上一周，各個廠商也給我們這最后一塊留白做足了面子，通過三場“科技春晚”帶來了一系列升級和發布——

，Windows 操作系統原生支持模型上下文協議（MCP）；VSCode 開源 GitHub Copilot Chat 插件，推動 AI 編程發展；
，Gemini 全系列更新閃亮登場，同時，Gemini 系列應用也全面升級，正在成為一個 “AI 操作系統”，將被整合到安卓各種設備和 Chrome 瀏覽器里；
，Claude 4.0 發布，帶著最強編碼模型的光環，開發者們開始了新一輪的黑客松。

致謝

本期洞察從螞蟻作為一家科技企業的視角出發，深度使用到了 X-lab 實驗室的 OpenRank 評價指標，期間也咨詢了很多來自螞蟻內部的技術專家和開源社區的開發者們，非常感謝大家的寶貴觀點。后續，我們也會將內容開放在 GitHub 上，歡迎大家共同協作，一起貢獻高質量的生態洞察。

本篇完整作者：夏小雅，邊思康，董超，王旭（螞蟻開源）；趙生宇，韓凡宇，彭佳恒，張震，王偉（X-lab 開放實驗室）

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人，圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.