從 OpenAI 于 3 月 27 日宣布全面支持 MCP 協議開始,市面上的 MCP Server 數量,在不到一個月的時間里,逼近了 10,000 大關。接下來, Google 在 4 月 10 日為 Gemini 系列模型添加了對 MCP 協議的支持,稱其為“AI Agent 時代的開放標準”,同時推出 A2A 協議(Agent-to-Agent Protocol)與 MCP 形成互補,聚焦智能體間協作。
至此,從模型到 Agents,Agents 之間的多點協作,在通信協議層面,已經完全就緒,AI 推理業務至此完成了在 2025 年的“二級加速”,可以預見的是,其云用量即將迎來迅猛上漲。
但對于 AI Infra 來說,仍面對很大挑戰。從技術產品上,整個 AI Infra 屬于迭代更新的初期,還有大量面對推理的調優亟待完成,比如模型下載的策略優化等。
本質上,預訓練業務與推理業務,對 AI Infra 的需求,有著非常大的不同。預訓練對單卡性能和顯存帶寬要求極高,需適配大規模專家并行系統。但推理業務更看重推理數據傳輸效率、全鏈條的低延遲,以及穩定性、可觀測等方面。
基于以上行業變化,云廠商紛紛處于“技術解題”階段,最新交卷的火山引擎 AI 云原生,給出了一份讓客戶推理更強、更省的解決方案。
我們該如何理解 ServingKit 推理套件
4 月 17 日,在杭州火山引擎 Force Link 大會上,火山引擎推出 AI 云原生推理套件 ServingKit,目標是為企業提供從模型部署、推理優化到運維觀測的一站式解決方案。套件內涉及多項服務,包括鏡像服務、算子加速器、AI 網關 等等。
應該說,2025 年,各家云廠商的一個主要任務,就是對 AI 推理業務的基礎設施進行升級。
但以全鏈路服務套件的形式推出,目前來看,僅有火山引擎一家。
火山引擎云基礎產品負責人羅浩對 InfoQ 分享了背后的思考:
在服務客戶的過程中,火山引擎發現,有一類客戶,原本就是做企業服務的,他們可能在開發 AI 中間件,甚至正在推動 AI 平臺類產品的誕生。這類客戶可能會有模型開發和定制服務。
還有一類客戶是大體量的 C 端互聯網公司,他們往往具有很強的科研驅動力。
第三類客戶像金融行業、汽車行業,可能會組建 AI 相關業務部門,專注 AI 帶來的業務效率提升與品牌增值效果。
因此不同客戶群體對 AI 技術的底層需求完全不同,可能會用三種不同的工具來實現 AI 的能力。且不想將自己的能力完全綁定在某個技術提供方身上,這是可以理解的。所以今天的 AI Infra 升級,不僅需要為客戶提供資源層面的能力,還需要提供解決方案層面的能力和服務。
從技術上要看懂 ServingKit ,也不麻煩。簡單來說,就是推理業務的主要流程,在各個核心節點做優化。
總體來說,在推理服務啟動前,需完成模型倉庫調度與異構資源適配:即從 Hugging Face 拉取模型文件及依賴庫,通過分級緩存策略(如火山引擎 ServingKit 的 Onion 鏡像權重加速引擎)加速分發。
模型加載與預熱完成后,來自公網或私網的推理請求流量,通過智能網關進行分發與治理。
與此同時也要注意資源的運維和調度,包括將 Prefill 預填充與 Decoder 生成階段解耦,按負載獨立擴縮容器實例。通過統一的 KV Cache 管理將高頻訪問的 Cache 常駐 GPU 顯存低頻模型動態卸載至主機內存、SSD 或遠程存儲等。
在 ServingKit 中,鏡像服務提供對推理引擎鏡像的加載提速,同時用 VKE、APIG、GPU 算子加速器、KV Cache 來分別解決模型加載預熱、流量調度、推理執行流水線等環節的工作。
最終實現兩項核心成績:
部署提速:拉取 DeepSeek-R1 滿血版(671B 參數)模型僅需 109 秒,40 秒完成集群內模型緩存預熱,13 秒加載至多節點 GPU 顯存。
推理優化:TPS 提升 2.4 倍,首字節響應時間(TTFT)降低 60%,長文本推理 KV Cache 命中率提升十倍。
這里提到的 DeepSeek-R1 滿血版模型部署時間,幾乎是業界第一次給出秒級的時間承諾。羅浩對 InfoQ 表示,參數規模為 671B 的模型約 700G 大小,將它從核心配置上下載之后再分發到每個推理節點上,如果不做任何加速,可能需要幾個小時的時間。
按此推算,在以往不做加速的情況下,做模型部署,需要的時間基本是按天計算的,很難評價這對企業效率造成了多大的影響。
火山引擎將對模型部署階段的加速能力,對外抽象成了 Onion 工具集。Onion 的內核在于實現了多線程資源下載的成熟方案。
此外,Onion 采用兩級緩存架構,覆蓋模型分發全鏈路:
中心緩存層:基于對象存儲(如火山引擎 TOS)構建模型倉庫,支持多種開源模型權重緩存和更新。
節點緩存層:利用 GDKV Server 在集群內實現模型權重分布式緩存。
另外一個重要的提速手段在于通過 GDR(GPU Direct RDMA)實現模型加載加速,允許 GPU 繞過 CPU 直接訪問緩存的模型權重文件。
三者相加,最終使得 ServingKit 在大模型部署提速這件事兒上卓有成效。
而對整個推理階段的加速,則涉及更多的技術環節,尤以 KV Cache 命中率和 GPU 算子加速器提升最為引人關注。原因也很直觀:這幾乎是每個云廠商都在攻堅的技術項目,但最終的技術實現效果卻千差萬別。
火山引擎優化 KV Cache 命中率的核心方式是提供統一的 KV Cache 管理方案,從而節省更多的推理 GPU 算力。傳統的單機本地 Cache 往往僅能夠支持較少時間段的 KV Cache, 隨著本地緩存不斷釋放,整體緩存命中率較低,而火山引擎 EIC 提供的高性能分布式 KV Cache 服務,能通過內存和 SSD 資源構建大規模 KV Cache 資源池,實現 KV Cache 以存代算,提升推理吞吐并降低推理時延,實現更高的 KV Cache 命中率。
同時還會通過在流量調度過程中增加 Prefix Cache 感知調度和 Session 親和調度,進一步提升 KV Cache 命中率。
在智能流量調度,以及 P/D 獨立擴縮容的問題上,火山引擎同樣保持著技術優勢。
ServingKit 套件里包含了 APIG 和 VKE。APIG 支持根據支持推理引擎負載和 KV Cache 分布調度流量,降低 TTFT ,提升 KV Cache 命中率,而 VKE 支持跨物理機、私有云、公有云的混合資源池管理,通過「節點池」機制實現異構 GPU/CPU 資源的統一編排,可以助力實現秒級的故障切換。
而另外一大優勢,在于火山引擎云基礎產品團隊自身極強的研發能力。
例如,GPU 算子加速器,每一家廠商都在做,但很難做好。
一方面,不同 GPU 型號,不同架構,對應的 GPU 并行計算能力和顯存帶寬都有差異。另一方面,不同模型,其模型架構也有差異。算子優化時候需要充分 GPU 硬件特性和模型特性進行優化。火山引擎 ServingKit 的 GPU 算子加速器,適配了多種開源的推理引擎框架,并且針對 SGLang/vLLM 等框架,充分借鑒了 DeepSeek 開源算子,結合字節內部經驗,自研了系列算子。例如 TP 并行下,優化 Fused MoE 算子,多 Token 預測特性;DP+EP 并行,優化 Group GEMM 算子等,提升單卡 TPS。
經過火山引擎優化后的單卡 R1 滿血版 TPS 比原生 SGLang 提升了 2.4 倍。
當前行業變化極快,新模型層出不窮,量化參數各有差異,對算子的適配和優化幾乎永無止境。所以這不光是個技術活,也與研發效能息息相關。需要相關的公有云團隊,孜孜不倦地在算子優化這一工作上長期投入。
字節跳動為業界津津樂道的,也是其組織文化的高效特質。火山引擎云基礎團隊同樣在快速變化的行業需求中敏捷迭代,總是能將“務實”和“浪漫”結合得很好。
因此火山引擎云基礎業務總能在保證業務增長的同時,在技術戰略上取得一定領先優勢。去年發布 GDR 時如此,如今發布 ServingKit 時,在可觀測領域,也是如此。
火山的速度,很難被復制
將這種領先放在可觀測技術上,會體現得尤為明顯。
相比于最時髦的、與業務表現直接相關的技術棧,可觀測這種偏運維場景的、關乎研發效能的能力,總顯得有些底氣不足。
因此可觀測技術的流行,幾乎比熱門技術遲滯 1-3 年以上。
比如國內微服務架構的規模化落地主要集中在 2015-2018 年,到 2018 年,Kubernetes 和 Istio 已經全面普及,生態蓬勃發展。
微服務也造成了一些問題,當一個服務被拆分成數個黑盒的、虛擬的微服務,故障排除徹底成為一種折磨。可觀測問題的興起,很大程度上就是要解決微服務架構的維護問題。
實際上,可觀測技術在國內的興起,差不多要等到 2021 年前后,中間已經過了三年。
ServingKit 中可觀測套件的上架,打破了這一規律。AI 推理業務從去年至現在剛剛興起,來自火山云基礎的可觀測技術組件就已經完成了升級——以 APM & VMP 為核心。APM & VMP 通過告警、Trace ID、Trace 分析、問題定位等核心功能,實現了全鏈路觀測,同時對業務沒有侵入性。
羅浩對 InfoQ 分享了其中的關鍵:我們的可觀測能力,源于之前在云原生微服務架構中使用的方法——字節跳動在線微服務數量超過 10 萬,我們致力做好可觀測,因為希望業務團隊可以將主要精力關注在業務邏輯、業務創新,而非基礎架構及其運維。
不但是對內提供的核心能力,也是較早經過打磨可對外提供的服務之一,這種在面對業務的務實,讓火山引擎云基礎服務,變相取得了 To B 產品服務的領先。
4 月 10 日,國際數據公司(IDC)發布的《中國公有云大模型服務市場格局分析,1Q2025》顯示,2024 年中國公有云上大模型調用量達 114.2 萬億 tokens,火山引擎以 46.4% 的市場份額位居中國市場第一。作為底層的技術支撐,火山引擎 AI 云原生云基礎設施自有過人之處。
但比階段性的成績更重要的是,在國內,無論是 AI Infra 市場,還是 AI 應用市場,都已經步入中場階段,頭部玩家的優勢正在被放大,火山引擎在此刻發布 ServingKit ,等同于對服務 AI 推理業務的基礎設施的一次“熱升級”,提高了 AI infra 提供者的服務水平,降低了企業落地 AI 的使用門檻,進一步加速了 AI 應用在國內的發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.