99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI Infra 的“中場戰事”:推理業務,還在提速

0
分享至


從 OpenAI 于 3 月 27 日宣布全面支持 MCP 協議開始,市面上的 MCP Server 數量,在不到一個月的時間里,逼近了 10,000 大關。接下來, Google 在 4 月 10 日為 Gemini 系列模型添加了對 MCP 協議的支持,稱其為“AI Agent 時代的開放標準”,同時推出 A2A 協議(Agent-to-Agent Protocol)與 MCP 形成互補,聚焦智能體間協作。

至此,從模型到 Agents,Agents 之間的多點協作,在通信協議層面,已經完全就緒,AI 推理業務至此完成了在 2025 年的“二級加速”,可以預見的是,其云用量即將迎來迅猛上漲。


但對于 AI Infra 來說,仍面對很大挑戰。從技術產品上,整個 AI Infra 屬于迭代更新的初期,還有大量面對推理的調優亟待完成,比如模型下載的策略優化等。

本質上,預訓練業務與推理業務,對 AI Infra 的需求,有著非常大的不同。預訓練對單卡性能和顯存帶寬要求極高,需適配大規模專家并行系統。但推理業務更看重推理數據傳輸效率、全鏈條的低延遲,以及穩定性、可觀測等方面。

基于以上行業變化,云廠商紛紛處于“技術解題”階段,最新交卷的火山引擎 AI 云原生,給出了一份讓客戶推理更強、更省的解決方案。

我們該如何理解 ServingKit 推理套件

4 月 17 日,在杭州火山引擎 Force Link 大會上,火山引擎推出 AI 云原生推理套件 ServingKit,目標是為企業提供從模型部署、推理優化到運維觀測的一站式解決方案。套件內涉及多項服務,包括鏡像服務、算子加速器、AI 網關 等等。

應該說,2025 年,各家云廠商的一個主要任務,就是對 AI 推理業務的基礎設施進行升級。

但以全鏈路服務套件的形式推出,目前來看,僅有火山引擎一家。

火山引擎云基礎產品負責人羅浩對 InfoQ 分享了背后的思考:

在服務客戶的過程中,火山引擎發現,有一類客戶,原本就是做企業服務的,他們可能在開發 AI 中間件,甚至正在推動 AI 平臺類產品的誕生。這類客戶可能會有模型開發和定制服務。

還有一類客戶是大體量的 C 端互聯網公司,他們往往具有很強的科研驅動力。

第三類客戶像金融行業、汽車行業,可能會組建 AI 相關業務部門,專注 AI 帶來的業務效率提升與品牌增值效果。

因此不同客戶群體對 AI 技術的底層需求完全不同,可能會用三種不同的工具來實現 AI 的能力。且不想將自己的能力完全綁定在某個技術提供方身上,這是可以理解的。所以今天的 AI Infra 升級,不僅需要為客戶提供資源層面的能力,還需要提供解決方案層面的能力和服務。

從技術上要看懂 ServingKit ,也不麻煩。簡單來說,就是推理業務的主要流程,在各個核心節點做優化。

總體來說,在推理服務啟動前,需完成模型倉庫調度與異構資源適配:即從 Hugging Face 拉取模型文件及依賴庫,通過分級緩存策略(如火山引擎 ServingKit 的 Onion 鏡像權重加速引擎)加速分發。

模型加載與預熱完成后,來自公網或私網的推理請求流量,通過智能網關進行分發與治理。

與此同時也要注意資源的運維和調度,包括將 Prefill 預填充與 Decoder 生成階段解耦,按負載獨立擴縮容器實例。通過統一的 KV Cache 管理將高頻訪問的 Cache 常駐 GPU 顯存低頻模型動態卸載至主機內存、SSD 或遠程存儲等。

在 ServingKit 中,鏡像服務提供對推理引擎鏡像的加載提速,同時用 VKE、APIG、GPU 算子加速器、KV Cache 來分別解決模型加載預熱、流量調度、推理執行流水線等環節的工作。

最終實現兩項核心成績:

  1. 部署提速:拉取 DeepSeek-R1 滿血版(671B 參數)模型僅需 109 秒,40 秒完成集群內模型緩存預熱,13 秒加載至多節點 GPU 顯存。

  2. 推理優化:TPS 提升 2.4 倍,首字節響應時間(TTFT)降低 60%,長文本推理 KV Cache 命中率提升十倍。


這里提到的 DeepSeek-R1 滿血版模型部署時間,幾乎是業界第一次給出秒級的時間承諾。羅浩對 InfoQ 表示,參數規模為 671B 的模型約 700G 大小,將它從核心配置上下載之后再分發到每個推理節點上,如果不做任何加速,可能需要幾個小時的時間。

按此推算,在以往不做加速的情況下,做模型部署,需要的時間基本是按天計算的,很難評價這對企業效率造成了多大的影響。

火山引擎將對模型部署階段的加速能力,對外抽象成了 Onion 工具集。Onion 的內核在于實現了多線程資源下載的成熟方案。

此外,Onion 采用兩級緩存架構,覆蓋模型分發全鏈路:

  • 中心緩存層:基于對象存儲(如火山引擎 TOS)構建模型倉庫,支持多種開源模型權重緩存和更新。

  • 節點緩存層:利用 GDKV Server 在集群內實現模型權重分布式緩存。

另外一個重要的提速手段在于通過 GDR(GPU Direct RDMA)實現模型加載加速,允許 GPU 繞過 CPU 直接訪問緩存的模型權重文件。

三者相加,最終使得 ServingKit 在大模型部署提速這件事兒上卓有成效。

而對整個推理階段的加速,則涉及更多的技術環節,尤以 KV Cache 命中率和 GPU 算子加速器提升最為引人關注。原因也很直觀:這幾乎是每個云廠商都在攻堅的技術項目,但最終的技術實現效果卻千差萬別。

火山引擎優化 KV Cache 命中率的核心方式是提供統一的 KV Cache 管理方案,從而節省更多的推理 GPU 算力。傳統的單機本地 Cache 往往僅能夠支持較少時間段的 KV Cache, 隨著本地緩存不斷釋放,整體緩存命中率較低,而火山引擎 EIC 提供的高性能分布式 KV Cache 服務,能通過內存和 SSD 資源構建大規模 KV Cache 資源池,實現 KV Cache 以存代算,提升推理吞吐并降低推理時延,實現更高的 KV Cache 命中率。

同時還會通過在流量調度過程中增加 Prefix Cache 感知調度和 Session 親和調度,進一步提升 KV Cache 命中率。

在智能流量調度,以及 P/D 獨立擴縮容的問題上,火山引擎同樣保持著技術優勢。

ServingKit 套件里包含了 APIG 和 VKE。APIG 支持根據支持推理引擎負載和 KV Cache 分布調度流量,降低 TTFT ,提升 KV Cache 命中率,而 VKE 支持跨物理機、私有云、公有云的混合資源池管理,通過「節點池」機制實現異構 GPU/CPU 資源的統一編排,可以助力實現秒級的故障切換。

而另外一大優勢,在于火山引擎云基礎產品團隊自身極強的研發能力。

例如,GPU 算子加速器,每一家廠商都在做,但很難做好。

一方面,不同 GPU 型號,不同架構,對應的 GPU 并行計算能力和顯存帶寬都有差異。另一方面,不同模型,其模型架構也有差異。算子優化時候需要充分 GPU 硬件特性和模型特性進行優化。火山引擎 ServingKit 的 GPU 算子加速器,適配了多種開源的推理引擎框架,并且針對 SGLang/vLLM 等框架,充分借鑒了 DeepSeek 開源算子,結合字節內部經驗,自研了系列算子。例如 TP 并行下,優化 Fused MoE 算子,多 Token 預測特性;DP+EP 并行,優化 Group GEMM 算子等,提升單卡 TPS。

經過火山引擎優化后的單卡 R1 滿血版 TPS 比原生 SGLang 提升了 2.4 倍。

當前行業變化極快,新模型層出不窮,量化參數各有差異,對算子的適配和優化幾乎永無止境。所以這不光是個技術活,也與研發效能息息相關。需要相關的公有云團隊,孜孜不倦地在算子優化這一工作上長期投入。

字節跳動為業界津津樂道的,也是其組織文化的高效特質。火山引擎云基礎團隊同樣在快速變化的行業需求中敏捷迭代,總是能將“務實”和“浪漫”結合得很好。

因此火山引擎云基礎業務總能在保證業務增長的同時,在技術戰略上取得一定領先優勢。去年發布 GDR 時如此,如今發布 ServingKit 時,在可觀測領域,也是如此。

火山的速度,很難被復制

將這種領先放在可觀測技術上,會體現得尤為明顯。

相比于最時髦的、與業務表現直接相關的技術棧,可觀測這種偏運維場景的、關乎研發效能的能力,總顯得有些底氣不足。

因此可觀測技術的流行,幾乎比熱門技術遲滯 1-3 年以上。

比如國內微服務架構的規模化落地主要集中在 2015-2018 年,到 2018 年,Kubernetes 和 Istio 已經全面普及,生態蓬勃發展。

微服務也造成了一些問題,當一個服務被拆分成數個黑盒的、虛擬的微服務,故障排除徹底成為一種折磨。可觀測問題的興起,很大程度上就是要解決微服務架構的維護問題。

實際上,可觀測技術在國內的興起,差不多要等到 2021 年前后,中間已經過了三年。

ServingKit 中可觀測套件的上架,打破了這一規律。AI 推理業務從去年至現在剛剛興起,來自火山云基礎的可觀測技術組件就已經完成了升級——以 APM & VMP 為核心。APM & VMP 通過告警、Trace ID、Trace 分析、問題定位等核心功能,實現了全鏈路觀測,同時對業務沒有侵入性。

羅浩對 InfoQ 分享了其中的關鍵:我們的可觀測能力,源于之前在云原生微服務架構中使用的方法——字節跳動在線微服務數量超過 10 萬,我們致力做好可觀測,因為希望業務團隊可以將主要精力關注在業務邏輯、業務創新,而非基礎架構及其運維。

不但是對內提供的核心能力,也是較早經過打磨可對外提供的服務之一,這種在面對業務的務實,讓火山引擎云基礎服務,變相取得了 To B 產品服務的領先。

4 月 10 日,國際數據公司(IDC)發布的《中國公有云大模型服務市場格局分析,1Q2025》顯示,2024 年中國公有云上大模型調用量達 114.2 萬億 tokens,火山引擎以 46.4% 的市場份額位居中國市場第一。作為底層的技術支撐,火山引擎 AI 云原生云基礎設施自有過人之處。

但比階段性的成績更重要的是,在國內,無論是 AI Infra 市場,還是 AI 應用市場,都已經步入中場階段,頭部玩家的優勢正在被放大,火山引擎在此刻發布 ServingKit ,等同于對服務 AI 推理業務的基礎設施的一次“熱升級”,提高了 AI infra 提供者的服務水平,降低了企業落地 AI 的使用門檻,進一步加速了 AI 應用在國內的發展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國足出征印尼25人大名單:劉若釩落選,王鈺棟、楊明洋在列

國足出征印尼25人大名單:劉若釩落選,王鈺棟、楊明洋在列

直播吧
2025-06-02 14:53:34
2-0,世界第1完勝苦主,晉級法網8強,將與中國選手鄭欽文爭4強

2-0,世界第1完勝苦主,晉級法網8強,將與中國選手鄭欽文爭4強

側身凌空斬
2025-06-02 00:12:19
59.4%大學生不想生孩子!最新官方報告揭示年輕人婚育觀巨變

59.4%大學生不想生孩子!最新官方報告揭示年輕人婚育觀巨變

金融界
2025-05-30 14:57:43
正式退出,雨果發聲,官宣決定,名記回應,國乒計劃或打亂

正式退出,雨果發聲,官宣決定,名記回應,國乒計劃或打亂

樂聊球
2025-06-02 11:34:37
"你沒有牌了",足以載入史冊的一天,為烏克蘭的行動點贊

"你沒有牌了",足以載入史冊的一天,為烏克蘭的行動點贊

山河路口
2025-06-02 12:53:52
流入市場的“臨床試驗”抗癌藥

流入市場的“臨床試驗”抗癌藥

大象新聞
2025-06-02 09:31:46
80年去相親,岳父讓我和他兒媳睡在一屋,那晚的情形讓我終生難忘

80年去相親,岳父讓我和他兒媳睡在一屋,那晚的情形讓我終生難忘

民間精選故事匯
2025-05-29 06:10:03
馬斯克一條推文,造車新勢力幾年白卷了,Model Y自己“回家”了

馬斯克一條推文,造車新勢力幾年白卷了,Model Y自己“回家”了

小李車評李建紅
2025-06-02 07:23:56
俄民眾徒手掰斷烏軍自爆無人機旋翼,跳上卡車阻止無人機飛出

俄民眾徒手掰斷烏軍自爆無人機旋翼,跳上卡車阻止無人機飛出

大象新聞
2025-06-02 12:35:52
余承東稱看完后一身冷汗!“按華為質量標準,有車廠一臺車都不能發貨”

余承東稱看完后一身冷汗!“按華為質量標準,有車廠一臺車都不能發貨”

北京商報
2025-05-31 20:23:47
大瓜,趙櫻子懷上榜一金主的孩子?

大瓜,趙櫻子懷上榜一金主的孩子?

毒舌八卦
2025-06-02 13:50:00
李雙江家庭風波再起,出獄后的李天一歐洲生子,與夢鴿關系破裂?

李雙江家庭風波再起,出獄后的李天一歐洲生子,與夢鴿關系破裂?

柴叔帶你看電影
2025-05-30 22:48:23
再戰薩巴倫卡!鄭欽文展望:紅土比她得心應手,會拼搏到最后一刻

再戰薩巴倫卡!鄭欽文展望:紅土比她得心應手,會拼搏到最后一刻

全景體育V
2025-06-02 08:54:07
迪士尼互毆后續!衣服被撕開,眼睛流血,雙方身份曝光,警方回應

迪士尼互毆后續!衣服被撕開,眼睛流血,雙方身份曝光,警方回應

漣漪讀史
2025-06-02 11:00:12
又挖出一個“董小姐”?

又挖出一個“董小姐”?

鈞言堂
2025-06-02 00:00:10
法網1/4決賽:鄭欽文VS薩巴倫卡,比賽時間公布,贏球有多少獎金

法網1/4決賽:鄭欽文VS薩巴倫卡,比賽時間公布,贏球有多少獎金

體育大學僧
2025-06-02 09:18:00
李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

李在明口出豪言,尹錫悅和他硅膠娃娃的麻煩大了!

妮妮玩不夠
2025-06-02 08:59:31
“環保少女”格蕾塔帶隊前往加沙,是正義還是作秀?

“環保少女”格蕾塔帶隊前往加沙,是正義還是作秀?

南文視界
2025-06-01 18:07:28
太可惜!網傳駐馬店一地600萬的克拉斯780發生自燃,20分鐘全燒毀

太可惜!網傳駐馬店一地600萬的克拉斯780發生自燃,20分鐘全燒毀

火山詩話
2025-06-02 10:42:49
毀天滅地!烏對俄發起驚天一擊,從戰略轟炸機到核潛艇基地

毀天滅地!烏對俄發起驚天一擊,從戰略轟炸機到核潛艇基地

史政先鋒
2025-06-02 10:49:45
2025-06-02 15:55:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
11142文章數 51279關注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

美財長放話:美國永不會債務違約 我們不會公布"X日"

頭條要聞

美財長放話:美國永不會債務違約 我們不會公布"X日"

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經要聞

三大利空,突襲!

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

家居
旅游
手機
時尚
本地

家居要聞

原木純白 邂逅自然本真

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

iPhone 16系列賣爆,這一組數據才是重點

后背小心機!4款鏤空單品讓你美得毫不費力

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 微博| 西昌市| 彰武县| 溆浦县| 福贡县| 无棣县| 云南省| 双牌县| 米易县| 涿州市| 武川县| 新巴尔虎右旗| 陇川县| 彝良县| 河北区| 江陵县| 宣恩县| 新干县| 颍上县| 鄱阳县| 同江市| 南开区| 大关县| 徐州市| 大港区| 新邵县| 吴江市| 玛纳斯县| 平定县| 宕昌县| 西充县| 永新县| 邢台县| 江永县| 大厂| 马龙县| 砀山县| 永善县| 河津市| 湖口县| 沽源县|