作者 | 張懷龍
背景介紹
自從 ChatGPT 問世以后,LLM 相關技術對人工智能技術領域形成了沖擊性的影響,許多圍繞 LLM 的技術架構的發展也一直在如火如荼的展開,比如 RAG 和 AI-Agent,以及時下比較火爆的 Model Context Protocol (MCP)[1]。在展開之前結合行業現實,筆者認為解釋清楚 LLM Inference(LLM 推理)和 LLM Serving(LLM 服務)的概念是十分必要的。
事實上,由于行業的快速發展,許多概念和知識點一直在業界混淆不清,比如對于 LLM Inference 和 LLM Serving 兩個概念我相信不少人都是相當不清晰的。筆者認為造成這些問題的主要原因之一是在 LLM 的工程實踐過程中將其所負責的功能范疇相互交錯導致的。簡單來說,為了滿足業務需求很多 LLM 相關的技術框架不得已將 LLM Inference 和 LLM Serving 的功能集合都實現成在一起,導致功能集合的邊界模糊不清。因此,除了從 Inference 和 LLM Serving 的角度去談 MCP 的發展,解釋清楚此兩者的概念范疇同樣也是本文的主要目的之一。
LLM Inference 和 LLM Serving 概念介紹
準確來說 Service Inference 和 Model Serving 不是什么新的概念,而是在傳統機器學習時代就已經形成的共識。只不過由于 LLM 的劃時代創新和流行普及,行業里才出現了 LLM Inference 和 LLM Serving 這樣的術語。需要說明的是雖然 LLM Inference 和 LLM Serving 是 LLM 技術中兩個密切相關的術語,但是它們卻在大語言模型的部署和使用上有各自的側重點。筆者將兩者的內涵和區別列舉如下:
LLM Inference
定義:指運行經過訓練的 LLM,以根據用戶給定的輸入(例如,用戶提示或查詢)生成預測或輸出(包括文本,語音,圖片或視頻等)的過程。
責任范圍:專注于模型本身的執行(這里指模型的運行時狀態,包括預測過程)。
場景示例:比如向 GPT 等 LLM 提供提示并接收響應是一項推理任務。其中 vLLM[2] 是典型的 LLM Inference 實現框架。
主要特點:
計算密集型,通常需要專用硬件(例如 GPU 或 TPU)。
優化可以采用量化或蒸餾等技術來降低延遲和計算成本。
直接關注模型的運行時行為。
LLM Serving
主要特點:
通常包含 API 接入層、負載均衡、自動擴縮容、服務監控和日志記錄。
支持多租戶、速率限制和故障轉移等高級特性。
針對高可用性、可擴展性和用戶體驗等系統實現集成并進行優化。
定義:指支持用戶或應用程序能夠大規模地訪問 LLM Inference 的基礎設施和軟件系統。
責任范圍:主要是指支持 LLM Inference 的端到端的服務流程,包括但不限于請求接入處理、請求路由處理、流量管理和模型管理等。
場景示例:譬如支持 vLLM[2] 的 Kserve[3] 框架,可以便捷和高效地為多個用戶或應用程序提供 LLM 推理預測服務。
從上面的對比我們可以看出來 LLM Inference 的關注點在模型的執行本身,譬如模型的內存管理和算力資源的分配,如上面列舉到的 vLLM,它通過借鑒操作系統中虛擬內存和內存分頁管理的理念,實現了 LLM 服務推理中內存使用的優化方案,并解決了大模型加載和運行時許多內存使用的問題。而 LLM Serving 則是更多的面向用戶和客戶端,通過 IT 工程實踐去解決使用大語言模型的問題。以上面的 Kserve 為例,在技術層面提供了模型服務的擴縮容能力,并支持同系列模型不同版本(譬如 ChatGPT3 和 4,Llama2 和 Llama3)的服務(模型的路由服務)。Kserve 也通過提供標準化的數據平面協議和自身的 ServingRuntime 等概念來支持不同的機器學習框架訓練出來的模型,以此來提供一致的服務推理體驗。
筆者列舉上述技術框架的原因并不是為了打廣告,而是通過實際的技術案例來強調說明 LLM Inference 和 LLM Serving 的差別。同時,細心的讀者應該關注到,LLM Serving 一般來說是需要集成特定 LLM Inference 的能力的。但是絕不能就此武斷的說:LLM Serving 包含了 LLM Inference。也就是說,兩者并不是簡單的包含與被包含的關系。打個比方,不能因為一個 Web 應用開發框架集成了關系數據庫的能力,就說這個開發框架包含了關系數據庫。
LLM Inference 和 Serving 視角下的 MCP
為了說明清楚這個問題,不得不再以此說明一下 MCP 的概念,為了簡單起見,筆者將 MCP 官網的定義直接放在了下面:
MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.
通過 MCP 官網的定義看來,MCP 更像一個橋梁,用來連接 AI 模型(當然包括大語言模型)和不同的數據源與工具(讀者覺得這里的 tools 可能含義很寬泛,可以包括上文提到的 AI applications,可以是 function calling,也可以是 AI-Agent,甚至可以是包含外部知識庫和提示詞工程的應用等等)。那么對比上面 LLM Inference 和 LLM Serving 的概念,其實是很難做出一個確定的劃分的。
再來看看 MCP 的架構:
圖片來源于:MCP Architecture
從上圖展示的情況來看,MCP Server 承擔的角色更像是 LLM Serving 的角色,而從它面向 Host(可以想象成是用戶端)的 MCP Client 來看也印證了這個想法。然而,事情到這并不算結束,因為 MCP 的引入主要是為了實現 AI 模型和不同數據源和工具的標準化接入。可以考慮如下的場景(包括不僅限于):
連接提示詞工程優化的 function calling 或者工具,使得服務推理更加精準有效。
連接外部知識庫,使得 LLM 能夠得出更專業和有價值的反饋。
連接外部智能體來實現復雜的任務和工作流
從上面的場景上來看,MCP 的引入可以優化 LLM 的服務推理過程,提升 LLM 的運行時行為的準確度和針對性,同時也增強了 LLM 與外界的交互體驗。而這些點又正好是 LLM Inference 所關注的地方。綜上分析可以明顯的看到,MCP 實際上對于 LLM Inference 和 LLM Serving 的功能范圍都是有所涉及的。雖然 MCP 并不是完整的功能點覆蓋,而是一個 Inference 和 Serving 的簡單復合體,但是很難將其歸類于 LLM Inference 和 LLM Serving 的任何一邊。做出這樣的分析,其目的當然是為了更好的評估和理解未來 MCP 的發展方向。
MCP 未來的發展預測
根據上一小節的分析可以知道,MCP 作為一個連接 LLM 和 AI 應用的橋梁,它是 LLM Inference 和 LLM Serving 的簡單復合體,它未來是還有很多事情需要去做的。這些事情不僅僅是功能點的覆蓋,比如“橋梁鏈接”之間的鑒權和認證策略的增強,大規模用戶使用場景時的路由負載均衡,流量管理,以及基礎設施服務建設等等,讀者覺得更重要的是對 LLM Inference 和 LLM Serving 的功能范圍的明確劃分,將 LLM Inference 劃分為 MCP 的 Backend Service,而將 LLM Serving 劃分為 MCP 的 Frontend Service。經過這樣的分離,MCP 的 Backend Service 部分可以重點關注模型自身的運行時優化,而 MCP 的 Frontend Service 則可以聚焦于工程技術的優化,以更好的實現其與用戶之間的橋梁作用,兩個部分分別獨立的發展演進,引入前沿的技術成果且互不影響。
當然,以上分析和預測純屬于筆者自己的一些思考和感想,并不代表技術社區的既定發展方向,僅用于與讀者分享看法和共同探討。
關于作者
張懷龍,曾就職于阿爾卡特朗訊、百度、IBM、英特爾等知名公司擔任高級開發職位,擁有 16 年技術研發經驗,專注于云原生微服務技術,并在云原生與 LLM 技術的交叉領域進行創新實踐,如致力于云原生場景下的 LLM 服務推理, 曾工作在 Istio,OpenVINO、Kserve 和 OPEA(企業 AI 開放平臺)等技術社區。作者也曾在 KubeCon、ServiceMeshCon、IstioCon、GOTC、GOSIM 和 InfoQ/Qcon 等會議上發表技術演講。
參考文檔:
https://modelcontextprotocol.io/introduction
https://docs.vllm.ai/en/latest/
https://kserve.github.io/website/latest/
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.