網易首頁 > 網易號 > 正文申請入駐

LLM Inference 和 LLM Serving 視角下的 MCP

2025-05-16 15:50:58　來源: AI前線

北京舉報

分享至

作者 | 張懷龍

背景介紹

自從 ChatGPT 問世以后，LLM 相關技術對人工智能技術領域形成了沖擊性的影響，許多圍繞 LLM 的技術架構的發展也一直在如火如荼的展開，比如 RAG 和 AI-Agent，以及時下比較火爆的 Model Context Protocol (MCP)[1]。在展開之前結合行業現實，筆者認為解釋清楚 LLM Inference（LLM 推理）和 LLM Serving（LLM 服務）的概念是十分必要的。

事實上，由于行業的快速發展，許多概念和知識點一直在業界混淆不清，比如對于 LLM Inference 和 LLM Serving 兩個概念我相信不少人都是相當不清晰的。筆者認為造成這些問題的主要原因之一是在 LLM 的工程實踐過程中將其所負責的功能范疇相互交錯導致的。簡單來說，為了滿足業務需求很多 LLM 相關的技術框架不得已將 LLM Inference 和 LLM Serving 的功能集合都實現成在一起，導致功能集合的邊界模糊不清。因此，除了從 Inference 和 LLM Serving 的角度去談 MCP 的發展，解釋清楚此兩者的概念范疇同樣也是本文的主要目的之一。

LLM Inference 和 LLM Serving 概念介紹

準確來說 Service Inference 和 Model Serving 不是什么新的概念，而是在傳統機器學習時代就已經形成的共識。只不過由于 LLM 的劃時代創新和流行普及，行業里才出現了 LLM Inference 和 LLM Serving 這樣的術語。需要說明的是雖然 LLM Inference 和 LLM Serving 是 LLM 技術中兩個密切相關的術語，但是它們卻在大語言模型的部署和使用上有各自的側重點。筆者將兩者的內涵和區別列舉如下：

LLM Inference

定義：指運行經過訓練的 LLM，以根據用戶給定的輸入（例如，用戶提示或查詢）生成預測或輸出（包括文本，語音，圖片或視頻等）的過程。
責任范圍：專注于模型本身的執行（這里指模型的運行時狀態，包括預測過程）。
場景示例：比如向 GPT 等 LLM 提供提示并接收響應是一項推理任務。其中 vLLM[2] 是典型的 LLM Inference 實現框架。

主要特點：

計算密集型，通常需要專用硬件（例如 GPU 或 TPU）。
優化可以采用量化或蒸餾等技術來降低延遲和計算成本。
直接關注模型的運行時行為。
LLM Serving
主要特點：
- 通常包含 API 接入層、負載均衡、自動擴縮容、服務監控和日志記錄。
- 支持多租戶、速率限制和故障轉移等高級特性。
- 針對高可用性、可擴展性和用戶體驗等系統實現集成并進行優化。
- 定義：指支持用戶或應用程序能夠大規模地訪問 LLM Inference 的基礎設施和軟件系統。
- 責任范圍：主要是指支持 LLM Inference 的端到端的服務流程，包括但不限于請求接入處理、請求路由處理、流量管理和模型管理等。
- 場景示例：譬如支持 vLLM[2] 的 Kserve[3] 框架，可以便捷和高效地為多個用戶或應用程序提供 LLM 推理預測服務。

從上面的對比我們可以看出來 LLM Inference 的關注點在模型的執行本身，譬如模型的內存管理和算力資源的分配，如上面列舉到的 vLLM，它通過借鑒操作系統中虛擬內存和內存分頁管理的理念，實現了 LLM 服務推理中內存使用的優化方案，并解決了大模型加載和運行時許多內存使用的問題。而 LLM Serving 則是更多的面向用戶和客戶端，通過 IT 工程實踐去解決使用大語言模型的問題。以上面的 Kserve 為例，在技術層面提供了模型服務的擴縮容能力，并支持同系列模型不同版本（譬如 ChatGPT3 和 4，Llama2 和 Llama3）的服務（模型的路由服務）。Kserve 也通過提供標準化的數據平面協議和自身的 ServingRuntime 等概念來支持不同的機器學習框架訓練出來的模型，以此來提供一致的服務推理體驗。

筆者列舉上述技術框架的原因并不是為了打廣告，而是通過實際的技術案例來強調說明 LLM Inference 和 LLM Serving 的差別。同時，細心的讀者應該關注到，LLM Serving 一般來說是需要集成特定 LLM Inference 的能力的。但是絕不能就此武斷的說：LLM Serving 包含了 LLM Inference。也就是說，兩者并不是簡單的包含與被包含的關系。打個比方，不能因為一個 Web 應用開發框架集成了關系數據庫的能力，就說這個開發框架包含了關系數據庫。

LLM Inference 和 Serving 視角下的 MCP

為了說明清楚這個問題，不得不再以此說明一下 MCP 的概念，為了簡單起見，筆者將 MCP 官網的定義直接放在了下面：

MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.

通過 MCP 官網的定義看來，MCP 更像一個橋梁，用來連接 AI 模型（當然包括大語言模型）和不同的數據源與工具（讀者覺得這里的 tools 可能含義很寬泛，可以包括上文提到的 AI applications，可以是 function calling，也可以是 AI-Agent，甚至可以是包含外部知識庫和提示詞工程的應用等等）。那么對比上面 LLM Inference 和 LLM Serving 的概念，其實是很難做出一個確定的劃分的。

再來看看 MCP 的架構：

圖片來源于：MCP Architecture

從上圖展示的情況來看，MCP Server 承擔的角色更像是 LLM Serving 的角色，而從它面向 Host（可以想象成是用戶端）的 MCP Client 來看也印證了這個想法。然而，事情到這并不算結束，因為 MCP 的引入主要是為了實現 AI 模型和不同數據源和工具的標準化接入。可以考慮如下的場景（包括不僅限于）：

連接提示詞工程優化的 function calling 或者工具，使得服務推理更加精準有效。
連接外部知識庫，使得 LLM 能夠得出更專業和有價值的反饋。
連接外部智能體來實現復雜的任務和工作流

從上面的場景上來看，MCP 的引入可以優化 LLM 的服務推理過程，提升 LLM 的運行時行為的準確度和針對性，同時也增強了 LLM 與外界的交互體驗。而這些點又正好是 LLM Inference 所關注的地方。綜上分析可以明顯的看到，MCP 實際上對于 LLM Inference 和 LLM Serving 的功能范圍都是有所涉及的。雖然 MCP 并不是完整的功能點覆蓋，而是一個 Inference 和 Serving 的簡單復合體，但是很難將其歸類于 LLM Inference 和 LLM Serving 的任何一邊。做出這樣的分析，其目的當然是為了更好的評估和理解未來 MCP 的發展方向。

MCP 未來的發展預測

根據上一小節的分析可以知道，MCP 作為一個連接 LLM 和 AI 應用的橋梁，它是 LLM Inference 和 LLM Serving 的簡單復合體，它未來是還有很多事情需要去做的。這些事情不僅僅是功能點的覆蓋，比如“橋梁鏈接”之間的鑒權和認證策略的增強，大規模用戶使用場景時的路由負載均衡，流量管理，以及基礎設施服務建設等等，讀者覺得更重要的是對 LLM Inference 和 LLM Serving 的功能范圍的明確劃分，將 LLM Inference 劃分為 MCP 的 Backend Service，而將 LLM Serving 劃分為 MCP 的 Frontend Service。經過這樣的分離，MCP 的 Backend Service 部分可以重點關注模型自身的運行時優化，而 MCP 的 Frontend Service 則可以聚焦于工程技術的優化，以更好的實現其與用戶之間的橋梁作用，兩個部分分別獨立的發展演進，引入前沿的技術成果且互不影響。

當然，以上分析和預測純屬于筆者自己的一些思考和感想，并不代表技術社區的既定發展方向，僅用于與讀者分享看法和共同探討。

關于作者

張懷龍，曾就職于阿爾卡特朗訊、百度、IBM、英特爾等知名公司擔任高級開發職位，擁有 16 年技術研發經驗，專注于云原生微服務技術，并在云原生與 LLM 技術的交叉領域進行創新實踐，如致力于云原生場景下的 LLM 服務推理，曾工作在 Istio，OpenVINO、Kserve 和 OPEA（企業 AI 開放平臺）等技術社區。作者也曾在 KubeCon、ServiceMeshCon、IstioCon、GOTC、GOSIM 和 InfoQ/Qcon 等會議上發表技術演講。

參考文檔：

https://modelcontextprotocol.io/introduction

https://docs.vllm.ai/en/latest/

https://kserve.github.io/website/latest/

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.