99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

LLM Inference 和 LLM Serving 視角下的 MCP

0
分享至


作者 | 張懷龍

背景介紹

自從 ChatGPT 問世以后,LLM 相關技術對人工智能技術領域形成了沖擊性的影響,許多圍繞 LLM 的技術架構的發展也一直在如火如荼的展開,比如 RAG 和 AI-Agent,以及時下比較火爆的 Model Context Protocol (MCP)[1]。在展開之前結合行業現實,筆者認為解釋清楚 LLM Inference(LLM 推理)和 LLM Serving(LLM 服務)的概念是十分必要的。

事實上,由于行業的快速發展,許多概念和知識點一直在業界混淆不清,比如對于 LLM Inference 和 LLM Serving 兩個概念我相信不少人都是相當不清晰的。筆者認為造成這些問題的主要原因之一是在 LLM 的工程實踐過程中將其所負責的功能范疇相互交錯導致的。簡單來說,為了滿足業務需求很多 LLM 相關的技術框架不得已將 LLM Inference 和 LLM Serving 的功能集合都實現成在一起,導致功能集合的邊界模糊不清。因此,除了從 Inference 和 LLM Serving 的角度去談 MCP 的發展,解釋清楚此兩者的概念范疇同樣也是本文的主要目的之一。

LLM Inference 和 LLM Serving 概念介紹

準確來說 Service Inference 和 Model Serving 不是什么新的概念,而是在傳統機器學習時代就已經形成的共識。只不過由于 LLM 的劃時代創新和流行普及,行業里才出現了 LLM Inference 和 LLM Serving 這樣的術語。需要說明的是雖然 LLM Inference 和 LLM Serving 是 LLM 技術中兩個密切相關的術語,但是它們卻在大語言模型的部署和使用上有各自的側重點。筆者將兩者的內涵和區別列舉如下:

LLM Inference

  • 定義:指運行經過訓練的 LLM,以根據用戶給定的輸入(例如,用戶提示或查詢)生成預測或輸出(包括文本,語音,圖片或視頻等)的過程。

  • 責任范圍:專注于模型本身的執行(這里指模型的運行時狀態,包括預測過程)。

  • 場景示例:比如向 GPT 等 LLM 提供提示并接收響應是一項推理任務。其中 vLLM[2] 是典型的 LLM Inference 實現框架。

主要特點:

  • 計算密集型,通常需要專用硬件(例如 GPU 或 TPU)。

  • 優化可以采用量化或蒸餾等技術來降低延遲和計算成本。

  • 直接關注模型的運行時行為。

    LLM Serving

    主要特點:

    • 通常包含 API 接入層、負載均衡、自動擴縮容、服務監控和日志記錄。

    • 支持多租戶、速率限制和故障轉移等高級特性。

    • 針對高可用性、可擴展性和用戶體驗等系統實現集成并進行優化。

    • 定義:指支持用戶或應用程序能夠大規模地訪問 LLM Inference 的基礎設施和軟件系統。

    • 責任范圍:主要是指支持 LLM Inference 的端到端的服務流程,包括但不限于請求接入處理、請求路由處理、流量管理和模型管理等。

    • 場景示例:譬如支持 vLLM[2] 的 Kserve[3] 框架,可以便捷和高效地為多個用戶或應用程序提供 LLM 推理預測服務。

從上面的對比我們可以看出來 LLM Inference 的關注點在模型的執行本身,譬如模型的內存管理和算力資源的分配,如上面列舉到的 vLLM,它通過借鑒操作系統中虛擬內存和內存分頁管理的理念,實現了 LLM 服務推理中內存使用的優化方案,并解決了大模型加載和運行時許多內存使用的問題。而 LLM Serving 則是更多的面向用戶和客戶端,通過 IT 工程實踐去解決使用大語言模型的問題。以上面的 Kserve 為例,在技術層面提供了模型服務的擴縮容能力,并支持同系列模型不同版本(譬如 ChatGPT3 和 4,Llama2 和 Llama3)的服務(模型的路由服務)。Kserve 也通過提供標準化的數據平面協議和自身的 ServingRuntime 等概念來支持不同的機器學習框架訓練出來的模型,以此來提供一致的服務推理體驗。

筆者列舉上述技術框架的原因并不是為了打廣告,而是通過實際的技術案例來強調說明 LLM Inference 和 LLM Serving 的差別。同時,細心的讀者應該關注到,LLM Serving 一般來說是需要集成特定 LLM Inference 的能力的。但是絕不能就此武斷的說:LLM Serving 包含了 LLM Inference。也就是說,兩者并不是簡單的包含與被包含的關系。打個比方,不能因為一個 Web 應用開發框架集成了關系數據庫的能力,就說這個開發框架包含了關系數據庫。

LLM Inference 和 Serving 視角下的 MCP

為了說明清楚這個問題,不得不再以此說明一下 MCP 的概念,為了簡單起見,筆者將 MCP 官網的定義直接放在了下面:

MCP is an open protocol that standardizes how applications provide context to LLMs. Think of MCP like a USB-C port for AI applications. Just as USB-C provides a standardized way to connect your devices to various peripherals and accessories, MCP provides a standardized way to connect AI models to different data sources and tools.

通過 MCP 官網的定義看來,MCP 更像一個橋梁,用來連接 AI 模型(當然包括大語言模型)和不同的數據源與工具(讀者覺得這里的 tools 可能含義很寬泛,可以包括上文提到的 AI applications,可以是 function calling,也可以是 AI-Agent,甚至可以是包含外部知識庫和提示詞工程的應用等等)。那么對比上面 LLM Inference 和 LLM Serving 的概念,其實是很難做出一個確定的劃分的。

再來看看 MCP 的架構:


圖片來源于:MCP Architecture

從上圖展示的情況來看,MCP Server 承擔的角色更像是 LLM Serving 的角色,而從它面向 Host(可以想象成是用戶端)的 MCP Client 來看也印證了這個想法。然而,事情到這并不算結束,因為 MCP 的引入主要是為了實現 AI 模型和不同數據源和工具的標準化接入。可以考慮如下的場景(包括不僅限于):

  1. 連接提示詞工程優化的 function calling 或者工具,使得服務推理更加精準有效。

  2. 連接外部知識庫,使得 LLM 能夠得出更專業和有價值的反饋。

  3. 連接外部智能體來實現復雜的任務和工作流

從上面的場景上來看,MCP 的引入可以優化 LLM 的服務推理過程,提升 LLM 的運行時行為的準確度和針對性,同時也增強了 LLM 與外界的交互體驗。而這些點又正好是 LLM Inference 所關注的地方。綜上分析可以明顯的看到,MCP 實際上對于 LLM Inference 和 LLM Serving 的功能范圍都是有所涉及的。雖然 MCP 并不是完整的功能點覆蓋,而是一個 Inference 和 Serving 的簡單復合體,但是很難將其歸類于 LLM Inference 和 LLM Serving 的任何一邊。做出這樣的分析,其目的當然是為了更好的評估和理解未來 MCP 的發展方向。

MCP 未來的發展預測

根據上一小節的分析可以知道,MCP 作為一個連接 LLM 和 AI 應用的橋梁,它是 LLM Inference 和 LLM Serving 的簡單復合體,它未來是還有很多事情需要去做的。這些事情不僅僅是功能點的覆蓋,比如“橋梁鏈接”之間的鑒權和認證策略的增強,大規模用戶使用場景時的路由負載均衡,流量管理,以及基礎設施服務建設等等,讀者覺得更重要的是對 LLM Inference 和 LLM Serving 的功能范圍的明確劃分,將 LLM Inference 劃分為 MCP 的 Backend Service,而將 LLM Serving 劃分為 MCP 的 Frontend Service。經過這樣的分離,MCP 的 Backend Service 部分可以重點關注模型自身的運行時優化,而 MCP 的 Frontend Service 則可以聚焦于工程技術的優化,以更好的實現其與用戶之間的橋梁作用,兩個部分分別獨立的發展演進,引入前沿的技術成果且互不影響。

當然,以上分析和預測純屬于筆者自己的一些思考和感想,并不代表技術社區的既定發展方向,僅用于與讀者分享看法和共同探討。

關于作者

張懷龍,曾就職于阿爾卡特朗訊、百度、IBM、英特爾等知名公司擔任高級開發職位,擁有 16 年技術研發經驗,專注于云原生微服務技術,并在云原生與 LLM 技術的交叉領域進行創新實踐,如致力于云原生場景下的 LLM 服務推理, 曾工作在 Istio,OpenVINO、Kserve 和 OPEA(企業 AI 開放平臺)等技術社區。作者也曾在 KubeCon、ServiceMeshCon、IstioCon、GOTC、GOSIM 和 InfoQ/Qcon 等會議上發表技術演講。

參考文檔:

https://modelcontextprotocol.io/introduction

https://docs.vllm.ai/en/latest/

https://kserve.github.io/website/latest/

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
新教皇是個猛人!

新教皇是個猛人!

難得君
2025-05-19 13:00:43
上海街頭很常見,最近進入大面積繁盛期!緊急提醒:毒性很大

上海街頭很常見,最近進入大面積繁盛期!緊急提醒:毒性很大

新民晚報
2025-05-21 21:22:29
云南人一覺醒來懵了,印度博主:拿著蘋果手機搭訕云南女人很簡單

云南人一覺醒來懵了,印度博主:拿著蘋果手機搭訕云南女人很簡單

賤議你讀史
2025-05-20 23:58:41
張蘭怎么沒想到,心中這口惡氣全讓馬筱梅出了,一點毛病都挑不出

張蘭怎么沒想到,心中這口惡氣全讓馬筱梅出了,一點毛病都挑不出

火之文
2025-05-21 17:34:09
菲律賓選舉結果出爐

菲律賓選舉結果出爐

傲骨真新
2025-05-21 11:12:13
44歲親生母親奪走了18歲兒子第一次,之后保持26年亂倫關系

44歲親生母親奪走了18歲兒子第一次,之后保持26年亂倫關系

情感藝術家
2025-05-18 11:44:05
摯友李乃文悼念朱媛媛的方式全網淚崩!已更換和辛柏青相同頭像

摯友李乃文悼念朱媛媛的方式全網淚崩!已更換和辛柏青相同頭像

小椰的奶奶
2025-05-22 02:55:14
比房子更荒唐!一個退休老人的養老金抵得上兩三個年輕人的工資?

比房子更荒唐!一個退休老人的養老金抵得上兩三個年輕人的工資?

巢客
2025-02-08 05:35:02
破案!搏命階段許利民寧愿上方碩也不用杰曼原因找到,周琦要背鍋

破案!搏命階段許利民寧愿上方碩也不用杰曼原因找到,周琦要背鍋

后仰大風車
2025-05-21 07:20:04
1-0!歐聯杯決戰夜:熱刺4殺曼聯,時隔41年奪冠,曼聯無緣歐冠

1-0!歐聯杯決戰夜:熱刺4殺曼聯,時隔41年奪冠,曼聯無緣歐冠

體育知多少
2025-05-22 05:12:31
2字已刪除,臺當局對陸稱呼變了,蔡正元預言結局,大陸派出軍機

2字已刪除,臺當局對陸稱呼變了,蔡正元預言結局,大陸派出軍機

暖心的小屋
2025-05-17 13:48:34
理想MEGA Home正式下線,將于5月23日開啟交付

理想MEGA Home正式下線,將于5月23日開啟交付

環球網資訊
2025-05-20 15:28:12
朱媛媛已火化!老領導談辛柏青狀況,臨終前最后一次通話看哭人

朱媛媛已火化!老領導談辛柏青狀況,臨終前最后一次通話看哭人

傲傲講歷史
2025-05-22 00:31:53
墻倒眾人推!吳宗憲直言評價大小S:人前手牽手,人后下毒手

墻倒眾人推!吳宗憲直言評價大小S:人前手牽手,人后下毒手

可樂談情感
2025-05-22 00:26:15
熱刺1-0掀翻曼聯,勇奪歐聯杯冠軍,賽后評分:熱刺1號第一

熱刺1-0掀翻曼聯,勇奪歐聯杯冠軍,賽后評分:熱刺1號第一

側身凌空斬
2025-05-22 04:59:11
任正非和顧問吃飯,教授悄悄買了單,任正非讓餐廳退錢后親自刷卡

任正非和顧問吃飯,教授悄悄買了單,任正非讓餐廳退錢后親自刷卡

風起講堂
2025-05-21 11:28:09
世界冠軍0-4完敗!世乒賽男單16強誕生:國乒2人出局、日本剩獨苗

世界冠軍0-4完敗!世乒賽男單16強誕生:國乒2人出局、日本剩獨苗

知軒體育
2025-05-22 03:59:50
在舊社會被當做“肉屏風”的家妓,吃老人痰,泡陰棗,比娼妓還慘

在舊社會被當做“肉屏風”的家妓,吃老人痰,泡陰棗,比娼妓還慘

午夜故事會
2025-05-08 11:52:29
克雷桑梅開二度,泰山隊5-0大勝青島紅獅,晉級足協杯下一輪

克雷桑梅開二度,泰山隊5-0大勝青島紅獅,晉級足協杯下一輪

橙汁的味道123
2025-05-21 21:23:10
意甲主席:以后在有球隊踢歐冠決賽時將不進行爭冠附加賽

意甲主席:以后在有球隊踢歐冠決賽時將不進行爭冠附加賽

懂球帝
2025-05-22 01:04:24
2025-05-22 05:43:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

網易直擊IO大會:Gemini接管一切 眼鏡炸場

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

頭條要聞

歐洲領導人徹底失望:特朗普24小時不到就背棄我們

體育要聞

打破三大魔咒!廣廈終于將冠軍帶回浙江

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

年虧百億、裁員自救!“AI四小龍”難了

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

數碼
本地
教育
家居
公開課

數碼要聞

聯發科在將其高端芯片引入Windows筆記本電腦的過程中面臨障礙

本地新聞

云游中國 |重慶人手一只熊貓?四世同堂等你打卡

教育要聞

5月25日開始報名!2025南京陽光招生平臺報名登記提醒!

家居要聞

黑白簡約 見證平凡的蛻變

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 正蓝旗| 杭锦旗| 汤阴县| 调兵山市| 潮安县| 黄大仙区| 永泰县| 清丰县| 潼南县| 楚雄市| 勐海县| 紫阳县| 乌拉特前旗| 宜都市| 恩施市| 启东市| 徐州市| 舒兰市| 农安县| 晋江市| 铜山县| 凤山市| 安岳县| 舒城县| 滦平县| 太白县| 天津市| 息烽县| 铜鼓县| 金湖县| 鲁甸县| 南康市| 紫云| 隆昌县| 淳安县| 阿勒泰市| 通海县| 拜泉县| 华宁县| 阿城市| 龙门县|