NVIDIA AI 加速精講堂
TensorRT-LLM 和 Dynamo
產品和技術更新
6 月 26 日,星期四,19:00 — 20:30
活動介紹
演講一:NVIDIA TensorRT-LLM 產品策略更新
TensorRT-LLM是 NVIDIA 推出的高效大語言模型推理框架,當前產品開發聚焦于 PyTorch Workflow 和 GitHub First 兩大理念。
基于 PyTorch 的架構簡化了模型部署和開發,靈活高效。支持 HuggingFace Checkpoint,用戶只需少量代碼即可快速試用模型。"GitHub First" 模式推動關鍵組件開源,支持多 GPU 架構的持續集成,提升社區協作和透明度。
TensorRT-LLM 結合 NVIDIA 硬件加速,助力開發者實現高性能、低延遲的 AI 推理應用。
通過本次演講,您將了解:
- TensorRT-LLM 產品定位
- PyTorch 工作流
- GitHub-First 策略
- 產品策略路線
演講嘉賓:
鄭彬 (Adam Zheng)
NVIDIA 資深產品經理
負責 NVIDIA AI 平臺軟件產品管理,目前主要聚焦于大模型推理架構和優化。
演講二:NVIDIA Dynamo:LLM 的開源分布式推理服務框架
NVIDIA Dynamo是一個開源的模塊化推理服務框架,用于在分布式環境上實現語言和多模態大模型的服務化部署。它能夠通過動態資源調度、智能請求路由、多級 KV 緩存存儲管理和加速的數據傳輸,無縫擴展大型 GPU 集群之間的推理工作負載。
作為 Dynamo 第一期中文入門技術講解,本次分享將聚焦其四個特征:適配主流 AI 推理后端的 Prefill / Decode 分離服務、P / D 實例 GPU 資源規劃器 (GPU planner)、KV 緩存感知路由和多級存儲、低延遲通信的 NVIDIA 推理傳輸庫 NIXL (NVIDIA Inference Transfer Library)。
通過本次演講,您將了解 Dynamo 以下技術實現:
- 支持 SGLang、vLLM、TensorRT-LLM 等的 P / D 分離服務
- P / D 實例 GPU 資源規劃器 (GPU planner) 和容錯機制
- KV 緩存感知路由和多級存儲
- 加速 GPU 之間以及異構內存和存儲類型之間的 KV 緩存傳輸
演講嘉賓:
盧翔龍 (David Lu)
NVIDIA 資深解決方案架構師
NVIDIA 資深解決方案架構師,本科畢業于華中科技大學,碩士畢業于美國亞利桑那州立大學。負責為消費互聯網行業提供 GPU 計算加速解決方案。專注方向包括 Dynamo,Triton 推理服務器,TensorRT-LLM 等 LLM 推理和服務加速技術。
點擊以下鏈接,注冊參加本次在線研討會。
「鏈接」
相關資料
- 歡迎在 TensorRT-LLM GitHub 使用和貢獻開源項目:
https://github.com/NVIDIA/TensorRT-LLM
- 歡迎在 Dynamo GitHub 使用和貢獻開源項目:
https://github.com/ai-dynamo/dynamo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.