網易首頁 > 網易號 > 正文申請入駐

吃瓜，大模型推理引擎，vLLM和SGLang 杠起來了

2025-04-20 19:40:14　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

vLLM和SGLang是大模型領域最著名、熱度最高的兩個推理引擎，也都是 DeepSeek 推薦使用的推理引擎。

vLLM 45.3K 星標
項目：https://github.com/vllm-project/vllm
文檔：docs.vllm.ai

SGLang 13.4K 星標
項目：https://github.com/sgl-project/sglang
文檔：docs.sglang.ai/

純個人感受，我還是比較喜歡 vLLM，之前多次用 vLLM 引擎部署過大模型：

說回標題，vLLM 前幾天發了一個性能更新的推，測試了在 8x H200 上，vLLM 在 DeepSeek V3/R1 模型的吞吐量方面領先，還期待與 DeepSeek 的推理引擎開源計劃合作，實現進一步的提升。

這里面有兩個點

一是它配圖中對比了不同場景下與 SGLang 和 TensorRT 這兩個推理引擎的對比數據，vLLM 短進短出情況下遙遙領先，后面幾個場景中 SGLang 甚至被 TensorRT 超越

二是它期待的與 DeeSeek 的開源合作，這是前幾天 DeepSeek [[2025-04-19-剛剛，DeepSeek 宣布，準備開源推理引擎]] 中說到其開源引擎是基于 vllm 魔改，準備開源

然后 SGLang 直接回應了這條，并置頂了回復：我們對比了 vLLM 0.8.4 和 SGLang 0.4.5.post1 的離線性能。基準測試結果表明，SGLang 在所有情況下都優于 vLLM，大多數情況下領先約 10%，最大領先幅度為 38%。

也有網友表示，可以輕松調整 SGLang，使其性能比 vLLM 高出 23%。

lmsysorg 聯合創始人 Lianmin Zheng 親自下場，表示 vLLM 發布的基準測試結果存在明顯的誤導性，SGLang 官方可以測出比 vLLM 更好的結果。并生成這已經不是 vLLM 第一次分享誤導性信息，應該考慮刪除這篇帖子以維護聲譽。

然后 vLLM 連續發布了兩個測試結果，表示沒有發布誤導性的結果，它可以通過精確的命令和環境重現。

Lianmin Zheng 說vLLM后續這兩張圖中 TRT - LLM 結果在 ShareGPT 上比之前快兩倍，在 1k - in - 2k - out 上比之前快 1.6 倍，SGLang 也是如此，這恰好證明了之前的結果存在誤導性。

話說，類似測試、打臉、再測試屬實沒什么意義。各家的推理引擎都在不斷進行各種優化，即便是同一版本的模型，各家進行測試時，本身就更傾向于對自家引擎的各種參數設置上多加權衡，而對競爭對手的引擎的參數可能考慮就沒有那么多了。

這一波，我站SGLang，vLLM自己測試可以，在某個版本上提升多少隨便怎么吹都可以，沒必要拉上SGLang和TensorRT。

最后，我建議兩家別吵了，同時建議大家感受一下我最近在用的 Xinferece v 1.5，它直接支持了vllm、sglang、llama.cpp、transformers、MLX等推理引擎，還提供了可視化界面管理各種大模型。

配置與使用方式詳見文檔：https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html

更新指南

pip：pip install 'xinference==1.5.0'
Docker：拉取最新版本即可，也可以直接在鏡像內用 pip 更新。

? 功能增強

Gradio 聊天界面支持展示思考過程（需打開“解析思維過程”）
Vision 模型支持 min/max_pixels 控制輸入分辨率
模型下載支持進度顯示與取消
?? 默認并發數設置為 CPU 核心數
支持 InternVL3 的 AWQ 推理
? 默認使用最新版 xllamacpp 引擎

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

騰訊混元開源首款混合推理MoE模型，主打Agent工具調用和長文理解

量子位 2025-06-27 16:56:59
0 跟貼 0
阿里發布信息檢索Agent，可自主上網查資料，GAIA基準超越GPT-4o

量子位 2025-06-27 14:00:19
0 跟貼 0

發布不到 1 天就翻車？Google 這個免費 AI 編程產品，不是又一個「換皮」 Claude

愛范兒 2025-06-27 17:02:25
3 跟貼 3

DeepSeek 聯手 Zotero 好用到爆，輕松搞定文獻翻譯閱讀（附安裝教程）

生物學霸 2025-03-05 18:00:50
1 跟貼 1
螢石“AI底座”太強了！性能更強、更便宜，還更自由

雷科技 2025-06-27 17:05:11
1 跟貼 1

人民大學&字節Seed：利用μP實現Diffusion Transformers高效擴展

機器之心Pro 2025-06-26 16:32:21
0 跟貼 0

不靠Agent，4步修復真Bug！螞蟻CGM登頂SWE-Bench開源榜

機器之心Pro 2025-06-27 15:06:34
10 跟貼 10
這個擴散LLM太快了!沒有「請稍后」，實測倍速于Gemini 2.5 Flash

機器之心Pro 2025-06-27 16:39:00
7 跟貼 7

蘋果出手！改進GRPO，讓dLLM也能高效強化學習

機器之心Pro 2025-06-27 13:59:13
1 跟貼 1
螞蟻集團副總裁張俊杰：不是為了AI而AI，醫療大模型重構健康服務

每日經濟新聞 2025-06-27 20:07:05
1 跟貼 1
打破瓶頸，彩云科技&北郵提出MUDDFormer架構讓Transformer再進化

機器之心Pro 2025-06-27 18:09:40
38 跟貼 38
浦東發布“12345市民服務熱線大模型”，都有哪些功能？

上觀新聞 2025-06-27 21:13:04
0 跟貼 0
數坤坤多模態醫療健康大模型3.0正式發布

中國日報網 2025-06-27 17:18:07
0 跟貼 0
2025年中超上海主場VS大連，球場管理員不讓球迷站著看賽

中安在線 2025-06-27 11:59:28
615 跟貼 615
盧宇光在庫爾斯克被無人機擊中，正在搶救

小A看世界 2025-06-27 00:59:10
44839 跟貼 44839
印度國產阿卡什防空系統，坑苦亞美尼亞，數據全縮水全是故障

全球風情大揭秘 2025-06-27 16:44:51
0 跟貼 0
AI編程“真相”：硬核測試全部0分，AI寫代碼到底行不行？| 深度

鈦媒體APP 2025-06-27 16:42:28
2 跟貼 2
開源、免費！谷歌甩出AI編程王炸，每天1000次請求，硬剛Claude Code

智東西 2025-06-26 00:23:24
73 跟貼 73
用參數思想求角度，設而不求，有意思！

大鵬老師講數學 2025-06-26 05:01:00
0 跟貼 0
老外用引擎發動機除雪，有錢人就是會玩

釣之有道 2025-06-26 14:15:59
0 跟貼 0
剛學會歧視的AI，就開始PUA我了

新周刊 2025-03-19 09:04:03
1 跟貼 1
王曼昱：國乒雙核引擎的破局時刻，洛杉磯奧運單打之爭懸念再起！

暮色史觀 2025-06-27 14:13:54
0 跟貼 0
男人擺弄模型，小鎮就發生變化

吾李有劇 2025-06-25 20:24:49
0 跟貼 0
對話開源中國馬越：DeepSeek不是國運級的創新，年輕人才是

36氪 2025-03-13 18:14:13
20 跟貼 20
入職字節就像“嫁”給了不愛又有錢的臭老頭

螞蟻大喇叭 2025-06-27 18:09:38
1 跟貼 1
推理越多，幻覺越重？多模態推理模型的「幻覺悖論」

新智元 2025-06-25 20:06:49
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
詳細到教你如何選裝！小米YU7這樣買讓雷總直呼虧錢

吳佩頻道 2025-06-27 18:20:50
0 跟貼 0
河北網紅公司1.1億元深圳“搶樓”后悔拍，業內認為“成交總價過高”，有何隱情？

每日經濟新聞 2025-06-27 08:19:13
3274 跟貼 3274
突破通用領域推理的瓶頸！清華NLP實驗室強化學習新研究RLPR

機器之心Pro 2025-06-27 10:30:06
37 跟貼 37
1991年船員被吸入戰機引擎的致命事故故事

牛牛趕海海鮮 2025-06-23 18:57:53
0 跟貼 0
路中間正安裝漂亮的新護欄男子飆“國粹”：每年都在換

火煉樹 2025-06-27 17:18:52
4292 跟貼 4292
人工智能重塑金融風控從技術賦能到生態協同

經濟觀察報 2025-06-27 20:15:11
0 跟貼 0
賭王看不起傻小子，殊不知人家是學霸，用線性代數贏牌

財神影視 2025-06-26 10:14:03
1 跟貼 1
苗華被免去中央軍事委員會委員職務

新京報 2025-06-27 15:32:11
149 跟貼 149
是我曾經幻想過無數次的場景，這也許就是有女兒的幸福吧！

孑孑動漫 2025-06-25 09:30:32
1157 跟貼 1157
如何用肉眼看見核輻射？一個簡單實驗，教你讓核輻射可視化！

探謎未知世界 2025-06-24 14:34:57
3 跟貼 3
一個急救員眼中，民營長途轉運救護車的“利”與“亂”

澎湃新聞 2025-06-27 07:04:27
1059 跟貼 1059
加沙15歲男孩餓到只剩18公斤醫院營養補劑已枯竭

大象新聞 2025-06-27 12:23:07
5673 跟貼 5673
熱搜第一！大學生熱得在樓道、操場打地鋪，東北多所高校回應無空調

大風新聞 2025-06-27 14:03:06
327 跟貼 327

手機 / 數碼

房產 / 家居

吃瓜，大模型推理引擎，vLLM和SGLang 杠起來了

雷軍：小米汽車成功沒靠營銷，靠的是能力

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

曼城“庫里”連線，送尤文晚安好夢

炸裂！榜一大姐深夜怒錘頂流

合新鐵路建設材料以次充好 多家單位被罰

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

呼吸科專家破解呼吸道九大謠言！

英雄聯盟新英雄蕓阿娜模型圖 溫泉皮有“玉足”

明亮寬敞 空間合理安排

被貴妃帶火的“唐代頂流”，如今怎么不火了

美國打擊伊朗核設施后美軍一將領進入特朗普核心圈

美國打擊伊朗核設施后美軍一將領進入特朗普核心圈

合新鐵路建設材料以次充好多家單位被罰

配置升級/貴賓座椅全新GL8陸上公務艙售22.99萬

英雄聯盟新英雄蕓阿娜模型圖溫泉皮有“玉足”

明亮寬敞空間合理安排