大家好,我是 Ai 學習的老章
vLLM
和SGLang
是大模型領域最著名、熱度最高的兩個推理引擎,也都是 DeepSeek 推薦使用的推理引擎。
vLLM 45.3K 星標
項目:https://github.com/vllm-project/vllm
文檔:docs.vllm.ai
SGLang 13.4K 星標
項目:https://github.com/sgl-project/sglang
文檔:docs.sglang.ai/
純個人感受,我還是比較喜歡 vLLM,之前多次用 vLLM 引擎部署過大模型:
說回標題,vLLM 前幾天發了一個性能更新的推,測試了在 8x H200 上,vLLM 在 DeepSeek V3/R1 模型的吞吐量方面領先,還期待與 DeepSeek 的推理引擎開源計劃合作,實現進一步的提升。
這里面有兩個點
一是它配圖中對比了不同場景下與 SGLang 和 TensorRT 這兩個推理引擎的對比數據,vLLM 短進短出情況下遙遙領先,后面幾個場景中 SGLang 甚至被 TensorRT 超越
二是它期待的與 DeeSeek 的開源合作,這是前幾天 DeepSeek [[2025-04-19-剛剛,DeepSeek 宣布,準備開源推理引擎]] 中說到其開源引擎是基于 vllm 魔改,準備開源
然后 SGLang 直接回應了這條,并置頂了回復:我們對比了 vLLM 0.8.4 和 SGLang 0.4.5.post1 的離線性能。基準測試結果表明,SGLang 在所有情況下都優于 vLLM,大多數情況下領先約 10%,最大領先幅度為 38%。
也有網友表示,可以輕松調整 SGLang,使其性能比 vLLM 高出 23%。
lmsysorg 聯合創始人 Lianmin Zheng 親自下場,表示 vLLM 發布的基準測試結果存在明顯的誤導性,SGLang 官方可以測出比 vLLM 更好的結果。并生成這已經不是 vLLM 第一次分享誤導性信息,應該考慮刪除這篇帖子以維護聲譽。
然后 vLLM 連續發布了兩個測試結果,表示沒有發布誤導性的結果,它可以通過精確的命令和環境重現。
Lianmin Zheng 說vLLM后續這兩張圖中 TRT - LLM 結果在 ShareGPT 上比之前快兩倍,在 1k - in - 2k - out 上比之前快 1.6 倍,SGLang 也是如此,這恰好證明了之前的結果存在誤導性。
話說,類似測試、打臉、再測試屬實沒什么意義。各家的推理引擎都在不斷進行各種優化,即便是同一版本的模型,各家進行測試時,本身就更傾向于對自家引擎的各種參數設置上多加權衡,而對競爭對手的引擎的參數可能考慮就沒有那么多了。
這一波,我站SGLang,vLLM自己測試可以,在某個版本上提升多少隨便怎么吹都可以,沒必要拉上SGLang和TensorRT。
最后,我建議兩家別吵了,同時建議大家感受一下我最近在用的 Xinferece v 1.5,它直接支持了vllm、sglang、llama.cpp、transformers、MLX等推理引擎,還提供了可視化界面管理各種大模型。
配置與使用方式詳見文檔:https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html
更新指南
pip:pip install 'xinference==1.5.0'
Docker:拉取最新版本即可,也可以直接在鏡像內用 pip 更新。
? 功能增強
Gradio 聊天界面支持展示思考過程(需打開“解析思維過程”)
Vision 模型支持 min/max_pixels 控制輸入分辨率
模型下載支持進度顯示與取消
?? 默認并發數設置為 CPU 核心數
支持 InternVL3 的 AWQ 推理
? 默認使用最新版 xllamacpp 引擎
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.