網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

本地部署大模型性能測試，DeepSeek-R1-0528-Qwen-8B 依然是我的不二之選

2025-06-24 17:24:10　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報(bào)

分享至

大家好，我是 ai 學(xué)習(xí)的老章

介紹一個(gè)大模型并發(fā)性能測試工具

看一下我高頻使用的，在2*4090顯卡上部署的DeepSeek-R1-0528-Qwen-8B性能如何

LLM-Benchmark項(xiàng)目簡介

項(xiàng)目地址：https://github.com/lework/llm-benchmark

LLM-Benchmark 是一個(gè)專為大語言模型（LLM）設(shè)計(jì)的并發(fā)性能測試工具，旨在為模型開發(fā)者和運(yùn)維人員提供自動化壓力測試和性能報(bào)告生成能力。通過該工具，用戶可以在不同并發(fā)場景下全面評估 LLM 服務(wù)的響應(yīng)能力與穩(wěn)定性，為模型部署和優(yōu)化提供數(shù)據(jù)支持。

主要功能

多階段并發(fā)測試
LLM-Benchmark 支持從低并發(fā)到高并發(fā)的多階段壓力測試，幫助用戶了解模型在不同負(fù)載下的表現(xiàn)，定位性能瓶頸。
自動化測試數(shù)據(jù)收集與分析
工具自動采集每輪測試的詳細(xì)數(shù)據(jù)，包括響應(yīng)時(shí)間、吞吐量、錯(cuò)誤率等，極大提升測試效率和數(shù)據(jù)準(zhǔn)確性。
性能指標(biāo)統(tǒng)計(jì)與可視化報(bào)告
LLM-Benchmark 能生成詳細(xì)的性能報(bào)告，支持可視化展示，方便用戶直觀分析測試結(jié)果。
短文本與長文本場景支持
針對不同應(yīng)用需求，工具支持短文本和長文本兩種測試模式，覆蓋更廣泛的真實(shí)使用環(huán)境。
靈活的配置選項(xiàng)
用戶可通過命令行參數(shù)靈活配置測試目標(biāo)、模型類型、并發(fā)數(shù)、請求數(shù)等關(guān)鍵參數(shù)，適應(yīng)多種測試需求。
JSON輸出支持
測試結(jié)果可輸出為 JSON 格式，便于后續(xù)數(shù)據(jù)分析或與其他工具集成。

適用場景

LLM 服務(wù)上線前的性能評估與優(yōu)化
不同模型、不同部署方式的橫向?qū)Ρ?/p>
長文本與短文本場景下的極限壓力測試
自動化回歸測試與性能監(jiān)控

核心文件包括：

??run_benchmarks.py?：自動化測試腳本，負(fù)責(zé)執(zhí)行多輪壓力測試、自動調(diào)整并發(fā)配置（1-300 并發(fā)）、收集和匯總測試數(shù)據(jù)，并生成美觀的性能報(bào)告。
??llm_benchmark.py?：并發(fā)測試的核心實(shí)現(xiàn)，負(fù)責(zé)管理并發(fā)請求、連接池，收集詳細(xì)性能指標(biāo)，并支持流式響應(yīng)測試。
??assets/?：資源文件夾，用于存儲測試所需的輔助資源。
??README.md?：項(xiàng)目文檔，介紹工具用法和參數(shù)說明。

使用方法

1.運(yùn)行全套性能測試

通過 ??run_benchmarks.py? 腳本，可以自動完成多輪不同并發(fā)量的壓力測試，適合全面評估 LLM 服務(wù)性能：

python run_benchmarks.py \     --llm_url "http://your-llm-server" \     --api_key "your-api-key" \     --model "your-model-name" \     --use_long_context

參數(shù)說明：

??--llm_url?：待測 LLM 服務(wù)的 URL（必填）
??--api_key?：API 密鑰（可選）
??--model?：模型名稱（默認(rèn) deepseek-r1）
??--use_long_context?：啟用長文本測試（默認(rèn) False）

2.運(yùn)行單次并發(fā)測試

如需針對特定并發(fā)量進(jìn)行單輪測試，可使用 ??llm_benchmark.py? 腳本：python llm_benchmark.py \

python llm_benchmark.py \     --llm_url "http://your-llm-server" \     --api_key "your-api-key" \     --model "your-model-name" \     --num_requests 100 \     --concurrency 10

參數(shù)說明：

??--num_requests?：總請求數(shù)（必填）
??--concurrency?：并發(fā)數(shù)（必填）
其他參數(shù)與上文類似，還可配置輸出 token 數(shù)、請求超時(shí)、輸出格式等。

性能報(bào)告與輸出

我測試的是全套性能，使用了長上下文模式

python run_benchmarks.py \     --llm_url "http://localhost:8001/v1" \     --api_key "123" \     --model "R1-0528-Qwen3-8B" \     --use_long_context

結(jié)果如下：

返回性能測試指標(biāo)的概念說明：

1. RPS（每秒請求數(shù)，Requests Per Second）
RPS 表示系統(tǒng)每秒能夠處理的請求數(shù)量，是衡量系統(tǒng)吞吐能力的核心指標(biāo)。反映模型或服務(wù)的并發(fā)處理能力，RPS 越高，說明系統(tǒng)單位時(shí)間內(nèi)能服務(wù)更多用戶，適合高并發(fā)場景。
2. 平均延遲（秒，Average Latency）
平均延遲指所有請求從發(fā)出到收到響應(yīng)的平均耗時(shí)，衡量用戶實(shí)際體驗(yàn)的響應(yīng)速度，平均延遲越低，用戶等待時(shí)間越短，體驗(yàn)越好。
3. P99延遲（秒，P99 Latency）
指 99% 的請求響應(yīng)時(shí)間低于該值，只有 1% 的請求耗時(shí)更長。反映極端情況下的響應(yīng)速度，衡量系統(tǒng)在高負(fù)載或偶發(fā)異常時(shí)的表現(xiàn)，適合評估服務(wù)的穩(wěn)定性和最差體驗(yàn)。
4. 平均TPS（Transactions Per Second）
平均 TPS 表示每秒生成的 token 數(shù)量（在大模型場景下，通常指每秒生成的文本 token 數(shù)），衡量模型的實(shí)際生成速度，TPS 越高，說明模型生成文本的效率越高，適合需要快速輸出的業(yè)務(wù)場景。
5. 首Token延遲（秒，F(xiàn)irst Token Latency）
首 Token 延遲是指從請求發(fā)出到生成第一個(gè) token 的耗時(shí)，反映模型首次響應(yīng)的啟動速度，首 Token 延遲越低，用戶首次看到回復(fù)的速度越快，提升交互體驗(yàn)。

這個(gè)結(jié)果還是不錯(cuò)的，50個(gè)并發(fā)情況下，平均延遲2.4 秒，平均TPS 42.44

吞吐量（RPS）提升明顯
隨著并發(fā)數(shù)提升，RPS 從單并發(fā)的 0.91 快速提升到 300 并發(fā)下的 43.53，說明模型具備很強(qiáng)的高并發(fā)處理能力。
響應(yīng)速度與延遲變化
并發(fā)數(shù)提升帶來平均延遲的增加，單并發(fā)下平均延遲僅 1.098 秒，300 并發(fā)時(shí)增至 12.62 秒，P99 延遲也有類似趨勢。高并發(fā)下部分請求耗時(shí)顯著增加。
首Token延遲
首 Token 延遲在低并發(fā)時(shí)極低（0.035 秒），但在 200/300 并發(fā)時(shí)升至 2.849 秒，說明高并發(fā)下模型啟動響應(yīng)速度有所下降。
平均TPS下降
隨著并發(fā)提升，平均 TPS 從 90.89 逐步下降到 12.62，反映高負(fù)載時(shí)單請求生成 token 的速度受到影響。
成功率始終100%
各并發(fā)場景下無失敗請求，模型穩(wěn)定性表現(xiàn)優(yōu)秀。

作為對比，我讓豆包幫我找了一下市面上主流平臺DeepSeek API的生成速度

DeepSeek：DeepSeek-V3 的文本生成速度官方宣稱是 60 tokens 每秒。但據(jù)一些測試數(shù)據(jù)顯示，通過 API 向 DeepSeek-R1 模型服務(wù)器發(fā)送請求時(shí)，其生成速度有所波動，如 Content 部分 118 tokens，用時(shí) 3.12 秒，生成速度 37.76 tokens/s；總體生成 436 tokens，總用時(shí) 13.21 秒，平均速度 33.01 tokens/s 等。在深圳本地對 DeepSeek - R1 API 服務(wù)測試中，DeepSeek 官方的生成速度為 37.117 tokens/s，推理速度為 25.378 tokens/s。
其他平臺：
- 火山引擎：在深圳本地測試中，生成速度可達(dá) 65.673 tokens/s，在成都測試中生成速度高達(dá) 72.276 tokens/s。在對六家主流平臺的 API 版本評測中，火山引擎平臺的回復(fù)速度均值達(dá)到 32tokens/s，推理速度均值達(dá)到 29tokens/s，其在深度推理效率與系統(tǒng)穩(wěn)定性方面優(yōu)勢顯著。
- 硅基流動：在深圳本地測試中，生成速度為 16.966 tokens/s。
- 阿里云百煉：在深圳本地測試中，生成速度為 11.813 tokens/s，且呈現(xiàn)出明顯的時(shí)段性波動特征。
- 訊飛開放平臺：在六家主流平臺 API 版本評測中，推理速度均值為 1.2tokens/s，總平均速度表現(xiàn)較差。
- Meta 的 Llama API：Cerebras 宣稱其 Llama 4 Cerebras 模型的 tokens 生成速度高達(dá) 2600 tokens/s，Groq 提供的 Llama 4 Scout 模型速度為 460 tokens/s。

總結(jié)：資源有限DeepSeek-R1-0528-Qwen-8B是你的不二之選

最后推薦一個(gè)我正在學(xué)習(xí)的知識庫課程

制作不易，如果這篇文章覺得對你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.