大家好,我是 ai 學(xué)習(xí)的老章
介紹一個(gè)大模型并發(fā)性能測試工具
看一下我高頻使用的,在2*4090
顯卡上部署的DeepSeek-R1-0528-Qwen-8B
性能如何
LLM-Benchmark項(xiàng)目簡介
項(xiàng)目地址:https://github.com/lework/llm-benchmark
LLM-Benchmark 是一個(gè)專為大語言模型(LLM)設(shè)計(jì)的并發(fā)性能測試工具,旨在為模型開發(fā)者和運(yùn)維人員提供自動化壓力測試和性能報(bào)告生成能力。通過該工具,用戶可以在不同并發(fā)場景下全面評估 LLM 服務(wù)的響應(yīng)能力與穩(wěn)定性,為模型部署和優(yōu)化提供數(shù)據(jù)支持。
主要功能
多階段并發(fā)測試
LLM-Benchmark 支持從低并發(fā)到高并發(fā)的多階段壓力測試,幫助用戶了解模型在不同負(fù)載下的表現(xiàn),定位性能瓶頸。自動化測試數(shù)據(jù)收集與分析
工具自動采集每輪測試的詳細(xì)數(shù)據(jù),包括響應(yīng)時(shí)間、吞吐量、錯(cuò)誤率等,極大提升測試效率和數(shù)據(jù)準(zhǔn)確性。性能指標(biāo)統(tǒng)計(jì)與可視化報(bào)告
LLM-Benchmark 能生成詳細(xì)的性能報(bào)告,支持可視化展示,方便用戶直觀分析測試結(jié)果。短文本與長文本場景支持
針對不同應(yīng)用需求,工具支持短文本和長文本兩種測試模式,覆蓋更廣泛的真實(shí)使用環(huán)境。靈活的配置選項(xiàng)
用戶可通過命令行參數(shù)靈活配置測試目標(biāo)、模型類型、并發(fā)數(shù)、請求數(shù)等關(guān)鍵參數(shù),適應(yīng)多種測試需求。JSON輸出支持
測試結(jié)果可輸出為 JSON 格式,便于后續(xù)數(shù)據(jù)分析或與其他工具集成。
適用場景
LLM 服務(wù)上線前的性能評估與優(yōu)化
不同模型、不同部署方式的橫向?qū)Ρ?/p>
長文本與短文本場景下的極限壓力測試
自動化回歸測試與性能監(jiān)控
核心文件包括:
??run_benchmarks.py?:自動化測試腳本,負(fù)責(zé)執(zhí)行多輪壓力測試、自動調(diào)整并發(fā)配置(1-300 并發(fā))、收集和匯總測試數(shù)據(jù),并生成美觀的性能報(bào)告。
??llm_benchmark.py?:并發(fā)測試的核心實(shí)現(xiàn),負(fù)責(zé)管理并發(fā)請求、連接池,收集詳細(xì)性能指標(biāo),并支持流式響應(yīng)測試。
??assets/?:資源文件夾,用于存儲測試所需的輔助資源。
??README.md?:項(xiàng)目文檔,介紹工具用法和參數(shù)說明。
1.運(yùn)行全套性能測試
通過 ??run_benchmarks.py? 腳本,可以自動完成多輪不同并發(fā)量的壓力測試,適合全面評估 LLM 服務(wù)性能:
python run_benchmarks.py \ --llm_url "http://your-llm-server" \ --api_key "your-api-key" \ --model "your-model-name" \ --use_long_context
參數(shù)說明:
??--llm_url?:待測 LLM 服務(wù)的 URL(必填)
??--api_key?:API 密鑰(可選)
??--model?:模型名稱(默認(rèn) deepseek-r1)
??--use_long_context?:啟用長文本測試(默認(rèn) False)
2.運(yùn)行單次并發(fā)測試
如需針對特定并發(fā)量進(jìn)行單輪測試,可使用 ??llm_benchmark.py? 腳本:python llm_benchmark.py \
python llm_benchmark.py \ --llm_url "http://your-llm-server" \ --api_key "your-api-key" \ --model "your-model-name" \ --num_requests 100 \ --concurrency 10
參數(shù)說明:
??--num_requests?:總請求數(shù)(必填)
??--concurrency?:并發(fā)數(shù)(必填)
其他參數(shù)與上文類似,還可配置輸出 token 數(shù)、請求超時(shí)、輸出格式等。
我測試的是全套性能,使用了長上下文模式
python run_benchmarks.py \ --llm_url "http://localhost:8001/v1" \ --api_key "123" \ --model "R1-0528-Qwen3-8B" \ --use_long_context
結(jié)果如下:
返回性能測試指標(biāo)的概念說明:
1. RPS(每秒請求數(shù),Requests Per Second)
RPS 表示系統(tǒng)每秒能夠處理的請求數(shù)量,是衡量系統(tǒng)吞吐能力的核心指標(biāo)。反映模型或服務(wù)的并發(fā)處理能力,RPS 越高,說明系統(tǒng)單位時(shí)間內(nèi)能服務(wù)更多用戶,適合高并發(fā)場景。2. 平均延遲(秒,Average Latency)
平均延遲指所有請求從發(fā)出到收到響應(yīng)的平均耗時(shí),衡量用戶實(shí)際體驗(yàn)的響應(yīng)速度,平均延遲越低,用戶等待時(shí)間越短,體驗(yàn)越好。3. P99延遲(秒,P99 Latency)
指 99% 的請求響應(yīng)時(shí)間低于該值,只有 1% 的請求耗時(shí)更長。反映極端情況下的響應(yīng)速度,衡量系統(tǒng)在高負(fù)載或偶發(fā)異常時(shí)的表現(xiàn),適合評估服務(wù)的穩(wěn)定性和最差體驗(yàn)。4. 平均TPS(Transactions Per Second)
平均 TPS 表示每秒生成的 token 數(shù)量(在大模型場景下,通常指每秒生成的文本 token 數(shù)),衡量模型的實(shí)際生成速度,TPS 越高,說明模型生成文本的效率越高,適合需要快速輸出的業(yè)務(wù)場景。5. 首Token延遲(秒,F(xiàn)irst Token Latency)
首 Token 延遲是指從請求發(fā)出到生成第一個(gè) token 的耗時(shí),反映模型首次響應(yīng)的啟動速度,首 Token 延遲越低,用戶首次看到回復(fù)的速度越快,提升交互體驗(yàn)。
這個(gè)結(jié)果還是不錯(cuò)的,50個(gè)并發(fā)情況下,平均延遲2.4 秒,平均TPS 42.44
吞吐量(RPS)提升明顯
隨著并發(fā)數(shù)提升,RPS 從單并發(fā)的 0.91 快速提升到 300 并發(fā)下的 43.53,說明模型具備很強(qiáng)的高并發(fā)處理能力。響應(yīng)速度與延遲變化
并發(fā)數(shù)提升帶來平均延遲的增加,單并發(fā)下平均延遲僅 1.098 秒,300 并發(fā)時(shí)增至 12.62 秒,P99 延遲也有類似趨勢。高并發(fā)下部分請求耗時(shí)顯著增加。首Token延遲
首 Token 延遲在低并發(fā)時(shí)極低(0.035 秒),但在 200/300 并發(fā)時(shí)升至 2.849 秒,說明高并發(fā)下模型啟動響應(yīng)速度有所下降。平均TPS下降
隨著并發(fā)提升,平均 TPS 從 90.89 逐步下降到 12.62,反映高負(fù)載時(shí)單請求生成 token 的速度受到影響。成功率始終100%
各并發(fā)場景下無失敗請求,模型穩(wěn)定性表現(xiàn)優(yōu)秀。
作為對比,我讓豆包幫我找了一下市面上主流平臺DeepSeek API的生成速度
DeepSeek:DeepSeek-V3 的文本生成速度官方宣稱是 60 tokens 每秒。但據(jù)一些測試數(shù)據(jù)顯示,通過 API 向 DeepSeek-R1 模型服務(wù)器發(fā)送請求時(shí),其生成速度有所波動,如 Content 部分 118 tokens,用時(shí) 3.12 秒,生成速度 37.76 tokens/s;總體生成 436 tokens,總用時(shí) 13.21 秒,平均速度 33.01 tokens/s 等。在深圳本地對 DeepSeek - R1 API 服務(wù)測試中,DeepSeek 官方的生成速度為 37.117 tokens/s,推理速度為 25.378 tokens/s。
其他平臺:
火山引擎:在深圳本地測試中,生成速度可達(dá) 65.673 tokens/s,在成都測試中生成速度高達(dá) 72.276 tokens/s。在對六家主流平臺的 API 版本評測中,火山引擎平臺的回復(fù)速度均值達(dá)到 32tokens/s,推理速度均值達(dá)到 29tokens/s,其在深度推理效率與系統(tǒng)穩(wěn)定性方面優(yōu)勢顯著。
硅基流動:在深圳本地測試中,生成速度為 16.966 tokens/s。
阿里云百煉:在深圳本地測試中,生成速度為 11.813 tokens/s,且呈現(xiàn)出明顯的時(shí)段性波動特征。
訊飛開放平臺:在六家主流平臺 API 版本評測中,推理速度均值為 1.2tokens/s,總平均速度表現(xiàn)較差。
Meta 的 Llama API:Cerebras 宣稱其 Llama 4 Cerebras 模型的 tokens 生成速度高達(dá) 2600 tokens/s,Groq 提供的 Llama 4 Scout 模型速度為 460 tokens/s。
總結(jié):資源有限DeepSeek-R1-0528-Qwen-8B
是你的不二之選
最后推薦一個(gè)我正在學(xué)習(xí)的知識庫課程
制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.