99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

本地部署大模型性能測試,DeepSeek-R1-0528-Qwen-8B 依然是我的不二之選

0
分享至


大家好,我是 ai 學(xué)習(xí)的老章

介紹一個(gè)大模型并發(fā)性能測試工具

看一下我高頻使用的,在2*4090顯卡上部署的DeepSeek-R1-0528-Qwen-8B性能如何

LLM-Benchmark項(xiàng)目簡介

項(xiàng)目地址:https://github.com/lework/llm-benchmark

LLM-Benchmark 是一個(gè)專為大語言模型(LLM)設(shè)計(jì)的并發(fā)性能測試工具,旨在為模型開發(fā)者和運(yùn)維人員提供自動化壓力測試和性能報(bào)告生成能力。通過該工具,用戶可以在不同并發(fā)場景下全面評估 LLM 服務(wù)的響應(yīng)能力與穩(wěn)定性,為模型部署和優(yōu)化提供數(shù)據(jù)支持。

主要功能

  1. 多階段并發(fā)測試
    LLM-Benchmark 支持從低并發(fā)到高并發(fā)的多階段壓力測試,幫助用戶了解模型在不同負(fù)載下的表現(xiàn),定位性能瓶頸。

  2. 自動化測試數(shù)據(jù)收集與分析
    工具自動采集每輪測試的詳細(xì)數(shù)據(jù),包括響應(yīng)時(shí)間、吞吐量、錯(cuò)誤率等,極大提升測試效率和數(shù)據(jù)準(zhǔn)確性。

  3. 性能指標(biāo)統(tǒng)計(jì)與可視化報(bào)告
    LLM-Benchmark 能生成詳細(xì)的性能報(bào)告,支持可視化展示,方便用戶直觀分析測試結(jié)果。

  4. 短文本與長文本場景支持
    針對不同應(yīng)用需求,工具支持短文本和長文本兩種測試模式,覆蓋更廣泛的真實(shí)使用環(huán)境。

  5. 靈活的配置選項(xiàng)
    用戶可通過命令行參數(shù)靈活配置測試目標(biāo)、模型類型、并發(fā)數(shù)、請求數(shù)等關(guān)鍵參數(shù),適應(yīng)多種測試需求。

  6. JSON輸出支持
    測試結(jié)果可輸出為 JSON 格式,便于后續(xù)數(shù)據(jù)分析或與其他工具集成。

適用場景

  • LLM 服務(wù)上線前的性能評估與優(yōu)化

  • 不同模型、不同部署方式的橫向?qū)Ρ?/p>

  • 長文本與短文本場景下的極限壓力測試

  • 自動化回歸測試與性能監(jiān)控

核心文件包括

  • ??run_benchmarks.py?:自動化測試腳本,負(fù)責(zé)執(zhí)行多輪壓力測試、自動調(diào)整并發(fā)配置(1-300 并發(fā))、收集和匯總測試數(shù)據(jù),并生成美觀的性能報(bào)告。

  • ??llm_benchmark.py?:并發(fā)測試的核心實(shí)現(xiàn),負(fù)責(zé)管理并發(fā)請求、連接池,收集詳細(xì)性能指標(biāo),并支持流式響應(yīng)測試。

  • ??assets/?:資源文件夾,用于存儲測試所需的輔助資源。

  • ??README.md?:項(xiàng)目文檔,介紹工具用法和參數(shù)說明。

使用方法

1.運(yùn)行全套性能測試

通過 ??run_benchmarks.py? 腳本,可以自動完成多輪不同并發(fā)量的壓力測試,適合全面評估 LLM 服務(wù)性能:

python run_benchmarks.py \     --llm_url "http://your-llm-server" \     --api_key "your-api-key" \     --model "your-model-name" \     --use_long_context

參數(shù)說明:

  • ??--llm_url?:待測 LLM 服務(wù)的 URL(必填)

  • ??--api_key?:API 密鑰(可選)

  • ??--model?:模型名稱(默認(rèn) deepseek-r1)

  • ??--use_long_context?:啟用長文本測試(默認(rèn) False)

2.運(yùn)行單次并發(fā)測試

如需針對特定并發(fā)量進(jìn)行單輪測試,可使用 ??llm_benchmark.py? 腳本:python llm_benchmark.py \

python llm_benchmark.py \     --llm_url "http://your-llm-server" \     --api_key "your-api-key" \     --model "your-model-name" \     --num_requests 100 \     --concurrency 10

參數(shù)說明:

  • ??--num_requests?:總請求數(shù)(必填)

  • ??--concurrency?:并發(fā)數(shù)(必填)

  • 其他參數(shù)與上文類似,還可配置輸出 token 數(shù)、請求超時(shí)、輸出格式等。

性能報(bào)告與輸出

我測試的是全套性能,使用了長上下文模式

python run_benchmarks.py \     --llm_url "http://localhost:8001/v1" \     --api_key "123" \     --model "R1-0528-Qwen3-8B" \     --use_long_context

結(jié)果如下:


返回性能測試指標(biāo)的概念說明:

  • 1. RPS(每秒請求數(shù),Requests Per Second)
    RPS 表示系統(tǒng)每秒能夠處理的請求數(shù)量,是衡量系統(tǒng)吞吐能力的核心指標(biāo)。反映模型或服務(wù)的并發(fā)處理能力,RPS 越高,說明系統(tǒng)單位時(shí)間內(nèi)能服務(wù)更多用戶,適合高并發(fā)場景。

  • 2. 平均延遲(秒,Average Latency)
    平均延遲指所有請求從發(fā)出到收到響應(yīng)的平均耗時(shí),衡量用戶實(shí)際體驗(yàn)的響應(yīng)速度,平均延遲越低,用戶等待時(shí)間越短,體驗(yàn)越好。

  • 3. P99延遲(秒,P99 Latency)
    指 99% 的請求響應(yīng)時(shí)間低于該值,只有 1% 的請求耗時(shí)更長。反映極端情況下的響應(yīng)速度,衡量系統(tǒng)在高負(fù)載或偶發(fā)異常時(shí)的表現(xiàn),適合評估服務(wù)的穩(wěn)定性和最差體驗(yàn)。

  • 4. 平均TPS(Transactions Per Second)
    平均 TPS 表示每秒生成的 token 數(shù)量(在大模型場景下,通常指每秒生成的文本 token 數(shù)),衡量模型的實(shí)際生成速度,TPS 越高,說明模型生成文本的效率越高,適合需要快速輸出的業(yè)務(wù)場景。

  • 5. 首Token延遲(秒,F(xiàn)irst Token Latency)
    首 Token 延遲是指從請求發(fā)出到生成第一個(gè) token 的耗時(shí),反映模型首次響應(yīng)的啟動速度,首 Token 延遲越低,用戶首次看到回復(fù)的速度越快,提升交互體驗(yàn)。

這個(gè)結(jié)果還是不錯(cuò)的,50個(gè)并發(fā)情況下,平均延遲2.4 秒,平均TPS 42.44

  1. 吞吐量(RPS)提升明顯
    隨著并發(fā)數(shù)提升,RPS 從單并發(fā)的 0.91 快速提升到 300 并發(fā)下的 43.53,說明模型具備很強(qiáng)的高并發(fā)處理能力。

  2. 響應(yīng)速度與延遲變化
    并發(fā)數(shù)提升帶來平均延遲的增加,單并發(fā)下平均延遲僅 1.098 秒,300 并發(fā)時(shí)增至 12.62 秒,P99 延遲也有類似趨勢。高并發(fā)下部分請求耗時(shí)顯著增加。

  3. Token延遲
    首 Token 延遲在低并發(fā)時(shí)極低(0.035 秒),但在 200/300 并發(fā)時(shí)升至 2.849 秒,說明高并發(fā)下模型啟動響應(yīng)速度有所下降。

  4. 平均TPS下降
    隨著并發(fā)提升,平均 TPS 從 90.89 逐步下降到 12.62,反映高負(fù)載時(shí)單請求生成 token 的速度受到影響。

  5. 成功率始終100%
    各并發(fā)場景下無失敗請求,模型穩(wěn)定性表現(xiàn)優(yōu)秀。

作為對比,我讓豆包幫我找了一下市面上主流平臺DeepSeek API的生成速度

  • DeepSeek:DeepSeek-V3 的文本生成速度官方宣稱是 60 tokens 每秒。但據(jù)一些測試數(shù)據(jù)顯示,通過 API 向 DeepSeek-R1 模型服務(wù)器發(fā)送請求時(shí),其生成速度有所波動,如 Content 部分 118 tokens,用時(shí) 3.12 秒,生成速度 37.76 tokens/s;總體生成 436 tokens,總用時(shí) 13.21 秒,平均速度 33.01 tokens/s 等。在深圳本地對 DeepSeek - R1 API 服務(wù)測試中,DeepSeek 官方的生成速度為 37.117 tokens/s,推理速度為 25.378 tokens/s。

  • 其他平臺

    • 火山引擎:在深圳本地測試中,生成速度可達(dá) 65.673 tokens/s,在成都測試中生成速度高達(dá) 72.276 tokens/s。在對六家主流平臺的 API 版本評測中,火山引擎平臺的回復(fù)速度均值達(dá)到 32tokens/s,推理速度均值達(dá)到 29tokens/s,其在深度推理效率與系統(tǒng)穩(wěn)定性方面優(yōu)勢顯著。

    • 硅基流動:在深圳本地測試中,生成速度為 16.966 tokens/s。

    • 阿里云百煉:在深圳本地測試中,生成速度為 11.813 tokens/s,且呈現(xiàn)出明顯的時(shí)段性波動特征。

    • 訊飛開放平臺:在六家主流平臺 API 版本評測中,推理速度均值為 1.2tokens/s,總平均速度表現(xiàn)較差。

    • Meta 的 Llama API:Cerebras 宣稱其 Llama 4 Cerebras 模型的 tokens 生成速度高達(dá) 2600 tokens/s,Groq 提供的 Llama 4 Scout 模型速度為 460 tokens/s。

總結(jié):資源有限DeepSeek-R1-0528-Qwen-8B是你的不二之選

最后推薦一個(gè)我正在學(xué)習(xí)的知識庫課程


制作不易,如果這篇文章覺得對你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
長沙男子下載APP開網(wǎng)店“進(jìn)貨”近55萬元后無法提現(xiàn),警方已立案

長沙男子下載APP開網(wǎng)店“進(jìn)貨”近55萬元后無法提現(xiàn),警方已立案

澎湃新聞
2025-06-27 20:52:30
瘋狂!C羅新合同曝光:日薪480萬元 2年入賬50億元 體壇史上最貴

瘋狂!C羅新合同曝光:日薪480萬元 2年入賬50億元 體壇史上最貴

風(fēng)過鄉(xiāng)
2025-06-27 06:58:56
滅了三大文明古國的雅利安人,前來華夏挑釁,被商朝扔進(jìn)了殉葬坑

滅了三大文明古國的雅利安人,前來華夏挑釁,被商朝扔進(jìn)了殉葬坑

文史道
2024-05-27 06:45:02
9.5分封神!BBC新劇,懸疑天花板,阿加莎新作視覺化!

9.5分封神!BBC新劇,懸疑天花板,阿加莎新作視覺化!

君笙的拂兮
2025-06-27 10:50:24
西媒:阿隆索終于在皇馬啟用352陣型,這是他在德國時(shí)的法寶

西媒:阿隆索終于在皇馬啟用352陣型,這是他在德國時(shí)的法寶

雷速體育
2025-06-27 11:55:23
交了35000元準(zhǔn)備種牙,當(dāng)天滿口牙齒就被拔完,廣東一男子牙被拔光后診所卷錢跑路

交了35000元準(zhǔn)備種牙,當(dāng)天滿口牙齒就被拔完,廣東一男子牙被拔光后診所卷錢跑路

極目新聞
2025-06-25 16:43:53
高價(jià)買的Labubu,竟然成了“Lababa”!掉坑掉坑,滬上消費(fèi)者連連掉坑

高價(jià)買的Labubu,竟然成了“Lababa”!掉坑掉坑,滬上消費(fèi)者連連掉坑

新民晚報(bào)
2025-06-27 18:23:30
抗癌網(wǎng)紅“游云”去世,僅37歲,自學(xué)中醫(yī)出名,生前不結(jié)婚不生娃

抗癌網(wǎng)紅“游云”去世,僅37歲,自學(xué)中醫(yī)出名,生前不結(jié)婚不生娃

180視角
2025-06-26 17:35:18
真被中國預(yù)測對了:特朗普撒彌天大謊,話音剛落,以色列又挨揍了

真被中國預(yù)測對了:特朗普撒彌天大謊,話音剛落,以色列又挨揍了

阿離家居
2025-06-27 19:37:26
油價(jià)大降超0.22元/升,7月1日油價(jià)調(diào)整,漲幅大幅回落超260元/噸

油價(jià)大降超0.22元/升,7月1日油價(jià)調(diào)整,漲幅大幅回落超260元/噸

油價(jià)早知道
2025-06-26 09:47:22
微胖女生玩真人CS破防開槍掃射路人,嘴臉爆火后“黑料”被扒又是抑郁癥…

微胖女生玩真人CS破防開槍掃射路人,嘴臉爆火后“黑料”被扒又是抑郁癥…

浪花媽媽
2025-06-24 23:41:41
大連又有一家外資企業(yè)要撤離了,大概150多人,已經(jīng)陸續(xù)在裁員了

大連又有一家外資企業(yè)要撤離了,大概150多人,已經(jīng)陸續(xù)在裁員了

星河也燦爛
2025-06-26 19:45:55
北京市副市長馬駿任市委常委,曾任北師大校長

北京市副市長馬駿任市委常委,曾任北師大校長

澎湃新聞
2025-06-27 19:48:30
小學(xué)生作文《熱死了》走紅,老師看后直接給滿分:我拜你為師吧!

小學(xué)生作文《熱死了》走紅,老師看后直接給滿分:我拜你為師吧!

深度知局
2025-06-25 00:03:58
不少儲戶“坐不住”了?存款新政迎來4大變化,有存款的人咋辦?

不少儲戶“坐不住”了?存款新政迎來4大變化,有存款的人咋辦?

搬磚營Z
2025-06-26 19:42:12
亞洲獨(dú)苗!2-0,49歲小因扎吉發(fā)威:率西亞勁旅晉級世俱杯16強(qiáng)

亞洲獨(dú)苗!2-0,49歲小因扎吉發(fā)威:率西亞勁旅晉級世俱杯16強(qiáng)

側(cè)身凌空斬
2025-06-27 10:57:57
烏軍在赫爾松擊沉黑海艦隊(duì)軍艦!空襲俄軍指揮部

烏軍在赫爾松擊沉黑海艦隊(duì)軍艦!空襲俄軍指揮部

項(xiàng)鵬飛
2025-06-26 20:36:32
婚房被小叔子借住2年,我要回時(shí)他說已過戶,我只好撥通110

婚房被小叔子借住2年,我要回時(shí)他說已過戶,我只好撥通110

云姐說情
2025-05-29 16:53:16
上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時(shí)票房僅55萬

上映第7天,《醬園弄》就丟了冠軍,陳思誠新片9小時(shí)票房僅55萬

靠譜電影君
2025-06-27 09:46:24
這下俄羅斯應(yīng)該滿意了!北約各國同意將國防開支提高至GDP的5%!

這下俄羅斯應(yīng)該滿意了!北約各國同意將國防開支提高至GDP的5%!

翻開歷史和現(xiàn)實(shí)
2025-06-27 01:00:12
2025-06-27 21:48:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3014文章數(shù) 11024關(guān)注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設(shè)施后 美軍一將領(lǐng)進(jìn)入特朗普核心圈

頭條要聞

美國打擊伊朗核設(shè)施后 美軍一將領(lǐng)進(jìn)入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財(cái)經(jīng)要聞

合新鐵路建設(shè)材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務(wù)艙售22.99萬

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
數(shù)碼
教育

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

無奇不有,龍鳳胎同時(shí)出生竟一母雙父,醫(yī)生坦言不奇怪,女方全責(zé)

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

數(shù)碼要聞

極摩客 EVO-X2 AI 桌面主機(jī)圖賞:輕巧緊湊,銳龍AI Max+ 395加持

教育要聞

昌平感知覺統(tǒng)合培訓(xùn)班結(jié)業(yè)式暨鞏華中心小學(xué)一體化生態(tài)課間研討會

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 潮州市| 湟源县| 敦煌市| 郑州市| 天台县| 泾川县| 仪征市| 马关县| 浦东新区| 麻栗坡县| 玉林市| 甘孜| 鄂州市| 漯河市| 宁蒗| 花莲市| 永济市| 禹城市| 鹤庆县| 屏东县| 肃南| 公主岭市| 兰考县| 澄迈县| 嘉峪关市| 大余县| 米易县| 宁南县| 乃东县| 千阳县| 玛多县| 丹巴县| 平凉市| 高台县| 定安县| 濉溪县| 尚志市| 镇原县| 兴业县| 同江市| 哈密市|