對(duì)有本地部署DeepSeek需求的人來(lái)說(shuō),只重視CPU、顯卡是不夠的,很多人沒(méi)有意識(shí)到本地生成式AI大模型對(duì)系統(tǒng)性能的需求不止于此,內(nèi)存、固態(tài)硬盤也對(duì)其性能有重大影響——實(shí)際上,AI大模型對(duì)數(shù)據(jù)吞吐的要求極高,這更凸顯了內(nèi)存、硬盤性能的重要性,否則你可能會(huì)遇到高性能CPU+頂級(jí)顯卡卻不能實(shí)現(xiàn)>10 Tokens/s輸出的本地大模型。
不裝不吹 本地DeepSeek適合誰(shuí)?
簡(jiǎn)單說(shuō),相對(duì)高可靠性、開(kāi)源免費(fèi)(大模型本身)、數(shù)據(jù)隱私是搭建本地AI大模型的重要理由,比如學(xué)生學(xué)習(xí)(免費(fèi))、實(shí)驗(yàn)室本地化部署(數(shù)據(jù)安全),還有AI客服的后端訓(xùn)練(隱私數(shù)據(jù)),甚至是大模型訓(xùn)練網(wǎng)店選品(商業(yè)數(shù)據(jù)機(jī)密)……總之,放開(kāi)思想,本地AI大模型用武之地絕對(duì)比你想的要多。更重要的是,AI大模型部署成本遠(yuǎn)低于線上租賃,畢竟很多情況并不需要671B的滿血DeepSeek。
對(duì)于本地部署DeepSeek大模型,基本建議如下,注意內(nèi)存容量的需求只是單純的DeekSeek占用,這還不包括系統(tǒng)占用。還有就是硬盤的性能需求其實(shí)也被大多數(shù)人忽略了,我們今天就在這兩部分為大家揭示明了。
內(nèi)存容量>速率 插滿擴(kuò)容別猶豫
舉個(gè)例子,在一臺(tái)普通的電腦上部署一個(gè)DeepSeek-R1 14B參數(shù)的大模型,僅僅是系統(tǒng)本身,內(nèi)存占用就達(dá)到了8.5GB;
加載DeepSeek-R1 14B并使用它進(jìn)行推理問(wèn)答,32GB內(nèi)存迅速消耗殆盡,這種情況下不可能實(shí)現(xiàn)>10 Tokens/s輸出的“基本可用狀態(tài)”;
所以,無(wú)論你使用的是DDR4還是DDR5內(nèi)存,盡可能擴(kuò)容是第一要?jiǎng)?wù)——在本地是生成大模型的部署上,內(nèi)存容量>速率,所以別怕四條內(nèi)存插滿會(huì)影響性能,那點(diǎn)損失不值一提;
Kingston FURY野獸 32GB(16GB×2)DDR4 3200內(nèi)存
我們以DDR5 6400 vs DDR5 7200作為對(duì)比發(fā)現(xiàn),在部署的DeepSeek大模型中性能差距不到5%,基本可以忽略掉這個(gè)差異,所以專注擴(kuò)容。
Kingston FURY野獸 32GB(16GB×2)DDR5 6400英雄聯(lián)盟雙城之戰(zhàn)限定聯(lián)名款內(nèi)存
影響DeepSeek性能的不止GPU 固態(tài)也至關(guān)重要!
最初我們也是認(rèn)為GPU顯卡是至關(guān)重要的,這一點(diǎn)本質(zhì)上沒(méi)錯(cuò),所以我們搭建了一套平臺(tái)專門對(duì)本地部署DeepSeek推理速度測(cè)試;
處理器:Intel 酷睿 i7 14700K
主板:技嘉Z790M AORUS ELITE AX ICE(microcode 0x12B)
內(nèi)存:Kingston FURY Renegade DDR5 6400 96GB RGB(32-39-39-80-119)
硬盤:金士頓 KC3000 2TBNVMePCIe 4.0固態(tài)、金士頓 NV3 1TB NVMe PCIe 4.0固態(tài)、建興 SSSTC CL5-8D1024 1TB NVMe PCIe 4.0固態(tài)
顯卡:索泰 GeForce RTX 5090D 32GB SOLID OC
電源:PHANTEKS AMP 金牌 1000W
系統(tǒng)版本:Windows 11 Professional 24H2
大模型:DeepSeek-R1 70B
實(shí)測(cè)之下,固態(tài)硬盤對(duì)DeekSeek這類大模型的影響主要在推理時(shí)間、加載速度等方面,并且影響非常大!
金士頓 KC3000 2TB NVMe PCIe 4.0固態(tài)
金士頓 KC3000系列是旗艦級(jí)固態(tài)硬盤,擁有2GB獨(dú)立緩存、讀速度超過(guò)7000MB/s;
Diskmark實(shí)測(cè),金士頓 KC3000 2TB讀速度為7040.28MB/s,寫速度也達(dá)到了6851.90MB/s,并且4K讀寫性能也十分出色;
接下來(lái)自然是DeepSeek測(cè)試,這里統(tǒng)一使用DeepSeek-R1 70B部署,前端為Cherry Studio,問(wèn)題為“請(qǐng)規(guī)劃一個(gè)5日北京游攻略,避開(kāi)需要預(yù)約的景點(diǎn),注意合理性”,金士頓 KC3000 2TB推理用時(shí)109.8秒,這個(gè)成績(jī)是本次測(cè)試中表現(xiàn)最好的。正如前面所言,固態(tài)硬盤性能對(duì)大模型推理、加載時(shí)間影響巨大;
Proycyon AI Text Generation Benchmark下,PHI 3.5的得分為5203、平均OTS為323.4 tokens/s、加載時(shí)間1.22s;Mistral 7B的得分為5904分、平均OTS為268.94 tokens/s、加載時(shí)間1.93s;LLA AMA 3.1的得分為6619分、平均OTS為222.21 tokens/s、加載時(shí)間2.52s;LLAMA 2得分為6368分、平均OTS為137.15 tokens/s、加載時(shí)間3.32s;
金士頓 NV3 1TB NVMe PCIe 4.0固態(tài)
金士頓 NV3 1TB算是性價(jià)比產(chǎn)品中的“異類”,通常這個(gè)級(jí)別產(chǎn)品的讀速度都是5000MB/s的水平,NV3卻可以達(dá)到6000MB/s,接近旗艦級(jí)產(chǎn)品;
Diskmark中可以看到無(wú)緩存設(shè)計(jì)的金士頓 NV3 1TB擁有相當(dāng)不錯(cuò)的讀寫性能,尤其4K性能非常亮眼;
使用金士頓NV3 1TB時(shí)DeepSeek推理用時(shí)為156.1秒,顯而易見(jiàn)固態(tài)硬盤性能會(huì)影響推理速度;
Proycyon AI Text Generation Benchmark下,PHI 3.5的得分為5118、平均OTS為323.69 tokens/s、加載時(shí)間1.9s;Mistral 7B的得分為5684分、平均OTS為267.34 tokens/s、加載時(shí)間2.91s;LLA AMA 3.1的得分為6450分、平均OTS為220.86 tokens/s、加載時(shí)間4.21s;LLAMA 2得分為6181分、平均OTS為136.81 tokens/s、加載時(shí)間5.43s;
建興 SSSTC CL5-8D1024 1TB NVMe PCIe 4.0固態(tài)
建興 SSSTC CL5-8D1024 1TB支持NVMe協(xié)議,采用PCIe 4.0規(guī)格無(wú)緩存設(shè)計(jì),速度讀為3500MB/s;
作為“基本款”固態(tài)硬盤,它的讀寫速度都是入門級(jí)別產(chǎn)品的水準(zhǔn);
完全一致的平臺(tái)只因?yàn)閾Q了固態(tài)硬盤,DeepSeek推理用時(shí)就達(dá)到了294.2秒,對(duì)比前兩者尾燈都看不到;
Proycyon AI Text Generation Benchmark下,PHI 3.5的得分為5351、平均OTS為327.49 tokens/s、加載時(shí)間2.03s;Mistral 7B的得分為5965分、平均OTS為272.41 tokens/s、加載時(shí)間3.32s;LLA AMA 3.1的得分為6613分、平均OTS為224.55 tokens/s、加載時(shí)間5.3s;LLAMA 2得分為6380分、平均OTS為137.75 tokens/s、加載時(shí)間5.91s;
所以我們用DeepSeek總結(jié)一下:
在DeepSeek推理用時(shí)部分,金士頓 KC3000 2TB比建興 SSSTC CL5-8D1024 1TB 快了約 62.67%;而金士頓 NV3 1TB比建興 SSSTC CL5-8D1024 1TB快了約46.94%;
在Procyon測(cè)試中本地大模型的加載速度上,旗艦款金士頓KC3000 2TB的加載耗時(shí)比建興 SSSTC CL5-8D1024 1TB分別快了39.90%, 42.17%, 52.45%, 43.82%;金士頓NV3 1TB則比建興 SSSTC CL5-8D1024 1TB加載耗時(shí)分別快了6.40%、12.35%、20.57%、8.12%,這么驚人的差距其實(shí)在測(cè)試前也未是沒(méi)有想到的。
顯然,無(wú)論是內(nèi)存還是固態(tài)硬盤,它們對(duì)DeepSeek這類本地部署的AI大模型有著至關(guān)重要的性能影響力,所以千萬(wàn)不要認(rèn)為只要CPU+GPU搭配得當(dāng)就萬(wàn)事大吉,內(nèi)容容量+固態(tài)硬盤讀寫性能也是不可忽略的。尤其是固態(tài)硬盤部分,通過(guò)對(duì)比,諸如金士頓KC3000這樣的旗艦級(jí)PCIE 4.0固態(tài)硬盤在部署DeepSeek時(shí),它的性能對(duì)大模型推理速度非常重要;即便是看中性價(jià)比的金士頓NV3,它也能對(duì)DeepSeek施加超乎想象的正向影響。另外,在部署AI本地模型的PC上,別相信四條插滿的內(nèi)存影響性能,擴(kuò)容才是第一要?jiǎng)?wù)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.