前情提要
在今年Deepseek爆火的時候,我們花了兩篇文章來講解Deepseek的部署教程和部署Deepseek的一些方案。
時至今日,各位還有對Deepseek的使用熱情嘛?事實證明能留下來愿意看這篇文章的,基本都真的是有需求本地部署的人。那么今天我就把剩下目前我認(rèn)為最有性價比的70B部署方案分享給大家。順便也把一些有用的工具放給各位。
如果你還不會部署Deepseek,那么請戳下面圖片跳轉(zhuǎn)教程:
如果你想用純CPU來部署完整版的Deepseek,可戳以下圖片跳轉(zhuǎn)教程:
時至今日
在之前的教程里,我們已經(jīng)聊了部署完整Deepseek 671B的教程,也談及未來要部署70B的想法。時至今日,部署671B或者70B Deepseek還有意義嗎?
嚴(yán)格意義來說,671B的意義已經(jīng)小了很多了,而70B等更小的模型反倒顯得越來越有市場。自Deepseek把AI模型部署的門檻打下來之后,越來越多小模型誕生,比如谷歌的Gemma 3 28B,阿里的Qwen3 238B。這些模型不僅兼顧了準(zhǔn)度,還能提供了更小的部署體積。
因此我認(rèn)為,各位也沒必要一股腦地追求部署超大模型,只要中國的AI產(chǎn)業(yè)能繼續(xù)蓬勃發(fā)展,準(zhǔn)備好64GB-128GB以內(nèi)的空間,未來我們應(yīng)該會有更多更優(yōu)秀的模型使用。當(dāng)然,如果你覺得準(zhǔn)備一個肌肉感十足的電腦隨時應(yīng)對部署,也可以。畢竟有一臺放著十幾塊旗艦顯卡的電腦確實很酷。
我認(rèn)為最有性價比的部署平臺
其實說實話,雖然說是“最優(yōu)性價比”,但是性價比來的有風(fēng)險。不久前,NVIDIA決定CUDA 12.9將停止支持Maxwell/Volta/Pascal系列顯卡。
這也意味著從GTX 900到GTX 10系列顯卡都將不會有新的技術(shù)支持,GTX家族即將徹底退出歷史舞臺。而恰巧目前有性價比的顯卡正是這些即將退出歷史的顯卡。那既然如此,我還是分為長久配置和長期使用不改的配置來推薦。當(dāng)然,有難點的地方我也會做好教程,各位自行選擇。
部署模型:任意70B或以下模型
部署顯卡數(shù)量:低于4張(優(yōu)選3卡+1亮機(jī),可用7槽主板)
平臺特點:優(yōu)先顯卡運行。
平臺選擇
CPU:
CPU選擇方面是跟主板的,只要能提供多一點PCIe通道都可以。那首選就是E5起步了。兩個方向,一個是單核高,換來更快的模型加載速度,一個是內(nèi)存速度快,換更快的長期使用交換時間。因此如果是前者,推薦E5 V3系列的CPU(如E5-2698BV3),后者則是選擇E5 V4(E5-2683 V4),保證內(nèi)存頻率支持更高。目前大部分E5 CPU都在百元不等。隨意選擇。
有人說為什么不選擇線程撕裂者呢?一個是主板不好找,而是故障率真的高,動不動少根內(nèi)存支持,特別煩。我建議有耐心的人折騰。
主板:
CPU固定,主板自然是跟著一套的,目前很多X99/C612主板價格都很便宜。只要支持4卡雙槽交火的都可以選擇。X99-E WS自帶PLX芯片,所以PCIE傳輸上不用吃CPU通道少的虧。當(dāng)然你也可以選擇寨板,就是寨板的支持如何就不好說了。
內(nèi)存:
同理,目前DDR4 ECC REG 32G內(nèi)存和部分比較雜牌的DDR4 32G內(nèi)存價格差距不大,一個200,一個基本250-300出頭。選了ECC的話,四根雖然省下400塊錢,但是要選擇一個四卡交火的C612主板,價格不是貴的一點點。雖然說缺少ECC,但是從實際使用來看,大部分電腦真的隨隨便便用幾個月不關(guān)機(jī)沒什么大故障。
當(dāng)然,ECC更多的功能是糾正小錯誤避免雪崩效應(yīng)。但我個人為,如果你只是像我一樣是家用級別,需求其實和一臺家庭NAS差不多,如果你給自己的家庭NAS上了ECC,那就推薦ECC,如果不是,就和我家里兩臺NAS一樣都是無ECC平臺吧!
其余產(chǎn)品:
機(jī)箱隨意(ATX 7槽即可),散熱隨意,硬盤1T起步,電源推薦1000W以上。如果你多人使用,需要部署多種模型,那推薦1200W以上。因為大部分單模型情況下只有單卡在運行。所以不需要太高級的電源。全新電源可以找JD拉最低價格,也可以咸魚找礦龍礦鑫谷等。不需要支持最新技術(shù),反正大部分都是8PIN,記得保證至少有6個8Pin就行。
前期平臺成本:
CPU:122
主板:841.96
內(nèi)存:253.81*4
主硬盤:300(1T任選)
散熱:50(風(fēng)冷淘寶任選)
電源:509
附屬亮機(jī)卡:40(R5-240,還帶DP)
ATX機(jī)箱:150(任選)
合計:3028.2
①:性價比最高的配置
Radeon Instinct MI系列是AMD的計算卡。目前市面上唯一流通最廣泛的是MI50系列。這張卡采用的是與AMD Radeon VII(鐳7)同款核心。因此必然在礦場內(nèi)血戰(zhàn)過。現(xiàn)如今從哥布林洞解放,又要負(fù)責(zé)給人跑AI和澀圖,真是太殘忍了。這也造就了這張卡的價格低廉。咸魚大部分只要600出頭甚至更低,+40一個風(fēng)扇640搞定。淘寶其實和咸魚類似,只是多了幾個月保修。三張卡那么只需要2000以內(nèi)就可以搞定,搭配先前主機(jī),5000完成70B最有性價比的主機(jī)配置搭建。
MI50和NVIDIA的計算卡不同,自帶一個MINI DP接口,外加繼承了AMD特有的刷BIOS改卡宿命,因此可以通過刷BIOS改成Radeon PRO VII,實現(xiàn)計算卡到專業(yè)卡的改名,輸出視頻。因此對于想要在Windows環(huán)境下使用的用戶來說非常友好,還能省下一張亮機(jī)卡(因為只要三卡,極限下還可以換掉主板,還能便宜幾百塊) 。
MI50目前分為兩個版本,一個是真正的MI50(左),一個是Radeon VII套殼成的MI50(右)。嚴(yán)格意義來說,兩張卡都可以是MI50,但是前者帶ECC,刷BIOS比較麻煩,后者因為不帶ECC,所以可以隨時刷BIOS改卡。
Windows下使用
如何刷BIOS:
https://m.bilibili.com/video/BV1Hh4y1m72q
這里我們直接看已有的教程,避免重復(fù)造輪子。
工具包:
https://pan.baidu.com/s/1wM5EZ21kaX7eHsA-9qWNEw?pwd=MI50 提取碼: MI50
當(dāng)然,如果你看B站現(xiàn)在有很多人教你甚至不用刷BIOS在Windows使用,這些我認(rèn)為屬于炫技,或者說在Windows上使用本身就叫抽象。因此我就不多贅述這里相關(guān)的內(nèi)容了。
Linux下使用
相比較之下,Linux使用就需要點技巧。那么這里就假定你至少會使用一點Linux,能寫,能看懂點簡單的腳本,會用Console操作。那么我也已經(jīng)做好了腳本,大家自行通過腳本內(nèi)的內(nèi)容進(jìn)行切分提取然后運行就行。核心的驅(qū)動安裝部分就一個部分,其他都是功能性安裝。建議搭配先前Ollama Linux安裝一起服用。
https://pan.baidu.com/s/1lz0GKRpK-2aR7ev4CJq2CA?pwd=MI50 提取碼: MI50
AMD版本的NVIDIA-SMI:amdgpu-top(可以用apt-get安裝)
①.5:性價比最高的配置額外版
如果你在前面搜索了MI50,肯定可以看到有一張MI50 32G版。嚴(yán)格意義來說,MI50 32G版的性價比更高,目前大部分都是950-1000多點出頭。而且同價格能多給你16G顯存,不要白不要。但這張卡帶顯示輸出的版本還沒有比較好的研究思路,大部分都是只能強(qiáng)刷為Radeon Pro Vega II,雖然說這些卡核心相同,但是啟動的SP數(shù)量不同。因此在Windows上刷還是需要點技術(shù)。但如果你在Linux上使用就沒有任何顧慮了。直接用原版BIOS啟動安裝,搭配亮機(jī)卡不需要做任何更改。我建議是用Linux就32G性價比高,如果想要Windows兼顧一點游戲能力或者別的能力,就16G吧。
②:性價比不高但通用版本
如果想要更通用,那毫無疑問只能選擇NVIDIA了。相比之下NVIDIA的問題就少很多,無論是在Windows還是Linux上,驅(qū)動都是現(xiàn)成的。甚至都會自動幫你打驅(qū)動,因此就是多花錢少辦事的環(huán)節(jié)。
那么選擇來說,P100 16G就是最好的選擇。雖然說性能比MI50差了不止一點點,顯存也小。但好在CUDA生態(tài)中,只要12.9版本還沒推出,新軟件沒光速更新,那么都還能使用。
當(dāng)然你會聽到最近很多說V100不到600的宣傳。事實是這些V100都是SMX版本。
如果你想要轉(zhuǎn)接到正常的PCI-E版,不僅需要買轉(zhuǎn)接卡,還需要定制散熱。一般老版現(xiàn)成的套件價格在1000以上,算下來單卡成本已經(jīng)1600了。而目前還有一批開源方案,從原來的70已經(jīng)漲到260了。還是不帶散熱需要額外定做散熱的方案。就算以目前能見到的公版散熱為例,也要200塊。然后加上改裝,人工和耗時,算100-200工本費,可能也要在1200-1300。對比P100好了不少,但是性能收益還是不及MI50。只能說有點本末倒置了。還是期待CUDA 12.9真的下放之后,大批的V100,P100流入市場吧。
③:性價比很低但在當(dāng)前環(huán)境下最通用的版本
其實這個答案很明顯了,目前為了保證通用性,最好的就是RTX 2080 Ti 22G版。但這里提供一個可能也不錯的選擇,就是TITAN RTX。畢竟雙卡44G給70B模型很吃緊,雙卡48G就會好點。
目前TITAN RTX咸魚已經(jīng)跌倒3500了。論信仰來說非常不錯。性能也比RTX 2080 Ti強(qiáng)一點。而且TITAN的支持會比Geforce卡長一點,算是后期就算賣也不會虧太多的選擇。
不算很準(zhǔn)但好用的顯卡性價比表
最后,這里放上一個我做的顯卡性價比表。表格中包含了從Maxwell到RTX 30系的理論性能(Token/s)、所需顯卡數(shù)量、合計價格和性價比系數(shù)(越高越好)。
(小程序打開完整版)
最后
這大概會是最后一篇AI部署相關(guān)內(nèi)容的文章了,除非以后又有新的內(nèi)容,不然大概就這樣了。至于各路什么KT,vLLM優(yōu)化顯存,稀疏模型轉(zhuǎn)稠密之類的技術(shù),還是等他們實際應(yīng)用到常見的軟件之后再說吧。如果還有什么新內(nèi)容更新,我們再聊,拜拜ヾ(?ω?`)o。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.