網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

十萬(wàn)預(yù)算部署DeepSeek一體機(jī)，靠不靠譜？

2025-03-20 17:22:31　來(lái)源: DT Value

北京舉報(bào)

分享至

DeepSeek的火爆極大促進(jìn)了大語(yǔ)言模型在千行百業(yè)的落地。

首先是有了使用的信心。DeepSeek-R1推理模型已經(jīng)擁有6710億參數(shù)規(guī)模，符合“參數(shù)越多越智能”的認(rèn)知，而且有實(shí)際測(cè)試表現(xiàn)和廣泛的使用反饋?zhàn)鳛樽糇C，讓大家相信這個(gè)開源模型已經(jīng)足夠好了。其次是完全開源，不論是直接使用，還是用作基礎(chǔ)模型進(jìn)一步微調(diào)、后訓(xùn)練，都沒(méi)有法律風(fēng)險(xiǎn)。其三是豐儉由人，提供了671B全量模型，以及覆蓋70B、32B、7B等不同規(guī)模的蒸餾模型，還有若干低秩量化版本，可以滿足不同推理質(zhì)量和算力資源的要求。

模型開源，獨(dú)享更香

應(yīng)用的熱情盤活了大大小小云廠商的算力資源，隨著公開的DeepSeek服務(wù)紛紛癱瘓，連付費(fèi)客戶都大受影響。公有云“掉鏈子”引發(fā)的群體焦慮進(jìn)一步催生了私有化部署的熱潮：云廠商積極打包算力和服務(wù)，主打低門檻和彈性；硬件廠商紛紛推出各式“推理一體機(jī)”，開箱即用。

自持資源的可及性、可靠性是私有化部署的重要原因，但更長(zhǎng)遠(yuǎn)地看，根本原因還是數(shù)據(jù)隱私與法規(guī)的要求。姑且不說(shuō)公有云服務(wù)商在用戶協(xié)議中的霸王條款，即使是私有云也會(huì)面臨數(shù)據(jù)上傳外網(wǎng)的合規(guī)限制。

利用大模型審查商業(yè)合同、法律文書，對(duì)病歷、科研數(shù)據(jù)進(jìn)行總結(jié)，都能明顯節(jié)省時(shí)間，但恰恰都面臨隱私和法律風(fēng)險(xiǎn)。對(duì)于這類需求，在本地部署DeepSeek推理一體機(jī)是一個(gè)很好的選擇，而且，門檻并不高。

基于英特爾至強(qiáng)W處理器、2~4塊GPU卡構(gòu)建的推理一體機(jī)，預(yù)算在十萬(wàn)元左右，便可以支持?jǐn)?shù)十人并發(fā)使用的需求，滿足中小型企業(yè)全員上AI的需求。

如何構(gòu)建高性價(jià)比算力底座

英特爾至強(qiáng)W是單路處理器，采用全大核、大緩存的架構(gòu)，可以提供多達(dá)60核、112.5MB L3緩存（W9-3595X），睿頻加速可達(dá)4.8GHz，甚至部分后綴為X的型號(hào)還可以進(jìn)一步超頻。

對(duì)于推理一體機(jī)，至強(qiáng)W的高擴(kuò)展性得到了充分發(fā)揮。它支持8通道內(nèi)存，內(nèi)存容量可以達(dá)到4TB；112條PCIe 5.0通道，可以配置4到7塊高性能GPU卡，不但可以加載較大參數(shù)規(guī)模的模型，還可以提供可擴(kuò)展的吞吐量。

以搭配英特爾Arc A770 16GB卡為例，單卡已經(jīng)可以部署7~14B蒸餾模型；雙卡可以部署32B蒸餾模型；4卡即可使32B蒸餾模型的推理輸出達(dá)到500~800 Tokens/s的水平。在中文環(huán)境下，每個(gè)Token相當(dāng)于0.75~1.8個(gè)漢字。以500Tokens/s、每Token對(duì)應(yīng)1個(gè)漢字計(jì)，這就相當(dāng)于每分鐘輸出3萬(wàn)漢字。這個(gè)輸出能力足夠滿足20到50人的并發(fā)請(qǐng)求。

這里以部署DeepSeek-R1-32B為目標(biāo)，是因?yàn)檫@個(gè)規(guī)模的蒸餾模型已經(jīng)在多數(shù)測(cè)試項(xiàng)目中超過(guò)了OpenAI-o1-mini，在實(shí)踐中也證明可以比較高質(zhì)量地完成長(zhǎng)文本處理、代碼生成等任務(wù)。以審查合同、會(huì)議紀(jì)要為代表的嚴(yán)肅工作可以交由部署32B大模型的一體機(jī)完成，而不再需要擔(dān)心隱私泄露甚至違法的風(fēng)險(xiǎn)。

如果搭配24GB顯存的加速卡，還可以部署70B蒸餾模型，吞吐量以千計(jì)，部分顯存位寬較大的卡可以達(dá)到2000Tokens/s以上，完全能夠滿足百人量級(jí)的同時(shí)使用需求。70B模型可以完成長(zhǎng)文本生成、創(chuàng)意輔助等高質(zhì)量的工作。另外，較大的顯存容量除了可以部署一個(gè)較大規(guī)模的模型，也可以實(shí)現(xiàn)在一體機(jī)內(nèi)部署多個(gè)不同規(guī)模、不同特點(diǎn)的中小型模型，以滿足不同類型用戶的需求。

值得一提的是，借助KTransformer為代表的開源大語(yǔ)言模型推理優(yōu)化框架，基于至強(qiáng)W的推理一體機(jī)還可以運(yùn)行“滿血版”的DeepSeek-R1，以支持對(duì)推理精度要求最高的任務(wù)。這類優(yōu)化框架可以讓GPU和CPU共同分擔(dān)計(jì)算任務(wù)，并將一部分模型參數(shù)放置在容量較大的主內(nèi)存。以使用單條96GB DDR5 RDIMM為例，至強(qiáng)W的八個(gè)內(nèi)存通道可以實(shí)現(xiàn)768GB的內(nèi)存容量和307GB/s的內(nèi)存帶寬，獨(dú)立部署FP8精度的DeepSeek-R1 671B完全沒(méi)有問(wèn)題，更不用說(shuō)Q4、Q2量化版本了。

隨著KTransformer這類優(yōu)化框架的不斷開發(fā)，還有機(jī)會(huì)進(jìn)一步發(fā)揮至強(qiáng)W內(nèi)置的AMX（Advanced Matrix Extension）加速器的優(yōu)勢(shì)，進(jìn)一步提升推理吞吐量。至強(qiáng)W-2400/3400正式開始引入AMX，可以每個(gè)時(shí)鐘周期內(nèi)進(jìn)行2048次并行運(yùn)算，在神經(jīng)網(wǎng)絡(luò)推理、機(jī)器學(xué)習(xí)當(dāng)中已經(jīng)展現(xiàn)了不錯(cuò)的實(shí)用性。

產(chǎn)品案例

根據(jù)并發(fā)用戶數(shù)、模型規(guī)模，可以配置不同的CPU內(nèi)核數(shù)量和GPU顯存容量，以滿足各種類型用戶、不同場(chǎng)景的需求。

至強(qiáng)W5+2×Arc A770方案：可部署14B蒸餾模型提供文檔識(shí)別、智能問(wèn)答等服務(wù)。如果部署32B蒸餾模型，可為20人以內(nèi)的部門、小型企業(yè)提供較高質(zhì)量的、不太頻繁的文本服務(wù)，譬如合同審查等。隨著應(yīng)用需求提升，用戶也可進(jìn)一步升級(jí)為四卡配置。
至強(qiáng)W5+4×Arc A770方案：建議部署32B蒸餾模型，由于處理能力和顯存充裕，推理批次可以大幅提升，速度達(dá)520~780 Token/s，可以滿足上百人規(guī)模的中小型企業(yè)使用，可以用于涉及大量文檔檢索、歸納整理之類的知識(shí)管理型的工作，以及代碼輔助等場(chǎng)景。
至強(qiáng)W7+4×ArcA770方案：增加CPU的內(nèi)核數(shù)量，以支持?jǐn)?shù)百人規(guī)模企業(yè)，并發(fā)處理30~50個(gè)用戶請(qǐng)求，適用于醫(yī)療、律所等專業(yè)文書的分析、生成場(chǎng)景。
至強(qiáng)W9+96GB顯存方案：96GB顯存可以通過(guò)6塊Arc A770，或4塊其他24GB顯存的加速卡構(gòu)成。這樣的配置支持70B參數(shù)模型部署，吞吐量可以達(dá)到1500~2400 Tokens/s，可以滿足中、大型企業(yè)內(nèi)多個(gè)部門高質(zhì)量、高吞吐、高并發(fā)的需求，可以用于知識(shí)圖譜、長(zhǎng)文本生成等場(chǎng)景。

目前寶德、超云、長(zhǎng)城、倍聯(lián)德、昱格、智微智能等多家廠商已推出基于至強(qiáng)W處理器+四卡的DeepSeek一體機(jī)。一體機(jī)搭配多種蒸餾模型的應(yīng)用落地，已經(jīng)獲得上下游廠商和用戶的共同驗(yàn)證，日臻成熟。

基于Xeon W高效部署滿血版DeepSeek-R1模型的工作也在不斷進(jìn)行，敬請(qǐng)期待

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.