DeepSeek的火爆極大促進(jìn)了大語(yǔ)言模型在千行百業(yè)的落地。
首先是有了使用的信心。DeepSeek-R1推理模型已經(jīng)擁有6710億參數(shù)規(guī)模,符合“參數(shù)越多越智能”的認(rèn)知,而且有實(shí)際測(cè)試表現(xiàn)和廣泛的使用反饋?zhàn)鳛樽糇C,讓大家相信這個(gè)開源模型已經(jīng)足夠好了。其次是完全開源,不論是直接使用,還是用作基礎(chǔ)模型進(jìn)一步微調(diào)、后訓(xùn)練,都沒(méi)有法律風(fēng)險(xiǎn)。其三是豐儉由人,提供了671B全量模型,以及覆蓋70B、32B、7B等不同規(guī)模的蒸餾模型,還有若干低秩量化版本,可以滿足不同推理質(zhì)量和算力資源的要求。
模型開源,獨(dú)享更香
應(yīng)用的熱情盤活了大大小小云廠商的算力資源,隨著公開的DeepSeek服務(wù)紛紛癱瘓,連付費(fèi)客戶都大受影響。公有云“掉鏈子”引發(fā)的群體焦慮進(jìn)一步催生了私有化部署的熱潮:云廠商積極打包算力和服務(wù),主打低門檻和彈性;硬件廠商紛紛推出各式“推理一體機(jī)”,開箱即用。
自持資源的可及性、可靠性是私有化部署的重要原因,但更長(zhǎng)遠(yuǎn)地看,根本原因還是數(shù)據(jù)隱私與法規(guī)的要求。姑且不說(shuō)公有云服務(wù)商在用戶協(xié)議中的霸王條款,即使是私有云也會(huì)面臨數(shù)據(jù)上傳外網(wǎng)的合規(guī)限制。
利用大模型審查商業(yè)合同、法律文書,對(duì)病歷、科研數(shù)據(jù)進(jìn)行總結(jié),都能明顯節(jié)省時(shí)間,但恰恰都面臨隱私和法律風(fēng)險(xiǎn)。對(duì)于這類需求,在本地部署DeepSeek推理一體機(jī)是一個(gè)很好的選擇,而且,門檻并不高。
基于英特爾至強(qiáng)W處理器、2~4塊GPU卡構(gòu)建的推理一體機(jī),預(yù)算在十萬(wàn)元左右,便可以支持?jǐn)?shù)十人并發(fā)使用的需求,滿足中小型企業(yè)全員上AI的需求。
如何構(gòu)建高性價(jià)比算力底座
英特爾至強(qiáng)W是單路處理器,采用全大核、大緩存的架構(gòu),可以提供多達(dá)60核、112.5MB L3緩存(W9-3595X),睿頻加速可達(dá)4.8GHz,甚至部分后綴為X的型號(hào)還可以進(jìn)一步超頻。
對(duì)于推理一體機(jī),至強(qiáng)W的高擴(kuò)展性得到了充分發(fā)揮。它支持8通道內(nèi)存,內(nèi)存容量可以達(dá)到4TB;112條PCIe 5.0通道,可以配置4到7塊高性能GPU卡,不但可以加載較大參數(shù)規(guī)模的模型,還可以提供可擴(kuò)展的吞吐量。
以搭配英特爾Arc A770 16GB卡為例,單卡已經(jīng)可以部署7~14B蒸餾模型;雙卡可以部署32B蒸餾模型;4卡即可使32B蒸餾模型的推理輸出達(dá)到500~800 Tokens/s的水平。在中文環(huán)境下,每個(gè)Token相當(dāng)于0.75~1.8個(gè)漢字。以500Tokens/s、每Token對(duì)應(yīng)1個(gè)漢字計(jì),這就相當(dāng)于每分鐘輸出3萬(wàn)漢字。這個(gè)輸出能力足夠滿足20到50人的并發(fā)請(qǐng)求。
這里以部署DeepSeek-R1-32B為目標(biāo),是因?yàn)檫@個(gè)規(guī)模的蒸餾模型已經(jīng)在多數(shù)測(cè)試項(xiàng)目中超過(guò)了OpenAI-o1-mini,在實(shí)踐中也證明可以比較高質(zhì)量地完成長(zhǎng)文本處理、代碼生成等任務(wù)。以審查合同、會(huì)議紀(jì)要為代表的嚴(yán)肅工作可以交由部署32B大模型的一體機(jī)完成,而不再需要擔(dān)心隱私泄露甚至違法的風(fēng)險(xiǎn)。
如果搭配24GB顯存的加速卡,還可以部署70B蒸餾模型,吞吐量以千計(jì),部分顯存位寬較大的卡可以達(dá)到2000Tokens/s以上,完全能夠滿足百人量級(jí)的同時(shí)使用需求。70B模型可以完成長(zhǎng)文本生成、創(chuàng)意輔助等高質(zhì)量的工作。另外,較大的顯存容量除了可以部署一個(gè)較大規(guī)模的模型,也可以實(shí)現(xiàn)在一體機(jī)內(nèi)部署多個(gè)不同規(guī)模、不同特點(diǎn)的中小型模型,以滿足不同類型用戶的需求。
值得一提的是,借助KTransformer為代表的開源大語(yǔ)言模型推理優(yōu)化框架,基于至強(qiáng)W的推理一體機(jī)還可以運(yùn)行“滿血版”的DeepSeek-R1,以支持對(duì)推理精度要求最高的任務(wù)。這類優(yōu)化框架可以讓GPU和CPU共同分擔(dān)計(jì)算任務(wù),并將一部分模型參數(shù)放置在容量較大的主內(nèi)存。以使用單條96GB DDR5 RDIMM為例,至強(qiáng)W的八個(gè)內(nèi)存通道可以實(shí)現(xiàn)768GB的內(nèi)存容量和307GB/s的內(nèi)存帶寬,獨(dú)立部署FP8精度的DeepSeek-R1 671B完全沒(méi)有問(wèn)題,更不用說(shuō)Q4、Q2量化版本了。
隨著KTransformer這類優(yōu)化框架的不斷開發(fā),還有機(jī)會(huì)進(jìn)一步發(fā)揮至強(qiáng)W內(nèi)置的AMX(Advanced Matrix Extension)加速器的優(yōu)勢(shì),進(jìn)一步提升推理吞吐量。至強(qiáng)W-2400/3400正式開始引入AMX,可以每個(gè)時(shí)鐘周期內(nèi)進(jìn)行2048次并行運(yùn)算,在神經(jīng)網(wǎng)絡(luò)推理、機(jī)器學(xué)習(xí)當(dāng)中已經(jīng)展現(xiàn)了不錯(cuò)的實(shí)用性。
產(chǎn)品案例
根據(jù)并發(fā)用戶數(shù)、模型規(guī)模,可以配置不同的CPU內(nèi)核數(shù)量和GPU顯存容量,以滿足各種類型用戶、不同場(chǎng)景的需求。
- 至強(qiáng)W5+2×Arc A770方案:可部署14B蒸餾模型提供文檔識(shí)別、智能問(wèn)答等服務(wù)。如果部署32B蒸餾模型,可為20人以內(nèi)的部門、小型企業(yè)提供較高質(zhì)量的、不太頻繁的文本服務(wù),譬如合同審查等。隨著應(yīng)用需求提升,用戶也可進(jìn)一步升級(jí)為四卡配置。
- 至強(qiáng)W5+4×Arc A770方案:建議部署32B蒸餾模型,由于處理能力和顯存充裕,推理批次可以大幅提升,速度達(dá)520~780 Token/s,可以滿足上百人規(guī)模的中小型企業(yè)使用,可以用于涉及大量文檔檢索、歸納整理之類的知識(shí)管理型的工作,以及代碼輔助等場(chǎng)景。
- 至強(qiáng)W7+4×ArcA770方案:增加CPU的內(nèi)核數(shù)量,以支持?jǐn)?shù)百人規(guī)模企業(yè),并發(fā)處理30~50個(gè)用戶請(qǐng)求,適用于醫(yī)療、律所等專業(yè)文書的分析、生成場(chǎng)景。
- 至強(qiáng)W9+96GB顯存方案:96GB顯存可以通過(guò)6塊Arc A770,或4塊其他24GB顯存的加速卡構(gòu)成。這樣的配置支持70B參數(shù)模型部署,吞吐量可以達(dá)到1500~2400 Tokens/s,可以滿足中、大型企業(yè)內(nèi)多個(gè)部門高質(zhì)量、高吞吐、高并發(fā)的需求,可以用于知識(shí)圖譜、長(zhǎng)文本生成等場(chǎng)景。
目前寶德、超云、長(zhǎng)城、倍聯(lián)德、昱格、智微智能等多家廠商已推出基于至強(qiáng)W處理器+四卡的DeepSeek一體機(jī)。一體機(jī)搭配多種蒸餾模型的應(yīng)用落地,已經(jīng)獲得上下游廠商和用戶的共同驗(yàn)證,日臻成熟。
基于Xeon W高效部署滿血版DeepSeek-R1模型的工作也在不斷進(jìn)行,敬請(qǐng)期待
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.