網易首頁 > 網易號 > 正文申請入駐

榨干3000元顯卡，跑通千億級大模型的秘方來了

2025-04-14 17:48:01　來源: 量子位

北京舉報

分享至

金磊夢晨發自凹非寺
量子位 | 公眾號 QbitAI

書接上回，用幾塊3000元顯卡作為加速主力的一體機，就能跑通671B的DeepSeek。

放在個把月前，你敢想象這樣的場景么？

正在埋頭苦干，希望有更多樣化產品交付的一體機廠商們，pick英特爾銳炫? 顯卡 + 至強? W 處理器這套組合拳，首要原因就是它的成本確實誘人——基本算是砍掉了一個數量級（下線可以控制在10萬元以內）。

其次就是這套組合也很能打，上面那個場景就是它目前的“標桿式”戰績。

這兩點加起來就是“真香”定律的復現。

但別光說不練，這種極具性價比的一體機實測的體感到底如何呢？

帶著這個問題，我們直接上手親自測試了一波。

例如我們先用QwQ-32B離線狀態下問了個經典題目：

9.9和9.11哪個大？

視頻地址：https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

從效果上來看，若是單人使用，一體機的速度已經達到了32 tokens/s。

講真，這個速度在體感上已經是非常OK了。

而且這還不是個偶然事件，在同樣的情況下，我們再問一個問題：

一個外星人來到地球后等可能選擇以下四件事中的一件完成：
1，自我毀滅；
2，分裂成兩個外星人；
3，分裂成三個外星人；
4，什么都不做。
此后每天，每個外星人均會做一次選擇，且彼此之間相互獨立。
求地球上最終沒有外星人的概率。

視頻地址：https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

同樣的，我們可以看到輸出速度依舊是非常的快。

而當同時使用人數增加時，我們做了初步的計算，其每秒tokens的速度大概是這樣的：

那么如果是地獄難度的671B DeepSeek R1，結果又會如何呢？

畢竟即便是Q4量化版本，以往承載它的一體機成本動輒就要達到200萬元。

請聽題：

一個漢字具有左右結構，左邊是木，右邊是乞。這個字是什么？只需回答這個字即可。

視頻地址：https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

如此大體量的大模型，這種10萬元級別的一體機依然可以達到10 tokens/s的速度。

雖然體感上會覺得稍慢一些，但夠用卻是真的。

而且有一說一，輸出速度夠快、時延夠低、性價比夠高，還只是這種英特爾架構一體機的優點的一隅。

在它的背后，還有易部署、易操作等特點。

那么為何基于英特爾的一體機可以做到如此物美價廉？

價低質優的一體機，是如何煉就的？

正如我們剛才提到的，10萬級別的一體機能有如此實用質感，其關鍵就是英特爾的組合拳：

銳炫? 顯卡 + 至強? W 處理器。

首先我們來看下這張英特爾銳炫? 顯卡。

它是英特爾專門為AI和圖形處理打造的高性能顯卡，不僅游戲表現亮眼，在AI推理、視頻處理這些專業領域也很能打。

銳炫? 顯卡采用了最新的Xe 架構，內置XMX AI加速引擎，提供強大的AI加速能力，支持Ollama和vLLM serving等多種大模型主流框架，跑大模型推理可以說是完全沒有壓力。

而且它還支持TensorFlow、PyTorch這些主流AI框架，搭配OpenVINO? 工具套件還能進一步優化性能，讓AI任務跑得更快、更省資源。

銳炫? 顯卡還有一個特點，就是特別適合邊緣計算——

銳炫? 顯卡針對邊緣計算場景優化，提供低功耗（110-150瓦）和小尺寸選項，支持PCIe Gen 4接口，并為邊緣應用場景承諾五年產品供應和軟件支持。

也正像剛才展示的那樣，比如DeepSeek、Qwen這些開源模型，銳炫?顯卡能輕松搞定，尤其是支持多卡并聯，2卡、4卡甚至8卡都能配，性能直接起飛。

而且裝載它的一體機不僅僅能作為AI或大模型一體機來使用，有需求時還能用來執行視頻分析、8K視頻編解碼、3D渲染這些高負載任務，一機多用，性價比超高。

除了顯卡之外，至強? W 處理器，這塊適用于工作站和AI一體機“性能怪獸”CPU，也是一個關鍵點。

從算力層面來看，它最高60核的配置，搭配DDR5-4800內存和TB級內存擴展，跑大模型、做數據處理都游刃有余。

它內置的AMX（高級矩陣擴展）技術，就算沒有獨立顯卡，也能加速中小規模參數的大語言模型推理，性價比也是直接拉滿。

至強? W 處理器能與銳炫? 顯卡搭檔的原因還有它支持多顯卡配置，擁有多達112條PCIe Lane，PCIe 5.0通道管夠。

在此之上，英特爾還通過統一的計算架構和優化工具鏈，讓銳炫? 顯卡和至強? W 處理器，發揮出了1+1＞2的效果。例如：

IPEX-LLM
專門為大模型優化，支持DeepSeek、Qwen、Llama等主流開源模型，讓CPU+GPU協同推理更高效。
OpenVINOTM 工具套件
優化AI推理，自動分配任務給CPU或GPU，還能壓縮模型，減少內存占用，提升速度。
oneAPI
統一編程模型，開發者只需寫一次代碼，就能同時在CPU和GPU上運行，不用再為不同硬件適配發愁。

總而言之，英特爾可以說是通過硬件協同+軟件優化，讓CPU和GPU不再是孤立的計算單元，而是高效配合的“黃金搭檔”。

這也就不難理解為什么基于英特爾解決方案的一體機，能夠做到如此的價低+質優了。

實戰：如何在英特爾架構一體機上玩轉DeepSeek

看過Demo演示和一體機介紹，你可能會好奇，假如現在就有機會拿到一臺這樣的一體機，該怎么用它把DeepSeek跑起來？

首先要配置系統環境，更新GPU驅動版本必不可少。
https://dgpu-docs.intel.com/driver/client/overview.html

主要框架是英特爾IPEX-LLM版本的llama.cpp，

以Linux系統為例，IPEX-LLM llama.cpp portable tgz包

在這個框架中，推薦使用GGUF格式的模型，這里使用unsloth開源版本來說明。

開啟終端后，輸入以下命令進入解壓縮后的文件夾：

cd/PATH/TO/EXTRACTED/FOLDER

要使用英特爾GPU加速，在運行llama.cpp之前，需要設置如下環境變量：

exportSYCL_CACHE_PERSISTENT=1

接下來，如果要運行的是671B版本DeepSeek-R1，就要請出FlashMoE來幫忙了。

DeepSeek-R1基于MoE架構，其實滿血版的激活參數僅約37億，但還是需要完整加載整個模型，這也是對于一體機來說最大的難點。

FlashMoE是一款基于llama.cpp構建的命令行工具，專為MoE模型進行優化，整合了至強? W處理器內置的AMX/AVX-512技術和GPU加速庫，進一步釋放CPU與GPU的異構協作能力，能在較低的硬件成本下獲得更高的推理吞吐量與更優的性能表現。

在llama.cpp + FlashMoE組合加持下，初步的性能驗證表明，在單路至強? W處理器加2-4塊英特爾銳炫?A770顯卡配置下，本文所述方案可以獲得接近10 Token/s的性能表現，已能滿足企業級生成式AI，例如離線語音助手、文檔摘要等應用場景的需求。

總的來說，這套高度集成的軟硬一體模式，既滿足了長上下文推理需求，又實現了能耗和成本的可控，為AI服務規模化落地提供了可靠且易用的基礎設施。

同時，它能更好地滿足近期用戶在DeepSeek或其他開源大模型實踐中的迫切需求，部署方式更靈活、更貼近業務環境，響應速度更快，還在數據安全和隱私保護方面具有先天優勢。

以上是針對671B版DeepSeek的部署方法簡要介紹，但實際上，蒸餾版憑借其精簡而高效的特點，能夠更好地貼合各行業的實際業務場景和需求。

蒸餾版和滿血版的部署指南，都可在英特爾中文官網(intel.cn)搜索「銳炫一體機」獲取。

它在應對這些行業的常規任務時，不僅能夠提供足夠的處理能力和精準度，還能以更加靈活和易于部署及適配的方式融入到行業的業務流程當中。

“低成本+高效率”的路子還在繼續

隨著DeepSeek的影響力不斷擴大，大模型發展迎來了新的趨勢：走向推理普及化。

在以往，算力大多被集中投入到模型訓練中，但在未來，算力資源的分配將發生顯著轉變，更多的算力會被應用于推理環節而非訓練。

△圖源：IDC&浪潮信息

從應用場景和市場選擇來看，除了超大規模的數據中心依舊在大模型運算中扮演關鍵角色外，一體機憑借其獨特的優勢，正成為越來越多企業的心儀之選。

而在這個趨勢之中，一體機的優勢就在于“低成本+高效率”，具體而言：

首先，一體機啟動成本低。與傳統分散式設備組合搭建系統相比，其在硬件采購、軟件授權和初始配置等方面資金投入少，企業無需花大量前期資金構建完整運作體系，能以較低成本開啟業務或辦公流程。

同時，一體機易于維護部署。其高度集成化設計優化硬件兼容性，減少硬件不匹配故障。日常維護中，其整體性強，便于技術人員進行故障排查和維修，提高維護效率、降低難度。

此外，一體機可常駐用戶辦公與業務環境邊緣加速操作，在靠近數據源頭和使用場景處運行，減少數據傳輸距離和時間，降低延遲，提升業務處理速度和響應效率。

當然，一體機只是運行模型的硬件基礎，從英特爾最近的動作看來，對接和擴展更多接地氣的AI應用才是下一步重點：

聯合Hugging Face、Anyscale、Zilliz等AI行業合作伙伴推出的企業AI開放平臺(OPEA)，就是最好的證明。

如何理解OPEA？

首先，它提供了搭建大模型應用所需的零件，如提示引擎、數據處理、記憶系統、安全護欄等一起打包提供，解決生成式AI技術的工具碎片化問題。

然后，它還是一款評估和優化應用，能夠從性能、可信度、可擴展性和彈性等方面對AI應用進行 “體檢”。以電商推薦商品的AI應用為例，通過 “體檢” 可對應用進行針對性的改進，使其更實用。

所以眾多合作伙伴加入，共建這個項目也就不奇怪了。

隨著越來越多的合作伙伴加入，OPEA生態將不斷發展壯大并衍生出多樣化的發展路徑。

例如中國開放智能計算產業聯盟（COIA）目前已匯聚近60家成員單位，專注于推動企業AI生態協同發展。該聯盟即將推出“Powered By OPEA”認證體系，旨在確保合作伙伴間OPEA生態的互聯互通。

作為業界首個企業級AI應用認證標準，該體系將成為OPEA生態的核心保障機制，為通過認證的產品授予跨平臺互操作性標識。

“Powered By OPEA”認證將促進AI產業生態的完善，加速企業AI標準化進程，并最終發展成為企業選擇生成式AI組件的重要信任基準。

“AI無處不在”的故事正持續上演。

最后，附上量子位完整實測基于英特爾解決方案一體機的視頻：

視頻地址：https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

不用1000元！白菜價筆記本電腦火了，但我勸你別買

雷科技 2025-04-25 12:06:42
38 跟貼 38
ROG 魔霸 9X 游戲電腦體驗，強悍的游戲性能，只為打造情緒價值機器

愛范兒 2025-04-30 20:12:30
1 跟貼 1

ROG NUC小而強的秘密，游戲體驗MAX

雷科技 2025-01-21 11:26:14
0 跟貼 0

2028年見！英特爾、臺積電競逐1.8nm芯片制造｜鈦媒體AGI

鈦媒體APP 2025-05-04 17:29:16
79 跟貼 79
賽道Hyper | 海力士消費級存儲顆粒價上調約10%

華爾街見聞官方 2025-05-05 10:07:17
0 跟貼 0

AI Phone：先是芯片，再是模型，最后才是手機廠商

鈦媒體APP 2024-11-08 19:44:25
3 跟貼 3

我懷念便宜的游戲機：當芯片不再“瘦身”，降價神話就此終結

簡明科學指南 2025-05-05 12:13:39
0 跟貼 0
太牛了！400塊洋垃圾，也能在本地部署DeepSeek？！

雷科技 2025-02-14 11:33:42
240 跟貼 240

成功干出中國芯那天，他說，走，我們向毛主席報喜去

鈦媒體APP 2025-04-06 12:04:18
0 跟貼 0
Deepseek的隱喻：GPU失其鹿，ASIC、SOC們共逐之

鈦媒體APP 2025-02-06 16:19:11
0 跟貼 0
你怎么還笑得出來！張雪峰CPU都快炸了

橙子教剪輯 2025-05-04 10:54:32
0 跟貼 0
中方給足談判機會，閉門會議召開，美國兩面下注，黃仁勛說了實話

智觀科技 2025-05-05 09:21:03
0 跟貼 0
兔子轉彎的那一刻，狗的CPU都燒了，生動詮釋了什么叫一溜煙！

曉愛生活 2025-05-05 09:02:22
0 跟貼 0
美帝跪求談判遭冷眼，黃仁勛背刺捅刀，中國芯片絕地反殺！

吉連說 2025-05-04 17:25:02
3 跟貼 3
養了這么多年兔子，原來是孵化出來的，感覺CPU都燒了

玉皇閣街拍 2025-05-03 15:47:29
0 跟貼 0
2025南昌國際汽車交易會，智能輔助駕駛體驗感拉滿

江西都市現場 2025-05-03 15:00:43
0 跟貼 0
爆紅的“內插幀”技術是手機游戲的未來？實測一番后我知道了真相

雷科技 2024-12-31 15:31:21
8 跟貼 8
《毀滅戰士》新作評測解禁日敲定！PC配置公開！

游民星空 2025-05-03 17:06:43
2 跟貼 2
國產動作游戲《明末：淵虛之羽》全新宣傳片公開，7 月 24 日發售

IT之家 2025-05-03 09:16:10
9 跟貼 9
“局面混亂不堪”！廣東清遠一景區緊急道歉：全額退票

瀟湘晨報 2025-05-04 17:29:06
0 跟貼 0
OpenAI最新技術報告：GPT-4o變諂媚的原因萬萬沒想到

量子位 2025-05-03 12:02:04
52 跟貼 52
大媽端著臟水倒進電梯縫隙倒完后顯示屏數字顯示消失

大目看點 2025-05-04 17:21:58
10037 跟貼 10037
解放軍儀仗隊紅場高唱抗日歌曲

環球時報 2025-05-05 09:29:36
25963 跟貼 25963
讓GPT-4.1「頭皮發麻的考試」！OpenAI給大模型上強度，AI能贏嗎？

新智元 2025-05-04 13:24:55
3 跟貼 3
閨女在小店花幾十元買東西親媽上門拍桌子質問店家

老梁說事 2025-05-05 10:00:42
2839 跟貼 2839
爸媽打瞌睡，5歲哥哥帶2歲妹妹獨自下高鐵：想叫他們的，但是覺得保護妹妹比較重要

瀟湘晨報 2025-05-04 16:37:09
792 跟貼 792
景區兒媳大戰公公雙方手指互罵，孩子手指媽媽怒吼：別打我的佬佬

爆料視頻 2025-05-05 10:57:34
883 跟貼 883
南中醫即將上線中醫藥人工智能大模型，機器人也能“望聞問切”

現代快報 2025-05-02 17:27:05
38 跟貼 38
俄羅斯勝利日閱兵彩排歷戰老兵方陣個個面無表情

時事領航媛 2025-05-05 07:08:53
6346 跟貼 6346
全功能智能馬桶

長亮說裝修 2025-05-04 08:50:45
1 跟貼 1
單核處理器的貓

楓葉故事說 2025-05-05 11:52:02
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
副縣長拉攏6名公職人員，組建“七兄弟吃喝圈”，長期接受打牌摜蛋等“保姆式”服務

新京報政事兒 2025-05-04 21:54:39
611 跟貼 611
AI半壁江山是中國人！黃仁勛敲警鐘：美國再不覺醒就晚了

新智元 2025-05-03 11:28:15
13 跟貼 13
任天堂Switch2發售在即，內部芯片細節曝光

中關村在線 2025-05-04 11:27:11
6 跟貼 6
上千游客深夜滯留張家界大喊退票？當地通報：表示歉意，將切實提升旅游管理和接待服務水平

界面新聞 2025-05-04 17:05:03
3775 跟貼 3775
申京：不認為勇士這輪擊敗了我們我們被自己打敗了

北青網-北京青年報 2025-05-05 08:19:01
141 跟貼 141
美計劃援烏300億美元，俄24小時損失兩架戰機，刻赤大橋疑遭重創

史政先鋒 2025-05-04 17:37:43
5177 跟貼 5177
從799元到2299元，這8款無線耳機閉眼買不踩雷！

雷科技 2025-05-04 11:30:59
4 跟貼 4
期望落空！C919歐洲適航證“黃了”！EASA正式告知：短期內不可能

阿鳧愛吐槽 2025-05-05 11:05:13
22 跟貼 22

量子位

追蹤人工智能動態

10426文章數 176130關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

健康

旅游

數碼

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

榨干3000元顯卡，跑通千億級大模型的秘方來了

價低質優的一體機，是如何煉就的？

實戰：如何在英特爾架構一體機上玩轉DeepSeek

“低成本+高效率”的路子還在繼續

iStorage 推出 26TB 容量 diskAshur 加密硬盤，1541 美元起

前巴駐華大使：比起甩鍋 印更應反思自己的恐怖統治

前巴駐華大使：比起甩鍋 印更應反思自己的恐怖統治

當年的阿森納小球童，要踢歐冠決賽了

林心如霍建華一家三口手牽手散步好有愛

人民幣暴漲近900點！發生了什么？

這3款新 iPhone，可能會改變蘋果的未來

小米SU7的真實續航到底有多少？

態度原創

黑白紋理 簡約低調空間

唇皰疹和口腔潰瘍是"同伙"嗎？

熱聞|清明假期將至，熱門目的地有哪些?

Buffalo推出“透明”限量機械硬盤：直觀感受盤片旋轉及磁頭運動

解放軍儀仗隊紅場高唱抗日歌曲

前巴駐華大使：比起甩鍋印更應反思自己的恐怖統治

前巴駐華大使：比起甩鍋印更應反思自己的恐怖統治

黑白紋理簡約低調空間