99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

榨干3000元顯卡,跑通千億級大模型的秘方來了

0
分享至

金磊 夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

書接上回,用幾塊3000元顯卡作為加速主力的一體機,就能跑通671B的DeepSeek

放在個把月前,你敢想象這樣的場景么?

正在埋頭苦干,希望有更多樣化產品交付的一體機廠商們,pick英特爾銳炫? 顯卡 + 至強? W 處理器這套組合拳,首要原因就是它的成本確實誘人——基本算是砍掉了一個數量級(下線可以控制在10萬元以內)。

其次就是這套組合也很能打,上面那個場景就是它目前的“標桿式”戰績。

這兩點加起來就是“真香”定律的復現。

但別光說不練,這種極具性價比的一體機實測的體感到底如何呢?

帶著這個問題,我們直接上手親自測試了一波。

例如我們先用QwQ-32B離線狀態下問了個經典題目:

  • 9.9和9.11哪個大?



視頻地址:https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

從效果上來看,若是單人使用,一體機的速度已經達到了32 tokens/s

講真,這個速度在體感上已經是非常OK了。

而且這還不是個偶然事件,在同樣的情況下,我們再問一個問題:

  • 一個外星人來到地球后等可能選擇以下四件事中的一件完成:
    1,自我毀滅;
    2,分裂成兩個外星人;
    3,分裂成三個外星人;
    4,什么都不做。
    此后每天,每個外星人均會做一次選擇,且彼此之間相互獨立。
    求地球上最終沒有外星人的概率。



視頻地址:https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

同樣的,我們可以看到輸出速度依舊是非常的快。

而當同時使用人數增加時,我們做了初步的計算,其每秒tokens的速度大概是這樣的:



那么如果是地獄難度的671B DeepSeek R1,結果又會如何呢?

畢竟即便是Q4量化版本,以往承載它的一體機成本動輒就要達到200萬元。

請聽題:

  • 一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什么?只需回答這個字即可。



視頻地址:https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

如此大體量的大模型,這種10萬元級別的一體機依然可以達到10 tokens/s的速度。

雖然體感上會覺得稍慢一些,但夠用卻是真的。

而且有一說一,輸出速度夠快、時延夠低、性價比夠高,還只是這種英特爾架構一體機的優點的一隅。

在它的背后,還有易部署、易操作等特點。

那么為何基于英特爾的一體機可以做到如此物美價廉?

價低質優的一體機,是如何煉就的?

正如我們剛才提到的,10萬級別的一體機能有如此實用質感,其關鍵就是英特爾的組合拳:

銳炫? 顯卡 + 至強? W 處理器。



首先我們來看下這張英特爾銳炫? 顯卡。

它是英特爾專門為AI和圖形處理打造的高性能顯卡,不僅游戲表現亮眼,在AI推理、視頻處理這些專業領域也很能打。

銳炫? 顯卡采用了最新的Xe 架構,內置XMX AI加速引擎,提供強大的AI加速能力,支持Ollama和vLLM serving等多種大模型主流框架,跑大模型推理可以說是完全沒有壓力。

而且它還支持TensorFlow、PyTorch這些主流AI框架,搭配OpenVINO? 工具套件還能進一步優化性能,讓AI任務跑得更快、更省資源。



銳炫? 顯卡還有一個特點,就是特別適合邊緣計算——

銳炫? 顯卡針對邊緣計算場景優化,提供低功耗(110-150瓦)和小尺寸選項,支持PCIe Gen 4接口,并為邊緣應用場景承諾五年產品供應和軟件支持。

也正像剛才展示的那樣,比如DeepSeek、Qwen這些開源模型,銳炫?顯卡能輕松搞定,尤其是支持多卡并聯,2卡、4卡甚至8卡都能配,性能直接起飛。

而且裝載它的一體機不僅僅能作為AI或大模型一體機來使用,有需求時還能用來執行視頻分析、8K視頻編解碼、3D渲染這些高負載任務,一機多用,性價比超高。



除了顯卡之外,至強? W 處理器,這塊適用于工作站和AI一體機“性能怪獸”CPU,也是一個關鍵點。

從算力層面來看,它最高60核的配置,搭配DDR5-4800內存和TB級內存擴展,跑大模型、做數據處理都游刃有余。

它內置的AMX(高級矩陣擴展)技術,就算沒有獨立顯卡,也能加速中小規模參數的大語言模型推理,性價比也是直接拉滿。

至強? W 處理器能與銳炫? 顯卡搭檔的原因還有它支持多顯卡配置,擁有多達112條PCIe Lane,PCIe 5.0通道管夠。



在此之上,英特爾還通過統一的計算架構和優化工具鏈,讓銳炫? 顯卡和至強? W 處理器,發揮出了1+1>2的效果。例如:

  • IPEX-LLM
  • 專門為大模型優化,支持DeepSeek、Qwen、Llama等主流開源模型,讓CPU+GPU協同推理更高效。
  • OpenVINOTM 工具套件
  • 優化AI推理,自動分配任務給CPU或GPU,還能壓縮模型,減少內存占用,提升速度。
  • oneAPI
  • 統一編程模型,開發者只需寫一次代碼,就能同時在CPU和GPU上運行,不用再為不同硬件適配發愁。

總而言之,英特爾可以說是通過硬件協同+軟件優化,讓CPU和GPU不再是孤立的計算單元,而是高效配合的“黃金搭檔”。

這也就不難理解為什么基于英特爾解決方案的一體機,能夠做到如此的價低+質優了。

實戰:如何在英特爾架構一體機上玩轉DeepSeek

看過Demo演示和一體機介紹,你可能會好奇,假如現在就有機會拿到一臺這樣的一體機,該怎么用它把DeepSeek跑起來?

首先要配置系統環境,更新GPU驅動版本必不可少。
https://dgpu-docs.intel.com/driver/client/overview.html

主要框架是英特爾IPEX-LLM版本的llama.cpp,

以Linux系統為例,IPEX-LLM llama.cpp portable tgz包



在這個框架中,推薦使用GGUF格式的模型,這里使用unsloth開源版本來說明。



開啟終端后,輸入以下命令進入解壓縮后的文件夾:

cd/PATH/TO/EXTRACTED/FOLDER

要使用英特爾GPU加速,在運行llama.cpp之前,需要設置如下環境變量:

exportSYCL_CACHE_PERSISTENT=1

接下來,如果要運行的是671B版本DeepSeek-R1,就要請出FlashMoE來幫忙了。

DeepSeek-R1基于MoE架構,其實滿血版的激活參數僅約37億,但還是需要完整加載整個模型,這也是對于一體機來說最大的難點。

FlashMoE是一款基于llama.cpp構建的命令行工具,專為MoE模型進行優化,整合了至強? W處理器內置的AMX/AVX-512技術和GPU加速庫,進一步釋放CPU與GPU的異構協作能力,能在較低的硬件成本下獲得更高的推理吞吐量與更優的性能表現。

在llama.cpp + FlashMoE組合加持下,初步的性能驗證表明,在單路至強? W處理器加2-4塊英特爾銳炫?A770顯卡配置下,本文所述方案可以獲得接近10 Token/s的性能表現,已能滿足企業級生成式AI,例如離線語音助手、文檔摘要等應用場景的需求。

總的來說,這套高度集成的軟硬一體模式,既滿足了長上下文推理需求,又實現了能耗和成本的可控,為AI服務規模化落地提供了可靠且易用的基礎設施。

同時,它能更好地滿足近期用戶在DeepSeek或其他開源大模型實踐中的迫切需求,部署方式更靈活、更貼近業務環境,響應速度更快,還在數據安全和隱私保護方面具有先天優勢。

以上是針對671B版DeepSeek的部署方法簡要介紹,但實際上,蒸餾版憑借其精簡而高效的特點,能夠更好地貼合各行業的實際業務場景和需求。

蒸餾版和滿血版的部署指南,都可在英特爾中文官網(intel.cn)搜索「銳炫一體機」獲取





它在應對這些行業的常規任務時,不僅能夠提供足夠的處理能力和精準度,還能以更加靈活和易于部署及適配的方式融入到行業的業務流程當中。

“低成本+高效率”的路子還在繼續

隨著DeepSeek的影響力不斷擴大,大模型發展迎來了新的趨勢:走向推理普及化。

在以往,算力大多被集中投入到模型訓練中,但在未來,算力資源的分配將發生顯著轉變,更多的算力會被應用于推理環節而非訓練。



△圖源:IDC&浪潮信息

從應用場景和市場選擇來看,除了超大規模的數據中心依舊在大模型運算中扮演關鍵角色外,一體機憑借其獨特的優勢,正成為越來越多企業的心儀之選。

而在這個趨勢之中,一體機的優勢就在于“低成本+高效率”,具體而言:

首先,一體機啟動成本低。與傳統分散式設備組合搭建系統相比,其在硬件采購、軟件授權和初始配置等方面資金投入少,企業無需花大量前期資金構建完整運作體系,能以較低成本開啟業務或辦公流程。

同時,一體機易于維護部署。其高度集成化設計優化硬件兼容性,減少硬件不匹配故障。日常維護中,其整體性強,便于技術人員進行故障排查和維修,提高維護效率、降低難度。

此外,一體機可常駐用戶辦公與業務環境邊緣加速操作,在靠近數據源頭和使用場景處運行,減少數據傳輸距離和時間,降低延遲,提升業務處理速度和響應效率。

當然,一體機只是運行模型的硬件基礎,從英特爾最近的動作看來,對接和擴展更多接地氣的AI應用才是下一步重點:

聯合Hugging Face、Anyscale、Zilliz等AI行業合作伙伴推出的企業AI開放平臺(OPEA),就是最好的證明。



如何理解OPEA?

首先,它提供了搭建大模型應用所需的零件,如提示引擎、數據處理、記憶系統、安全護欄等一起打包提供,解決生成式AI技術的工具碎片化問題。



然后,它還是一款評估和優化應用,能夠從性能、可信度、可擴展性和彈性等方面對AI應用進行 “體檢”。以電商推薦商品的AI應用為例,通過 “體檢” 可對應用進行針對性的改進,使其更實用。

所以眾多合作伙伴加入,共建這個項目也就不奇怪了。



隨著越來越多的合作伙伴加入,OPEA生態將不斷發展壯大并衍生出多樣化的發展路徑。

例如中國開放智能計算產業聯盟(COIA)目前已匯聚近60家成員單位,專注于推動企業AI生態協同發展。該聯盟即將推出“Powered By OPEA”認證體系,旨在確保合作伙伴間OPEA生態的互聯互通。

作為業界首個企業級AI應用認證標準,該體系將成為OPEA生態的核心保障機制,為通過認證的產品授予跨平臺互操作性標識。

“Powered By OPEA”認證將促進AI產業生態的完善,加速企業AI標準化進程,并最終發展成為企業選擇生成式AI組件的重要信任基準。

“AI無處不在”的故事正持續上演。

最后,附上量子位完整實測基于英特爾解決方案一體機的視頻:



視頻地址:https://mp.weixin.qq.com/s/_dJD9FeLhiIj9m7vKgJdhA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃曉明青島拍戲被全家探班,豪華房車變廚房,47歲仍被寵成寶!

黃曉明青島拍戲被全家探班,豪華房車變廚房,47歲仍被寵成寶!

娛樂x冰淇淋
2025-05-04 22:55:36
人不會無緣無故患老年癡呆!研究發現:患老年癡呆,離不開這4點

人不會無緣無故患老年癡呆!研究發現:患老年癡呆,離不開這4點

河山銳新聞
2025-04-17 10:36:03
中美差距又擴大!一季度中國GDP跌至美國60%左右,究竟是什么原因

中美差距又擴大!一季度中國GDP跌至美國60%左右,究竟是什么原因

阿褲趣聞君
2025-05-05 11:41:02
爛透了!0分,全部0分!快船離隊第一人

爛透了!0分,全部0分!快船離隊第一人

籃球實戰寶典
2025-05-04 18:06:18
北京女子看上9.2萬玉鐲,丈夫把1.2萬手鐲價簽貼在9.2萬的手鐲上

北京女子看上9.2萬玉鐲,丈夫把1.2萬手鐲價簽貼在9.2萬的手鐲上

百態人間
2025-05-05 11:50:37
啦啦隊女神熱舞走光!NuBra掉下來當場摸到小葡萄

啦啦隊女神熱舞走光!NuBra掉下來當場摸到小葡萄

葫蘆哥愛吐槽
2025-05-04 15:23:20
叫我海嘯射手希爾德關鍵戰爆轟33分 9記三分平搶七歷史紀錄

叫我海嘯射手希爾德關鍵戰爆轟33分 9記三分平搶七歷史紀錄

直播吧
2025-05-05 11:16:34
跑了10000公里以后才發現,國產小米和馬斯克的特斯拉,根本不是一個檔次!

跑了10000公里以后才發現,國產小米和馬斯克的特斯拉,根本不是一個檔次!

汽車指南針
2025-04-14 07:06:47
“剩料”磨制面粉,供億萬百姓食用?河南早餐店老板怒揭“真相”

“剩料”磨制面粉,供億萬百姓食用?河南早餐店老板怒揭“真相”

馬蹄燙嘴說美食
2025-05-03 02:33:51
全網都在怒懟李斌!蔚來,到底出了什么問題?

全網都在怒懟李斌!蔚來,到底出了什么問題?

老蔣談策劃
2025-05-05 08:46:28
澤連斯基徹底跪了!

澤連斯基徹底跪了!

燕梳樓頻道
2025-03-20 19:19:07
合肥文旅因300塊錢,葬送了五一假期的流量

合肥文旅因300塊錢,葬送了五一假期的流量

映射生活的身影
2025-05-03 14:55:22
美國兵推結果:中美開戰7天后4萬解放軍陣亡,美10多個基地損毀

美國兵推結果:中美開戰7天后4萬解放軍陣亡,美10多個基地損毀

科學知識點秀
2025-05-04 19:07:37
45歲殷桃在北京的豪宅火了:家中種滿花草,這簡直就是人間仙境

45歲殷桃在北京的豪宅火了:家中種滿花草,這簡直就是人間仙境

曉風說
2025-05-04 17:43:22
田曦薇真“走光”,黑長直齊劉海+黑色蕾絲內衣,太大膽了

田曦薇真“走光”,黑長直齊劉海+黑色蕾絲內衣,太大膽了

吃瓜黨二號頭目
2025-05-05 12:29:19
美國立國249年,被美國媒體唱衰了249年

美國立國249年,被美國媒體唱衰了249年

高博新視野
2025-05-04 12:32:08
五一最堵10大景點出爐!網友:第1名堵到懷疑人生,第5名直接勸退

五一最堵10大景點出爐!網友:第1名堵到懷疑人生,第5名直接勸退

布拉旅游說
2025-05-03 02:55:28
澤連斯基不配合,俄羅斯無法安心舉行勝利日閱兵,扎哈羅娃生氣了

澤連斯基不配合,俄羅斯無法安心舉行勝利日閱兵,扎哈羅娃生氣了

飛狼
2025-05-05 02:40:40
看了日本第一季度接待外國游客1054萬,再對比我國,差距實在太大

看了日本第一季度接待外國游客1054萬,再對比我國,差距實在太大

史紀文譚
2025-05-01 23:28:48
國羽蘇迪曼杯奪冠后,陳雨菲發文:我永遠都愿意為中國羽毛球隊而戰

國羽蘇迪曼杯奪冠后,陳雨菲發文:我永遠都愿意為中國羽毛球隊而戰

現代快報
2025-05-05 09:09:09
2025-05-05 16:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10426文章數 176130關注度
往期回顧 全部

數碼要聞

iStorage 推出 26TB 容量 diskAshur 加密硬盤,1541 美元起

頭條要聞

前巴駐華大使:比起甩鍋 印更應反思自己的恐怖統治

頭條要聞

前巴駐華大使:比起甩鍋 印更應反思自己的恐怖統治

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

林心如霍建華一家三口手牽手散步好有愛

財經要聞

人民幣暴漲近900點!發生了什么?

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

家居
健康
旅游
數碼
軍事航空

家居要聞

黑白紋理 簡約低調空間

唇皰疹和口腔潰瘍是"同伙"嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

Buffalo推出“透明”限量機械硬盤:直觀感受盤片旋轉及磁頭運動

軍事要聞

解放軍儀仗隊紅場高唱抗日歌曲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 奉节县| 泊头市| 易门县| 高要市| 酉阳| 潜江市| 航空| 徐水县| 凤城市| 克东县| 资溪县| 金湖县| 金坛市| 海城市| 辉南县| 五家渠市| 文水县| 沁源县| 北辰区| 峨山| 岚皋县| 大姚县| 翁源县| 莒南县| 黄山市| 永济市| 青铜峡市| 麻江县| 东源县| 高淳县| 密云县| 射洪县| 泰和县| 宁晋县| 巴中市| 万安县| 定结县| 沂源县| 金平| 武平县| 乌恰县|