DeepSeek一體機,能滿足的不止再是情緒價值了。
作者|王藝
編輯|王博
「甲子光年」今日獲悉,行云集成電路推出了全新的一體機產品“褐蟻”,僅需10萬元就可以跑滿血版DeepSeek R1/V3大模型(下文簡稱“滿血版DS”),并且對話速度達到了20token/s。這意味著一家中型企業僅需一輛家用轎車的成本,即可部署接近實驗室級的大模型生產力工具。
“褐蟻”一體機有三款不同的配置,分別是主打極致性能的褐蟻HY90、主打極致性價比的褐蟻HY70和主打超低價格的褐蟻HY50。本次正式面向市場的產品是褐蟻HY90,它由雙路AMD EPYC 9355服務器、24條 48G 6400M頻率內存和5090D計算卡構成,支持FP8、INT4兩種數據精度,在FP8精度下跑滿血版DS能達到21token/s的對話速度,在INT4精度下則能達到28token/s,最高支持128K的上下文。除了DeepSeek R1/V3,褐蟻還支持嵌入向量和重排序模型,以及Gemma多模態模型等。
日前隨著美國對華芯片禁運和海外代工的收緊,一體機的價格水漲船高,市場的話語權也掌握在擁有芯片和技術資源的大廠手里。而行云集成電路(下文簡稱“行云”)褐蟻一體機的推出,或許意味著一體機市場的算力壟斷將被打破,技術平權的嶄新浪潮即將到來。
1.“掀桌子”式的奇襲
DeepSeek一體機“狂飆”數月,入局的玩家越來越多,除了服務器和云廠商,做軟件的、做安全的……只要是和科技沾邊的行業,都有公司推出一體機。(詳見《》)。
然而,當下的一體機市場存在嚴重的供需錯配情況:一體機廠商推出的能跑滿血版的產品價格至少100萬元起步,面向的是有支付能力的買家;而市場上真正有支付能力的企業并不多,大部分企業的預算集中在10-50萬元區間,這個預算只能買到70B或32B版本的DS一體機。而在近日的中美關稅爭端下,美國商務部對英偉達的H20、AMD的MI308及其同類AI芯片產品向中國發布新的出口許可要求,搭載了H20芯片一體機的價格更加昂貴,對買家來說更不友好;
即使部分廠商針對那些預算有限的企業推出了幾十萬元的低價一體機,看似提供了全鏈路的模型管理、數據處理和權限控制方案,但是這些多是在攢了一些硬件之后,對Dify、Langchain、Milvus等框架的UI進行表面調整,在底層架構優化上毫無改進,沒有核心的調度能力,也無法靈活接入其他的主流模型,使得產品在實際使用中問題頻出;
「甲子光年」了解到,很多買了10萬元左右價位一體機的公司在開箱后發現只能跑INT4精度的數據,DS運行速度極慢,一個字一個字地往外蹦;還有些買了蒸餾版模型一體機的廠商遇到了幻覺嚴重的問題,比如在知識庫的文字分段上,會把專業名詞“阿莫西林”切割成“阿莫”和“西林”,嚴重干擾了業務的正常運轉。
而行云的褐蟻一體機,相較于百萬元級別一體機的優勢在于價格足夠優惠——僅需14.9萬元,就可以在褐蟻HY90上以FP8精度運行滿血版的DeepSeek大模型;行云也在努力尋找硬件配置和用戶體驗的平衡點,在保證滿血版DeepSeek模型在FP8精度上打到20token/s體驗的前提下,進一步壓縮硬件成本。
案例可以說明這一點:
將“一個漢字具有左右結構,左邊是木,右邊是乞。這個字是什么?只需回答這個字即可?!钡膯栴}同時輸入運行在褐蟻HY90一體機上DeepSeek和DeepSeek官網,我們發現,DeepSeek模型在褐蟻HY90上的運行速度要高于官網,也比官網更先得出答案:
褐蟻一體機與官網推理能力對比測試,左為褐蟻H90,右為DeepSeek官網
在創作場景下,讓運行在褐蟻HY90上的DS模型和DeepSeek官網同時回答“簡要概述小說《殺死一只知更鳥》的情節,并指出其中的主要主題”,會發現褐蟻HY90比官網更快回答完了問題。
褐蟻一體機與官網推理能力創作能力對比測試,左為褐蟻H90,右為DeepSeek官網
在玩家魚龍混雜、價格日漸走高的一體機市場,行云此次的產品發布,毫無疑問是一次正本清源的“掀桌子”式奇襲。
2.將“大殺器”賣到10萬元的秘密
之所以將運行頂級大模型的成本從百萬元級別拉到十萬元級,行云憑借的是對技術趨勢的深刻洞察和極致的軟硬件協同優化。
在DeepSeek大模型的部署中,內存(尤其是顯存)是決定模型能否“滿血運行”的核心瓶頸。其中,內存容量是決定機器能否裝下大模型的門檻,內存帶寬則是決定數據吞吐的生死線。
大模型巨大的參數量、自注意力機制和前向傳播等特性本來就要求處理器有更高的內存(GPU的顯存),DeepSeek R1/V3的MoE架構更是由于需要預先加載所有的專家參數,需要比傳統Transformer架構的稠密模型更大的內存容量。
在內存容量方面,我們曾在《》中提到,如果要實現在一體機上運行滿血版DeepSeek大模型,就必須把參數、配置拉滿,起碼顯存要做到808-846GB,機器才能裝得下6710億參數。
參考資料:IT技術分享-老張,某大廠;制圖:甲子光年
在內存帶寬方面,DeepSeek每生成一個Token激活的參數大概是37B,這就要求總的內存帶寬大概需要740G/s。
一體機60-70%的成本都來自硬件,而硬件成本中的大頭則由GPU和CPU占據。過去十年,行業過度追求GPU算力和內存的提升,而忽視了同為核心處理器的CPU。大家認為AI推理,尤其是大模型,似乎天然就該依賴GPU。
但行云發現,技術發展已悄然改變了格局?,F在DDR5的頻率逐漸達到了6400MHz,更主要的是服務器CPU的內存通道數不斷增加,從8通道增加到12通道,如果選擇雙路就是24通道。這樣的雙路24通道DDR5-6400內存,總帶寬已經達到了1.2TB/s。
這是一個關鍵的轉折點:1.2TB/s的帶寬,不僅遠超740GB/s的需求線,甚至超過了高端消費級顯卡如RTX 4090的顯存帶寬(約1TB/s)。這意味著,通過精心選擇的服務器CPU平臺,其DDR內存系統能夠同時提供巨大的容量(輕松達到1TB以上)和媲美甚至超越某些高端GPU顯存的帶寬。
“過去大家對GPU內存(GDDR)的認知是容量小、帶寬高,對CPU內存(DDR5/LPDDR5)的認知是便宜、容量大、帶寬低。但其實這是過去的認知慣性,在過去多年的技術發展里這件事情已經發生了變化,就是頂級的CPU內存帶寬已經超過了4090這樣的頂級消費顯卡,雖然肯定還是無法和A100這種卡的內存帶寬比。但至少已經達到了顯存級別的帶寬標準。這個認知很重要,因為搭載了這樣一個服務器CPU內存總帶寬,是完全可以滿足運行DeepSeek需求的?!?季宇說。
行云的這一發現為采用CPU內存作為主要載體承載大模型權重(尤其是內存密集型的MoE層)提供了理論基礎,可以徹底改變一體機的成本結構。
于是,我們看到,在行云推出的褐蟻一體機HY90中,搭載了雙路AMD EPYC 9355服務器CPU(24條容量為48G、帶寬為6400M的內存)和英偉達的消費級5090D顯卡,CPU內存帶寬達到了1228GB/s,CPU內存容量則達到了1152TB。加上GPU的32G顯存,不僅滿足了滿血全精度R1、V3模型的運行需求,理論上主參數1.5T以內的模型也都可以支持,比如今天剛剛發布的Qwen3和DeepSeek即將發布的R2模型。
但硬件誰都可以攢。褐蟻一體機“物美價廉”的第二個秘訣,是軟件和算法的優化。
2025年2月10日,由清華大學KVCache.AI團隊與趨境科技聯合發布了KTransformers推理框架。該架構基于Python架構設計,通過異構計算、量化優化和稀疏注意力機制等一系列技術,大幅降低了大模型的硬件門檻——相較于Python,KTransformers更加靈活和輕量化,能夠適應一體機需要的GPU/CPU優化策略。
通過這些技術的組合應用,KTransformers能夠實現將原本需要8張高端GPU卡才能運行的大模型在單張消費級GPU上運行,且推理速度不減反增。例如一個130億參數的模型,在傳統實現下需要超過26GB顯存,而通過KTransformers優化后,僅需6-8GB顯存就能流暢運行,甚至能在普通的游戲筆記本上部署。
可以說,KTransformers為想做一體機推理優化的團隊提供了一個靈巧的“腳手架”,而行云就是最早看到這個“腳手架”并將其完美利用的團隊之一。基于KTransformers,行云推出了全新的自研推理引擎,將MoE層的token延遲從超過30ms(毫秒)降低到了18ms(INT4精度下),后續支持了原版FP8精度,將單個Token的生成速度控制在了50ms以內。
然而,這絕非簡單的“拿來主義”。基于KTransformer,行云團隊重寫了幾乎每個底層算子,對計算流程、內存訪問模式等做了深度改造和優化,不僅可以跑FP8精度的模型,也極大提升了用戶體驗。如果說KTransformers解決了如何利用CPU的內存在單張GPU上把模型跑起來的問題,那么行云解決的核心,就是如何將物理內存帶寬盡可能多地轉化為大模型實際使用的有效帶寬。
這種對帶寬的極致追求體現在對每個計算環節的毫秒級優化上。季宇特別提到了混合專家模型(MoE)層——這是一個典型的內存帶寬密集型計算場景,以Q4KM格式(INT4)為例,在KT的實現中, 每Token時間中MoE部分需要超過30ms, 但理論值只需要13ms,而行云將其優化到了約18ms。
“在INT4精度下,MoE層處理一個token大約需要30多毫秒,而根據CPU實測帶寬理論計算,大約只需要13毫秒。而我們一步步將這個時間優化到了18毫秒,非常接近理論極限,”季宇說,“換成FP8精度,這里的時間又要翻倍,為了達到足夠好的體驗,每一毫秒都要爭取?!?/p>
生成token所用市場與TPS關系 制圖:甲子光年
這也是褐蟻一體機將滿血版大模型的運行效率從行業平均水平的20token/s提升到接近30token/s的原因(每減少1ms的Token生成時間,TPS可提升約1個,如從20ms優化到19ms,TPS從50升至52.6)。
褐蟻一體機測試數據 圖源:行云集成電路
對內存瓶頸的深刻理解、對DDR內存潛力的挖掘利用、以及對推理引擎近乎重寫的極致優化——這三者的結合,共同構成了褐蟻的核心競爭力,這也是行云能將“褐蟻一體機”這款顛覆行業的“大殺器”賣到10萬元的秘密。
3.從“褐蟻”到“蟻群”
“褐蟻”一體機的推出,僅僅是行云“技術平權”愿景的第一步。
行云本身是一家芯片設計公司,未來他們計劃推出自研的GPU/AI加速卡,搭載到即將面世的褐蟻HY70和褐蟻HY50上,這是性價比更高的一體機解決方案。
季宇表示,未來,行云也將進一步提升單機的并發處理能力, 目前正在將10臺褐蟻HY90一體機做簡單負載均衡,可以支持20個有效并發,與單臺八卡141G版本H20一體機的并發數相當。但十臺褐蟻HY90的價格約為150萬元,有實力與H20一體機五五開平分市場。
此外,行云還有更加激進的、由30臺褐蟻一體機組成的“蟻群”方案,可以發揮分布式系統的進一步優化能力,支持500-1000的有效并發數,而價格只有300-400萬元。該方案對標的是H200集群——目前單臺H200一體機跑滿血版大模型的并發數約為50左右,但是單價約為250萬元一臺,10臺H200一體機的集群價格達到了2000萬元,遠高于行云30臺“分布式蟻群”的價格。
“DeepSeek私有化部署并不是百萬成本的東西,”季宇表示,“把門檻降到十萬價位,很多原來沒有需求、甚至沒想過可能性的用戶和場景就能被打開了?!?/p>
劉慈欣在《三體》中寫道:“褐蟻和蜘蛛不知道,在宇宙文明公理誕生的時候,除了那個屏息聆聽的遙遠的世界,僅就地球生命而言,它們是僅有的見證者?!?/p>
在那宏大的宇宙圖景中,微小的褐蟻也能見證宇宙公理的誕生,而行云對其一體機的命名也正是來源于此。他們希望一體機能像宇宙中的“褐蟻”一樣,撬動被高成本束縛的大模型落地應用市場,讓前沿AI技術不再是少數巨頭的專屬,而是能真正賦能千行百業的普惠工具。
或許正如大劉的隱喻,AI普惠的鑰匙,不在壟斷者的保險箱里,而在每一份微小卻極致的技術突破中。
(封面圖來源:AI工具生成)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.