99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

國產GPU跑滿血DeepSeek,已經可以100 tokens/s了!

0
分享至

金磊 發自 WAIC
量子位 | 公眾號 QbitAI

放眼當下,到底哪個芯片跑滿血DeepSeek是最快的?

答案很意外——不是你以為的英偉達,而是一家國產GPU

因為現在它的速度,已經直接來到了100 tokens/s!



這個速度相比國外GPU的50 tokens/s和國內的15 tokens/s,已經稱得上是快上了一個數量級。



若是將三者放在一起同時運行,效果會更加一目了然。

當中間的國產GPU以行云流水之勢給出了完整準確答案之際,兩邊的“選手”則是還在深度思考過程中:



那么這個國產GPU到底是誰?

不賣關子,它就是摩爾線程。

但這時肯定有很多小伙伴會問了,從成立到現在不到5年時間,摩爾線程的何以取得如此速度。

在量子位了解完其在“算力之道”的全貌之后發現,答案,遠比“做出一顆更快的芯片”要宏大和深刻。

已經造了個AI超級工廠

沒錯,這是因為摩爾線程在搞算力這件事兒上,已經給自家打造了一個AI超級工廠(AI Foundry)。

提到Foundry這個單詞,很多人第一反應或許就是造芯片時的“晶圓廠”,它的價值取決于于生產芯片的良率、產能和工藝先進性。

但AI超級工廠,它并非指代一個物理上生產芯片的晶圓廠,而是一個類比的概念:

這個AI工廠的進化,就像升級制程一樣,絕不是改改某個單一技術就完事兒了,而是一個系統性、全方位的變革。

它要求整個技術棧“脫胎換骨”:從最底層的芯片架構必須革新、到集群的整體架構得巧妙設計,再到軟件層面——算法怎么調更聰明,資源調度怎么跑更高效,每一個環節都至關重要。

正是這種從根兒上動起來的基礎設施大改造,才能真正釋放AI算力,實現大規模“生產”和“迭代”前沿AI大模型。



需要強調的一點是,要建成這樣一座超級工廠,絕非暴力地將成千上萬張顯卡堆砌在一起這么簡單。

它需要五大核心要素的緊密耦合與協同進化,缺一不可;

這個AI工廠的產能,用一套公式可概括為:

AI工廠生產效率 = 加速計算通用性 × 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性

摩爾線程正是圍繞這五大要素,構建了技術護城河。

全功能GPU:超級工廠的基石

AI超級工廠的基石,指的是一顆具備強大通用性的“全功能GPU”。因為回顧算力的進化史,其實就是一部全功能GPU的發展史。



從最初只能加速3D圖形的“顯卡”(VGA Card),到開放編程接口、允許開發者創造無限可能的“現代圖形處理器”,再到被廣泛應用于超算、深度學習、區塊鏈等領域的通用計算平臺,GPU的每一次飛躍,都源于其通用性的拓展。

單一功能的加速器,如早期的3D加速卡或今天的某些專用AI芯片(ASIC),雖然在特定任務上效率極高,但其靈活性差、編程困難,無法適應AI模型日新月異、應用場景層出不窮的發展趨勢。

一個AI模型可能既需要處理語言,也需要理解圖像,甚至要進行物理世界的模擬。如果工廠的“機床”只能處理一種任務,那么它很快就會被淘汰。

因此,摩爾線程從創立之初就堅持打造真正的全功能GPU,既要“功能完備”,也要“精度完整”。



首先是“功能完備”,即芯片內部集成了四大核心引擎:

  1. AI計算加速引擎:不僅能做推理,更能做訓練,實現訓推一體。
  2. 先進的3D圖形渲染引擎:支持DX12等現代圖形API,滿足游戲、AIGC、數字孿生等視覺計算需求。
  3. 物理仿真與科學計算引擎:這是常被忽視卻至關重要的一環。未來的Agentic AI、空間智能都需要與物理世界交互,強大的科學計算能力是連接數字世界與物理世界的橋梁。
  4. 超高清視頻編解碼引擎:AI的計算結果最終需要通過視覺和聽覺呈現給人類,高清、低延遲的流媒體處理能力是人機交互體驗的保證。



其次,“全計算精度”覆蓋。從FP32、FP16到業界前沿的FP8,乃至更低精度的INT8/INT4,完整的精度支持讓開發者可以根據不同任務的需求,在性能和精度之間找到最佳平衡點。



特別是在大模型訓練中,混合精度訓練已是標配,而摩爾線程是國內極少數能夠提供FP8訓練能力的平臺。“全功能”和“全精度”能力,確保了摩爾線程的GPU這座“機床”能夠承接各類AI模型生產訂單。

MUSA統一系統架構:超級工廠的“總設計師”

如果說全功能GPU是工廠的機床,那么MUSA就是整個工廠的“總設計師”。一個卓越的頂層架構,能夠決定一家公司未來十年甚至更長時間的技術路線和發展潛力。

MUSA的核心理念是“一個架構,萬千應用”(One Architecture for Many Applications)。它采用創新的多引擎、可伸縮、可配置的統一系統架構,將GPU內部的計算、通信、內存、調度等功能進行頂層設計和統一管理。

先來看可伸縮,顧名思義,MUSA架構是可以根據不同客戶、不同市場的需求,快速裁剪出優化的芯片配置,大幅降低了新品芯片的開發成本。

其次,資源全局共享,簡單說,就是把所有硬件資源——像計算核心、內存、通信這些——都打通,變成一個大資源池,然后用智能調度靈活分配。

這招兒直接解決了大問題:以前那種單引擎GPU,多個任務一起跑的時候特別容易卡。現在好了,所有資源大家共享,按需取用!



再例如,統一編程接口與指令集,開發者只需學習一套API和編程模型,就能驅動MUSA架構下所有的硬件引擎,極大地降低了開發門檻,提升了開發效率。

除此之外,MUSA架構內部包含了多個摩爾線程自研的核心技術。



例如,專門為FP8設計的“Transformer引擎”,使其FP8的訓練性能相比沒有該引擎的方案能提升30%;獨創的ACE異步通信引擎,可以讓計算和通信并行不悖,解決了傳統架構中通信會占用計算資源的痛點,減少了15%的計算資源損耗,將GPU的算力釋放;自研的MTLink2.0互聯協議,實現了GPU之間高效、低延遲的通信,提供了高出國內行業平均水平60%的帶寬,為大規模集群部署奠定了堅實基礎。



MUSA架構的先進性,確保了摩爾線程的每一顆芯片都不是孤立的算力單元,而是一個高度協同、管理高效的“作戰小組”,有效提升每顆芯片有效算力,為整個AI超級工廠提供了堅實的、可擴展的算力底座。

MUSA全棧系統軟件:超級工廠的“操作系統”與“工具箱”

再好的硬件,若是沒有高效的軟件,同樣也無法發揮其全部潛力。因此,摩爾線程打造了與MUSA硬件架構深度耦合的全棧軟件系統,它在AI超級工廠中扮演著“操作系統”和“開發者工具箱”的角色。

這個軟件棧可以說是覆蓋了從底層驅動到上層應用框架的方方面面:



  • 高效驅動:摩爾線程的驅動經過深度優化,核函數啟動時間縮短50%,任務派發延遲極低,可以一次性并發處理上千個任務,領先業界水平。
  • 核心算子庫:對標國際大廠的cuDNN,摩爾線程的muDNN在算子層面進行了大量優化,GEMM算子算力利用率達98%,Flash Attention 算子算力利用率突破95%。



  • 通信效能躍升:MCCL訓練通信庫實現RDMA網絡97%帶寬利用率;基于異步通信引擎優化計算通信并行,集群性能提升10%。
  • 生態兼容與Triton支持:通過MUSIFY等工具,實現了對PyTorch、TensorFlow等主流AI框架的無縫支持。尤其值得一提的是,基于Triton-MUSA編譯器 + MUSA Graph 實現DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。
  • 完善的開發者套件:提供了一整套涵蓋性能分析(Profiler)、調試、調優、一鍵部署等功能的工具鏈,如同一個“百寶箱”,讓開發者能夠洞察硬件運行的每一個細節,榨干硬件的每一分性能。

這套全棧系統軟件,確保了開發者不僅能“用起來”,更能“用得好”,將MUSA硬件架構的強大能力順暢地傳遞到上層應用,是連接硬件與算法的關鍵樞紐。并且通過MUSA全棧系統軟件的優化,摩爾線程實現了“單節點計算效率”全面提升。



KUAE計算集群:超級工廠的“生產車間”

單卡、單節點的性能再強,也無法完成動輒千億、萬億參數大模型的訓練。AI超級工廠必須以大規模集群的形式存在。為此,摩爾線程構建了夸娥(KUAE)大規模智能計算集群。



夸娥計算集群遠非簡單的服務器堆疊,它是一個軟硬一體化的系統工程,相當于AI大模型的“生產車間”:

  • 軟硬一體化設計:從服務器節點、交換機到機柜,再到上層的集群管理軟件、任務調度系統,全部進行了協同設計和優化。
  • 創新5D并行訓練:摩爾線程整合數據并行(DP)、流水線并行(PP)、張量并行(TP)等所有主流的并行訓練策略,全面支持Transformer等主流架構,并能根據模型特點自動搜索和推薦最優的并行方案。
  • 端到端訓練優化:覆蓋了從數據預處理、模型預訓練、強化學習、微調到驗證評估的全流程,提供一站式服務。
  • 性能仿真工具(Simumax):自主研發的Simumax工具面向超大規模集群自動搜索最優并行策略,精準模擬FP8混合精度訓練與算子融合,為DeepSeek等模型縮短訓練周期提供科學依據。
  • 高效Checkpoint:針對大模型穩定性難題,創新CheckPoint加速方案利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,提升GPU有效算力利用率。

通過夸娥計算集群,摩爾線程將單點的GPU性能優勢,成功擴展到了千卡、萬卡乃至更大規模的集群層面,構建起了一個真正具備強大“生產力”的AI超級工廠。并且通過實測,KUAE 2大規模智算集群,在不同架構模型的MFU,已經達到了行業領先水平。



零中斷容錯技術:超級工廠的“安全生產協議”

對于一個需要7x24小時不間斷運行的AI超級工廠來說,穩定性壓倒一切。一次意外的宕機,可能意味著數百萬美元的損失和數周工作的付諸東流。因此,摩爾線程開發了獨有的“零中斷容錯技術”,這是保障工廠穩定運行的“安全生產協議”。

傳統的容錯機制,在硬件(如GPU卡)發生故障時,需要暫停整個訓練任務,人工替換硬件,再從最近的Checkpoint恢復,整個過程耗時耗力。而摩爾線程的零中斷技術則完全不同:

  • 零中斷容錯技術:當某個節點變慢或出現故障時,僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓練時間占比超99%,大幅降低恢復開銷。
  • 多維度訓練洞察:通過多維度的數據監控和AI預測模型,系統能夠提前感知到哪些節點可能會成為“慢節點”,并進行預警或隔離,實現動態監測與智能診斷,異常處理效率提升50%;
  • 集群自檢及調度優化:在訓練任務開始前,系統會自動對整個集群進行“體檢”,確保所有軟硬件都處于最佳狀態,如同飛機起飛前的安全檢查,訓練成功率提高10%,為大規模AI訓練提供穩定保障。



總結來看,上述的五大要素,即全功能GPU、MUSA架構、全棧軟件、KUAE集群、零中斷容錯技術,共同構成了摩爾線程的AI超級工廠。



它是一個有機的整體,從芯片設計的最底層到集群管理的最上層,環環相扣,協同進化。正是這個完整的、端到端的體系,才造就了文章開頭的性能表現。

那么接下來的一個問題是:

為什么要造AI超級工廠?

這個問題的答案,或許植根于摩爾線程對計算革命過去、現在與未來的深刻洞察。

十年前,以人臉識別、自動駕駛為代表的“感知AI”大爆發,催生了第一批AI巨頭。而從2022年ChatGPT橫空出世至今,我們正處在“生成式AI”的指數級爆發期。

大模型的“智商”迭代速度令人咋舌,從去年還在人類平均水平的四五十分,到如今頂尖模型已經飆升至七八十分,直逼人類頂尖水準。

模型的迭代速度,也從過去的數月一更,壓縮到如今的數周甚至每周一更。這場競賽的背后,驅動力只有一個——算力。

正如馬斯克能夠憑借其20萬張H100,讓Grok模型在短時間內登頂排行榜,這殘酷地揭示了一個事實:Scaling Law是AI發展的鐵律。

誰擁有更大、更強的算力基礎設施,誰就能更快地迭代模型,搶占技術和市場的制高點。

而展望未來五年,Agentic AI(智能體AI)和空間智能將成為新的爆發點。AI將不再僅僅是聊天的工具,而是成為可以自主完成復雜任務的“數字員工”,并與物理世界深度融合。

這一切,都意味著對算力的需求將再次呈幾何級數增長。在這樣的大背景下,僅僅滿足于當下的計算能力是遠遠不夠的,必須為未來更加龐大的計算需求做好準備。

面對永無止境的算力需求,僅僅追求“快”是片面的。未來的計算,更需要的是全方位的“穩”——穩定、可靠、高效、通用。

這正是建設AI超級工廠的根本原因。



訓練一個萬億參數的大模型,好比建造一座港珠澳大橋,是一項極其復雜的系統工程。它對基礎設施的要求,堪比建造一座芯片晶圓廠。

你不能指望靠“人海戰術”,找十億個兒童去抬起一棟大樓;同樣,你也不能簡單地將一萬張低效的顯卡堆在一起,就期望能訓練出高質量的大模型。

這個過程充滿了挑戰,例如在成本方面,一次大規模訓練動輒耗費數月和數百萬美元,任何中斷或失敗都是巨大的損失。

再如面對復雜的系統,上千個節點、上萬顆芯片如何高效通信、同步?軟件和硬件如何完美適配?又該如何快速定位和解決問題?

還有在實際應用過程中,往往任務又是多樣性的:今天訓練語言模型,明天可能就要處理多模態數據,后天又要進行科學計算……

這些挑戰,都無法通過購買單一的“最快芯片”來解決。它需要一個從底層硬件到上層軟件,再到集群管理和運維服務的端到端解決方案。

這恰恰是摩爾線程“AI超級工廠”的核心價值所在——它提供的不是孤立的算力,而是一種確定性的、高效率的、高成功率的AI模型生產能力。

總而言之,摩爾線程選擇了一條最艱難,但可能也是最正確的道路。他們沒有滿足于在某個單點上追趕或超越,而是立足于未來,從根本上思考如何為這個時代提供最先進的“生產力工具”。

這,就是摩爾線程給出的答案,一個不止于快,更關乎未來的答案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度又在打窩了:主動給中國送來好消息,有個條件要中企必須滿足

印度又在打窩了:主動給中國送來好消息,有個條件要中企必須滿足

欽點歷史
2025-07-27 05:10:03
楷楷來馬店度假,老杜男友發視頻秀恩愛,直播時吐槽許敏游山玩水

楷楷來馬店度假,老杜男友發視頻秀恩愛,直播時吐槽許敏游山玩水

猛哥的搞笑視頻
2025-07-27 01:46:42
“這編制白送也不要”,大量考生錄而不去,內行人無奈曬出工資條

“這編制白送也不要”,大量考生錄而不去,內行人無奈曬出工資條

妍妍教育日記
2025-07-26 14:11:38
中科院楊俊杰博士去世,年僅42歲,死因曝光,老同學:她太辛苦了

中科院楊俊杰博士去世,年僅42歲,死因曝光,老同學:她太辛苦了

叨嘮
2025-07-25 23:22:14
國務院食安辦:針對嬰幼兒食品、賑災食品等加大日常監管力度

國務院食安辦:針對嬰幼兒食品、賑災食品等加大日常監管力度

界面新聞
2025-07-26 19:08:48
北京通報:2人被查!

北京通報:2人被查!

大峰
2025-07-26 09:03:16
四川省紀委監委:1人被開除黨籍 1人被查

四川省紀委監委:1人被開除黨籍 1人被查

金臺資訊
2025-07-26 13:58:25
破譯秦朝竹簡,歷史再無秘密!秦始皇被黑2000年,這下“大白”了

破譯秦朝竹簡,歷史再無秘密!秦始皇被黑2000年,這下“大白”了

國學聚焦
2025-07-23 13:11:14
重慶2025養老金調整細則,掛鉤0.55%,一個特別做法,3千漲多少?

重慶2025養老金調整細則,掛鉤0.55%,一個特別做法,3千漲多少?

甜檸聊史
2025-07-26 09:05:25
剛剛!天津應急局發布緊急提示!

剛剛!天津應急局發布緊急提示!

天津族
2025-07-27 00:08:51
中國車被英國新政排除,比亞迪半年賣1.9萬輛,你說誰更尷尬?

中國車被英國新政排除,比亞迪半年賣1.9萬輛,你說誰更尷尬?

總李談車
2025-07-26 17:31:59
我在巴西旅居了10個月,說幾句,可能很多人不愛聽的大實話

我在巴西旅居了10個月,說幾句,可能很多人不愛聽的大實話

i書與房
2025-06-09 08:20:07
首輪第十順位!上海男籃官方:歡迎吳澤昊加入上海久事大家庭!

首輪第十順位!上海男籃官方:歡迎吳澤昊加入上海久事大家庭!

雷速體育
2025-07-26 12:21:16
中國駐黎巴嫩使館與赴黎維和部隊祭掃杜照宇烈士墓

中國駐黎巴嫩使館與赴黎維和部隊祭掃杜照宇烈士墓

新華社
2025-07-27 05:03:02
急了?美國退出停火談判,特朗普再發出威脅:哈馬斯不想達成協議,他們想死

急了?美國退出停火談判,特朗普再發出威脅:哈馬斯不想達成協議,他們想死

環球網資訊
2025-07-26 09:34:22
“比上清北還難!”浙江王同學被錄取,國家將派專機接他入學!

“比上清北還難!”浙江王同學被錄取,國家將派專機接他入學!

妍妍教育日記
2025-07-25 20:10:12
錢學森夫人蔣英,彌留之際說:我該走了,你們父親在那邊很孤獨

錢學森夫人蔣英,彌留之際說:我該走了,你們父親在那邊很孤獨

有范又有料
2025-07-26 13:50:48
江蘇22歲女孩被男友虐死,器官塞進公仔,過程長達2小時

江蘇22歲女孩被男友虐死,器官塞進公仔,過程長達2小時

青絲人生
2024-07-21 21:38:45
袁久紅真的“久紅”了!被學生發現已重出江湖,崗位名稱耐人尋味

袁久紅真的“久紅”了!被學生發現已重出江湖,崗位名稱耐人尋味

妍妍教育日記
2025-07-24 18:12:37
鄭欽文首曬康復照,爆出更多恢復細節,拉杜/阿卡或無緣美網混雙

鄭欽文首曬康復照,爆出更多恢復細節,拉杜/阿卡或無緣美網混雙

網球之家
2025-07-26 23:38:57
2025-07-27 05:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10932文章數 176198關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

頭條要聞

佩通坦再發聲:雖無法履行總理職責 但一直在聽取匯報

體育要聞

楊瀚森效力NBA期間 青島男籃將暫存球隊15號球衣

娛樂要聞

董璇首談保釋前夫細節!高云翔突然不回消息

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

藝術
本地
手機
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

手機要聞

盧偉冰:小米16Ultra將是移動影像新高度

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

泰軍方向26國發函:柬埔寨率先開火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 佛山市| 彰化县| 台中县| 烟台市| 鸡西市| 和顺县| 措美县| 遂川县| 日喀则市| 平山县| 阿荣旗| 宝应县| 宣威市| 万载县| 东宁县| 新泰市| 宝鸡市| 渑池县| 宣武区| 确山县| 新竹市| 漯河市| 通江县| 类乌齐县| 邵阳市| 浦城县| 锡林郭勒盟| 荆门市| 石嘴山市| 湄潭县| 宿州市| 棋牌| 清水河县| 汉阴县| 桂林市| 郸城县| 江油市| 延吉市| 前郭尔| 汉寿县| 柏乡县|