99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

摩爾線程王華:算力需求千倍增長,大集群和FP8成為強需求

0
分享至



智東西(公眾號:zhidxcom)
作者 | 中國AI算力大會

6月26日,2025中國AI算力大會在北京熱烈召開。從國產AI算力的突圍與崛起,到智算中心深層軟硬件技術創新解決算力落地產業難題,近30位重量級嘉賓與會帶來致辭、報告、演講和對話,全方位解構DeepSeek引爆的AI算力變局。

摩爾線程副總裁王華在主會場以《基于FP8的國產集群訓練》為題進行了主題演講。在演講中他提到2020至2025年間,大模型訓練的算力需求激增近1000倍 ,而驅動力來自參數規模與數據量雙向增長。

王華認為,大集群和FP8成為大模型現階段的最強需求。對此,他圍繞大模型算力需求、混合精度訓練、FP8訓練技術演進等方面進行了深入淺出地剖析闡釋。

此外,王華還分享道,摩爾線程提供包括FP8在內的全精度算力,構建了支持多種不同數據類型的混合精度訓練方案,還可以提供萬卡集群開箱即用的產品,可以滿足大模型的算力需求,并大幅提升其訓練效果。

以下為王華的演講實錄精華:

一、5年,大模型訓練算力需求增長千倍

首先來看一下大型訓練需求的趨勢。2020年,算力需求訓練需求最高是在1023flops。到25年,訓練算力需求最高的是xAI的Grok3,算力需求差不多到了1026flops。從1023到1026,算力需求增長了1000倍。



增長主要來自兩個方面:一是模型參數。大模型的模型參數規模是在不斷增加的,最近的模型動轍都是數千億甚至到萬億的參數規模;第二是訓練數據量。早期訓練數據量可能到幾百B,稍微多一點到1T,但現在基本都是十幾T。

所以,算力需求和模型參數數量與訓練數據量的乘積成正比,而這兩個維度的增長,帶來模型訓練算力需求的大幅增長。

再舉一個例子,比如,Llama 3 70B大概是在1024flops左右,然后更大一點Llama 3 405B在1025flops左右,GPT 4也在1025左右,早期的Llama 2大概在1023flops左右。雖然Llama 2與Llama 3的模型參數和模型結構比較類似,但是因為Llama 2的訓練數據量低一個數量級,所以它要求的算力也會低一個數量級。



不只是算力,這些大規模訓練所需要的集群也越來越大。為了校正所需要的算力,用H100的千卡、五千卡到萬卡量級的集群來作類比。表格中的數據是按照MFU算的,當然不同模型的參數大小對MFU有影響,另外集群規模增大之后由于加速比效應,MFU會下降,所以這里只是大致的估算。

這個量級中,DeepSeek V3的算力需求大概在3.4×1024flops。在千卡集群上,1024的訓練時間大概是97天,五千卡集群需要22天,到萬卡級別就只需要13天了。再舉一個例子,Qwen 3 235B,雖然模型參數小一些,但因為數據集更大,它的實際算力會更高,所以Qwen 3 235B計算量約為4.75×1024flops。再看一下訓練時間,這個計算量在千卡集群上需要136天,五千卡上是37天,到萬卡就只需要18天。這是兩個比較典型的國內MOE模型的例子。

再比如說Llama 3 370B,這是比較典型的Dense模型(稠密模型),訓練數量也差不多在1024flops左右,訓練時間也與Qwen 3差不多。

更大的模型,比如GPT 4,訓練數量有1025flops,這幾乎是千卡不可能完成的任務,到這個量級基本需要萬卡級別的集群來支撐。尤其是現在大模型的訓練參數基本都在向著萬億發展,數量級十分巨大,所以后續訓練需要的算力也會非常大。

二、混合精度訓練緩解算力需求激增難題

為了解決算力需求,摩爾線程采用混合精度訓練的方法。在整個模型訓練過程中,識別出對精度要求不高的操作,將其替換為低精度計算。

更低精度帶來的優勢,首先體現在算力層面:精度降低一半,算力翻倍,同時顯存占用、顯存帶寬及傳輸帶寬消耗均減半。本質上,采用更低精度的數據類型進行訓練,相當于實現了算力的翻倍。但需注意,低精度替換只能部分進行,無法完全替代,精度敏感的環節仍需保留高精度計算。因此,降低精度可在一定程度上提升算力或降低模型訓練的算力需求。



在精度策略的設計上,可從兩個維度考量:第一個維度是模型權重。以相同算力條件為例,對比多參數低精度模型與少參數高精度模型,如100B參數規模的FP16模型和200B參數規模的FP8模型,從數學表達能力來看,其可表達的理論空間是等價的。

但當前行業趨勢更傾向于優先擴展模型參數規模。這是因為模型訓練中實際使用的精度范圍僅占理論值域的一部分,造成“精度空間浪費”,而增大參數規模能有效提升模型效果。

從行業技術演進來看,精度格式正沿著FP32→TF32→FP16/BF16→FP8的路徑發展。此前業界對FP8的應用尚處探索階段,而DeepSeek已將其成功應用于模型訓練,預計未來會有更多模型采用FP8精度。

三、FP8訓練挑戰解析:數值范圍局限與精度損失引發的梯度問題

FP8訓練面臨什么挑戰?首先我們看一下不同浮點數的值域。因為指數位不同,取值范圍其實差別很大。比如BF16,忽略正負號,可以看到值域靠低端的部分可以到2-126,然后高端的可以到2127。FP16的值域會小很多,但有十位尾數,值域靠低端部分接近2-14,然后高端部分是六萬多。

FP8有E4M3和E5M2兩種,可以看到,E4M3的取值范圍其實非常窄,只有2-6到448,E5M2跟FP16類似,但其實跟現在廣泛用的BF16比,取值范圍還是小很多。這里面有兩個因素,一個是取值范圍,一個是精度。

取值范圍就是剛剛講到的從小數到大數的范圍,因為FP8的數值范圍小,很可能在計算過程中遇到數值上溢和下溢的問題,如此就會帶來一個典型問題:梯度爆炸和梯度消失。

精度就是尾數部分能夠表達的數量。精度低會帶來舍入誤差的問題。例如在做數值轉換的時候,可能BF16能表示的數在FP8里就會丟失掉一些小數。另外就是一個大數加一個很小的數,由于小數部分太小了,兩者就相當于沒加,這樣就會造成信息丟失,對模型訓練過程會帶來梯度無法更新的問題。

四、FP8訓練技術不斷演進,4大創新攻克低精度核心難題

這兩年FP8訓練技術取得多項進展,已經應用在一些模型的訓練中。

模型訓練中不同操作對精度的需求是不一樣的:

1、矩陣乘操作:作為兩數相乘的基礎運算,FP8的數值范圍易于控制,可通過值域限定避免溢出,對精度要求較低;

2、累加與規約操作:矩陣乘中隱含的累加過程(尤其大矩陣運算時多數相加)存在值域溢出風險,對精度要求處于中等水平;

3、非線性函數運算:如指數函數等場景,數值易快速超出值域,對精度要求最高。

基于此,訓練中可對不同操作采用差異化精度策略,通過中間過程的量化與反量化實現精度適配。

Tensor Core技術提供了混合精度運算的硬件支持。自2017年引入以來,該技術持續進化,現可支持以FP8格式矩陣為輸入,通過硬件級混合精度運算輸出高精度矩陣結果。

此外,訓練框架也在支持混合精度訓練。例如在BF16與FP32的混合訓練中,多數操作采用BF16執行,但權重更新時會切換至FP32,通過維護FP32權重副本確保訓練穩定性。

還有就是Tensor Scaling(張量縮放)技術。在進行高精度向低精度轉換時,由于值域范圍不同,會出現信息丟失問題。因此在數據類型轉換前,需先將高精度值域乘以Scaling Factor(縮放因子)參數,使其縮放到低精度值域范圍內,以此確保轉換過程中盡可能減少數據丟失。

Scaling Factor的選擇可以有不同的策略。在時間維度上來看可以是在量化前直接計算,也可以采用基于歷史數據的Delayed Scaling Factor(延遲縮放因子)。

從顆粒度來看,既可以對整個 Tensor 應用統一的Scaling Factor,也能進行更精細的選擇,比如Per-Channel(逐通道)縮放,甚至還能進一步細化到Per-Channel的子區域。DeepSeek在其論文中提及,他們采用的是Per-Block(逐塊)的縮放策略。

簡單說一下DeepSeek的論文。DeepSeek-V3就使用了FP8混合精度訓練,其中主要采用了以下策略:

1、前向和后向傳播的3次GEMM使用FP8;

2、激活值的緩存和傳輸使用FP8;

3、Embedding、激活函數等模塊使用高精度浮點數;

4、主權重、權重梯度、優化器狀態使用高精度浮點數。

五、摩爾線程全棧支持FP8訓練,性能提升20%~30%,對標主流水平

那我們說回到摩爾線程在采用FP8訓練上面的一些工作。

首先,摩爾線程的全功能GPU計算卡在精度上的支持非常全面,摩爾線程是國內少數可以支持FP8精度的GPU供應商。不同計算精度可以用在圖形、計算等不同場景,摩爾線程計算卡的優勢就是支持全精度計算。

第二點就是在集群方面的工作。摩爾線程可以說是在集群這一方面投入很大的國產GPU公司。我們的夸娥(KUAE)智算集群系列產品可以讓客戶實現開箱即用,已經做到千卡規模,可支持萬卡,未來還會向著更大規模集群前進。

在這一整個過程中,我們積累了很多實踐。摩爾線程搭建了完整的軟硬件棧,從硬件設計到集群管理、調度等全部包含。在大規模集群的運維方面也積累了豐富的經驗。在大規模訓練時,經常會出現計算錯誤、卡異常等情況,如何快速定位出現故障的部分將其替換是很重要的。我們采用了分布式的故障監測方法,實現分鐘級的故障定位和恢復。

另外還有支持FP8訓練的摩爾線程軟件棧。我們開源了3個組件:提供MUSA后端加速支持的Torch-MUSA、混合并行訓練框架MT-MegatronLM以及主要用于Transformer的高效訓練和推理優化的MT-TransformerEngine。基于摩爾線程軟件棧,我們成功復現了DeepSeek-V3滿血版訓練。

在此之上我們做了一系列的實驗,基于我們自己的夸娥(KUAE)集群,在性能方面,在Llama3 8B、Qwen、DeepSeek-V2 16B以及V3 30B上,目前采用FP8混合訓練可以帶來20%~30%的性能提升,且引入FP8前后loss曲線基本一致,在采用FP8訓練方面,摩爾線程的GPU計算卡與國際主流的卡做精度對比也基本吻合。

此外,摩爾線程在Scaling Factor的選擇上也做了許多探索,例如:amax的統計信息表明Per-Tensor的Scaling Factor適合采用Delayed Scaling策略,而Per-Block則適合采用JIT Scaling策略。我們還用摩爾線程GPU計算卡做了Smooth SwiGLU論文的復現,我們發現,通過Smooth SwiGLU可以有效降低outlier的影響。

今天我給大家匯報的內容就是這些,謝謝。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
公牛用雙向合同簽下日本后場球星,他在夏聯期間的表現其實很一般

公牛用雙向合同簽下日本后場球星,他在夏聯期間的表現其實很一般

稻谷與小麥
2025-07-22 00:43:53
南寧原配捉奸后續:小三正臉曝光,渣男被開除,知情人透更多內幕

南寧原配捉奸后續:小三正臉曝光,渣男被開除,知情人透更多內幕

鋭娛之樂
2025-07-22 01:10:03
進入7月底,4屬相時來運轉,事業順利,生活越來越精彩

進入7月底,4屬相時來運轉,事業順利,生活越來越精彩

素然追光
2025-07-22 00:19:11
郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統后不駐軍

郭正亮給了臺灣“最好”出路?一國兩制改1個字,或可統后不駐軍

顧史
2025-07-08 21:02:11
賺麻了!開拓者選中楊瀚森后,短短一個月收入暴漲11倍,遠超去年

賺麻了!開拓者選中楊瀚森后,短短一個月收入暴漲11倍,遠超去年

侃球熊弟
2025-07-21 23:44:35
高溫已至!中科院提醒:愛喝白酒的人,喝白酒盡量做到5不要

高溫已至!中科院提醒:愛喝白酒的人,喝白酒盡量做到5不要

健身狂人
2025-07-20 15:12:30
“被饑餓營銷騙了!”江西女生哭訴后悔報考福耀科技,不如去985

“被饑餓營銷騙了!”江西女生哭訴后悔報考福耀科技,不如去985

振華觀史
2025-07-21 12:36:05
男子強奸大嫂出獄后刺死見義勇為者,大嫂被索賠百萬

男子強奸大嫂出獄后刺死見義勇為者,大嫂被索賠百萬

中國新聞周刊
2023-05-23 17:10:35
A股:股民要做好準備!明天(7月21日)的大盤會這樣走

A股:股民要做好準備!明天(7月21日)的大盤會這樣走

風風順
2025-07-21 00:11:58
央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
以色列嚴拒多國聯合聲明 指控哈馬斯阻撓停火協議

以色列嚴拒多國聯合聲明 指控哈馬斯阻撓停火協議

財聯社
2025-07-22 01:02:04
世界巔峰之作!中國的偉大工程正式動工,印度反對無效

世界巔峰之作!中國的偉大工程正式動工,印度反對無效

兵國大事
2025-07-21 00:05:15
兒媳年薪80萬,婆婆逼她給小姑子50萬,不然就離婚,兒子笑了:那就離

兒媳年薪80萬,婆婆逼她給小姑子50萬,不然就離婚,兒子笑了:那就離

澤澤先生
2025-07-12 07:00:07
著名導演逝世,終年63歲!曾擔任奧斯卡評委!

著名導演逝世,終年63歲!曾擔任奧斯卡評委!

魯中晨報
2025-07-21 16:48:09
張繼科打了翻身仗!人民日報為其發聲,但這次動了誰的蛋糕?

張繼科打了翻身仗!人民日報為其發聲,但這次動了誰的蛋糕?

夕落秋山
2025-07-21 17:49:36
八國聯軍:流傳已久的謊言!

八國聯軍:流傳已久的謊言!

深度報
2025-07-13 22:52:06
螞蟻吞大象?生產殲20的成飛集團僅174億就被收購,用意耐人尋味

螞蟻吞大象?生產殲20的成飛集團僅174億就被收購,用意耐人尋味

書中自有顏如玉
2025-07-21 15:52:57
援俄讓朝鮮看清了自己,再不做出改變,百萬朝軍將無立足之地

援俄讓朝鮮看清了自己,再不做出改變,百萬朝軍將無立足之地

跳跳歷史
2025-04-28 14:27:45
蔚來喜獲200億,李斌又回一口血

蔚來喜獲200億,李斌又回一口血

快刀財經
2025-07-21 22:41:44
他擔任局長后,和12個女下屬有染,一個26歲的女人將他拉下馬

他擔任局長后,和12個女下屬有染,一個26歲的女人將他拉下馬

喬生桂
2024-07-01 16:26:12
2025-07-22 02:48:49
智東西 incentive-icons
智東西
聚焦智能變革,服務產業升級。
10179文章數 116804關注度
往期回顧 全部

科技要聞

劉強東闊氣出手!兩月投了4家具身智能公司

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

頭條要聞

男子為終身質保花60萬買蔚來 1年跑17萬公里權益沒了

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

教育
親子
本地
家居
數碼

教育要聞

清華直通!7名學霸被保送,一中、南外、金中河西的學霸上榜!

親子要聞

看這小孩調皮的想上窗臺,媳婦炒幾個菜給公婆送,炒蘑菇太好吃啦

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

家居要聞

別樣老上海 重塑復古優雅

數碼要聞

首發 AMD 銳龍 9 9850HX 處理器,雷神預熱獵刃 S Ultra 游戲本

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平阳县| 大关县| 宣恩县| 尚志市| 武汉市| 孟州市| 阆中市| 彭州市| 泽库县| 紫阳县| 榆中县| 屏东市| 沾益县| 建水县| 镇雄县| 江陵县| 凌海市| 介休市| 涞水县| 安西县| 靖州| 东安县| 宿迁市| 昔阳县| 扶风县| 枝江市| 扬州市| 门源| 江陵县| 泊头市| 若尔盖县| 台山市| 大同市| 剑河县| 桃江县| 永年县| 团风县| 绥化市| 泸州市| 满城县| 卫辉市|