99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

敢說永不掉線、秒級恢復,華為的底氣是什么?

0
分享至


在通往通用人工智能(AGI)的路上,如何像其他領域一樣實現彎道超車,是業界繞不開的話題。

在過去的十余年時間里,各項單點技術飛速演進,但隨著單點技術演進的邊際效應遞減和系統復雜度的提升,系統性能的天花板逐步從單點技術的上限演變成系統工程上限:單點優勢越來越像是精致的零件,提升空間有限;但采用系統工程創新,各個部分完美配合、高效協同,實現整個系統的效能最優,才有更積極的現實意義。

如何在發揮單點技術優勢的同時,以整體視角重新構建路徑,通過對復雜系統的極致把控與再組織、找到新的突破可能?解決這個看似不可能的問題,就有望為我們獨立引領最前沿技術發展創造條件。

近期,虎嗅將推出《華為技術披露集》系列內容,通過一系列技術報告,首次全面詳述相關技術細節,為業界提供參考價值。

我們期待通過本系列內容,攜手更多伙伴共同構建開放協作的生態系統,助力昇騰生態在中國的蓬勃發展。

《華為技術披露集》系列 VOL.14 :高可用性

想象一下,你正在用手機導航規劃長途路線,背后可能有幾十個 AI 模型同時在分析路況、預測擁堵;醫院用 AI 輔助診斷癌癥時,系統需要瞬間處理成百上千張 CT 影像。這些看似簡單的智能應用,背后都依賴著像 "超級大腦" 一樣的 AI 算力集群在 24 小時不停運轉。

如果把 AI 算力集群比作一個大型工廠的生產線,高可用性就相當于讓這條生產線具備 "永不罷工" 的能力,給 AI 算力集群上了一份 "保險",讓這個支撐智能時代的 "數字發動機" 既能承受日常的 "小磕小碰",又能在遇到突發故障時保持穩定運行。只有確保算力資源隨時可用、持續輸出,才能讓 AI 真正成為驅動業務創新的可靠引擎,而不是隨時可能熄火的 "半成品"。

高可用核心基礎:面向超節點的故障感知、管理及容錯

AI大集群問題定位復雜,系統規模大、軟硬技術棧復雜、調用鏈長,先要跨域故障定界,然后各域內部故障定界定位,故障診斷面臨巨大挑戰;當前定位時間從數小時到數天,技能要求高 ,難以找到故障設備和根因。華為團隊為了讓集群運維工具能夠快速找到問題原因,有效提升現網問題的閉環效率,提出了全棧可觀測能力,構建了大規模集群的故障感知能力,主要由集群運行視圖、告警視圖、網絡鏈路監控、告警接入和配置、網絡流可觀測能力組成;同時還提出了包括全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷等四大能力的故障診斷技術。

當前行業水平下,萬卡級別的AI集群平均每天會出現一次甚至多次故障,這不僅嚴重影響了訓練效率,還導致了算力資源的大量浪費。為解決這一問題,華為團隊通過建立AI集群全系統可靠性分析模型,實現對可靠性指標的預計評估和分配分解。從可分析、可增強、可驗證、可診斷等方面,持續構建可靠性系統工程能力,突破關鍵可靠性技術,實現CloudMatrix超節點萬卡集群MTBF大于24小時的硬件高可靠能力。

超節點需要做大超節點規模,才能充分發揮超平面網絡的優勢,目前業界沒有使用光鏈路來構建超節點的成功案例,因此華為團隊提出了相應的超節點光鏈路軟件容錯方案。通過多層防護體系,借助超時代答,綠色通道等關鍵技術實現無超節點級故障,通過鏈路級重傳,光模塊動態升降Lane,HCCL算子重執行,借軌通信,雙層路由收斂,Step級重調度等特性,實現光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測技術等,實現光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構建Step級重調度能力,高頻的HBM多比特ECC故障恢復時間縮短至1min,對于因為故障造成的用戶的算力損失下降5%。

高可用助力業務:萬卡集群上千億模型的線性度和訓推快恢

線性度指標用于衡量訓練任務速度或吞吐的提高比例(即完成時間縮短比例)隨算力卡數增長比例的比值。華為團隊提出拓撲感知的協同編排技術TACO、網絡級網存算融合技術NSF、拓撲感知的層次化集合通信技術NB、無侵入通信跨層測量與診斷技術AICT等四項關鍵技術,實現Pangu訓練線性度提升。總體方案如下圖所示:


實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%。

大規模AI集群運行過程中頻繁因為各類硬件、軟件故障導致訓練任務中斷,業界通常使用訓練過程中周期保存的CKPT恢復訓練任務。華為基于軟硬件全棧的技術方案創新打造了如下分層分級的訓練任務故障快恢系統,不同層級的故障恢復能力如下圖所示。


通過數據集索引構建加速、模型編譯緩存加速、集合通信建鏈加速、存儲CKPT加速等關鍵技術優化,萬卡集群的訓練恢復時間可以做到10min以內,進程級重調度恢復能夠有效縮短訓練恢復時間到3min以內,進程級在線恢復進一步縮短訓練恢復時間到30s以內,同時可以降低訓練回滾時間到一個訓練迭代的時間,且與集群規模、模型規模基本無關,極大提升了AI集群可用度和大模型訓練效率。

隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,目前在大EP組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。

針對大EP推理架構的可靠性難題,華為團隊提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從芯片驅動層、框架層、平臺層相互協作,構筑端到端可靠性體系。在不同的故障場景下,采用不同的容錯恢復手段,可以最小化用戶損失。


其中實例內重啟恢復技術,可構筑帶內快速故障感知和重調度、參數權重和鏡像預熱技術等技術,將實例內重啟恢復時間壓縮到5min內。TOKEN級重試技術,基于DeepSeekV3 1P2D多機CloudMatrix 384場景下,針對HBM KV Cache故障,故障恢復時長(從故障發生到Token重新輸出時間),小于10s。相較于業界的10min恢復實例,TLR可將故障影響減少60倍。

針對AI算力集群的高可用性,華為團隊提出了六大創新方案,即故障感知診斷、故障管理、集群光鏈路容錯等高可用所需要三大基礎能力,以及集群線性度、訓練快恢、推理快恢等高可用為業務帶來的三大支撐能力。這六大創新均帶來了非常可觀的收益,比如萬卡集群可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

面向未來,華為團隊會持續在場景多元化與復合化為代表的新應用驅動、異構融合與對資源池化為代表的新架構突破、極致可觀可測與智能自治免維代表的新工程范式等三個方向進行探索,帶來更多的創新成果。

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4447833.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俄專家:中國幫助俄羅斯突破西方的“鐵幕”

俄專家:中國幫助俄羅斯突破西方的“鐵幕”

俄羅斯衛星通訊社
2025-06-24 15:13:30
葛斯齊:我最近要爆個很大的瓜!這瓜足以讓一個人直接離開演藝圈

葛斯齊:我最近要爆個很大的瓜!這瓜足以讓一個人直接離開演藝圈

小娛樂悠悠
2025-06-24 08:53:23
“夠舉報了”,無知母親曬兒子保送通知書,網友一眼發現不對勁

“夠舉報了”,無知母親曬兒子保送通知書,網友一眼發現不對勁

知曉科普
2025-06-23 11:23:17
嘖嘖嘖,現在的電風扇把空調都卷死了!

嘖嘖嘖,現在的電風扇把空調都卷死了!

貴圈真亂
2025-06-24 13:25:11
“志愿卡白買了”,家長試用教育部免費志愿系統,難怪張雪峰要涼了

“志愿卡白買了”,家長試用教育部免費志愿系統,難怪張雪峰要涼了

妍妍教育日記
2025-06-22 08:20:03
比美國還囂張的國家來了,“驅逐”境內所有中國外交官,不準統一

比美國還囂張的國家來了,“驅逐”境內所有中國外交官,不準統一

大白話瞰世界
2025-06-24 14:10:14
李家超:破壞性“軟對抗”在香港依然存在,提醒市民擦亮雙眼

李家超:破壞性“軟對抗”在香港依然存在,提醒市民擦亮雙眼

環球網資訊
2025-06-24 12:31:32
新買的項鏈好看嗎?

新買的項鏈好看嗎?

貴圈真亂
2025-06-24 08:29:53
以伊“12天戰爭”,結束了?

以伊“12天戰爭”,結束了?

中國新聞周刊
2025-06-24 12:13:57
A股收評:種種跡象說明,走勢有點不太正常,明天主力還有大動作

A股收評:種種跡象說明,走勢有點不太正常,明天主力還有大動作

悠然安晴
2025-06-24 12:28:00
林更新 曬自拍照,網友問“你誰啊你”,他回復:“俺是焦恩俊”

林更新 曬自拍照,網友問“你誰啊你”,他回復:“俺是焦恩俊”

情感大頭說說
2025-06-24 10:16:14
涉嫌嚴重違紀違法!黑龍江省無線電監測站副站長王德鑫被查

涉嫌嚴重違紀違法!黑龍江省無線電監測站副站長王德鑫被查

魯中晨報
2025-06-24 16:23:05
6月24日,2025年養老金調整通知為何遲遲不發?哪些人調的更多?

6月24日,2025年養老金調整通知為何遲遲不發?哪些人調的更多?

興史興談
2025-06-24 11:01:32
為什么,上海人對這些救命恩人般的外地人沒有感恩之心呢?

為什么,上海人對這些救命恩人般的外地人沒有感恩之心呢?

上海云河
2025-06-24 12:03:44
“復讀吧,讀不起!”633分被雙一流調劑,學費漲了22倍家長犯難

“復讀吧,讀不起!”633分被雙一流調劑,學費漲了22倍家長犯難

妍妍教育日記
2025-06-23 18:46:16
“30種姿勢高清無碼!”兄弟聊天分享的福利圖,居然把我看冒火了!

“30種姿勢高清無碼!”兄弟聊天分享的福利圖,居然把我看冒火了!

王根基
2025-05-08 20:54:13
蘋果上架大量新品,僅售 148 元

蘋果上架大量新品,僅售 148 元

果粉俱樂部
2025-06-24 11:37:53
一覺醒來,河南教培行業天塌了!暑期全省嚴禁任何形式學科類培訓

一覺醒來,河南教培行業天塌了!暑期全省嚴禁任何形式學科類培訓

小人物看盡人間百態
2025-06-24 09:11:36
4句彩虹屁,夸出孩子內驅力,家長別不信(關于自律、毅力和…)

4句彩虹屁,夸出孩子內驅力,家長別不信(關于自律、毅力和…)

諾媽家有男寶娃
2025-06-03 12:15:36
八路軍撤退時,發現士兵路邊撒尿,楊成武立刻反應過來:前方有埋伏

八路軍撤退時,發現士兵路邊撒尿,楊成武立刻反應過來:前方有埋伏

黃家湖的憂傷
2025-06-20 17:38:02
2025-06-24 17:32:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
24351文章數 686353關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

以色列稱停火后伊朗再射導彈 恢復猛烈空襲德黑蘭

頭條要聞

以色列稱停火后伊朗再射導彈 恢復猛烈空襲德黑蘭

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

以伊"12日戰爭"戛然而止:新博弈開啟

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

家居
藝術
數碼
本地
游戲

家居要聞

龍湖滟瀾 現代歐式混搭

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

泡泡瑪特高薪招聘家電工程師引猜測

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

死亡擱淺2豪華版現已解鎖 攝影大師齊炫技!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 报价| 牟定县| 大宁县| 会泽县| 东兰县| 太仓市| 南乐县| 焉耆| 洛南县| 青神县| 清新县| 永清县| 鹰潭市| 三门峡市| 阿克苏市| 河东区| 昌平区| 教育| 城固县| 周至县| 汶川县| 庆城县| 耿马| 独山县| 阳东县| 抚顺县| 伊宁县| 南投市| 乌审旗| 嘉定区| 祁阳县| 延长县| 丹凤县| 洛阳市| 灵石县| 肥乡县| 宁海县| 海原县| 浠水县| 房产| 漯河市|