99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

敢說永不掉線、秒級恢復,華為的底氣是什么?

0
分享至


在通往通用人工智能(AGI)的路上,如何像其他領域一樣實現彎道超車,是業界繞不開的話題。

在過去的十余年時間里,各項單點技術飛速演進,但隨著單點技術演進的邊際效應遞減和系統復雜度的提升,系統性能的天花板逐步從單點技術的上限演變成系統工程上限:單點優勢越來越像是精致的零件,提升空間有限;但采用系統工程創新,各個部分完美配合、高效協同,實現整個系統的效能最優,才有更積極的現實意義。

如何在發揮單點技術優勢的同時,以整體視角重新構建路徑,通過對復雜系統的極致把控與再組織、找到新的突破可能?解決這個看似不可能的問題,就有望為我們獨立引領最前沿技術發展創造條件。

近期,虎嗅將推出《華為技術披露集》系列內容,通過一系列技術報告,首次全面詳述相關技術細節,為業界提供參考價值。

我們期待通過本系列內容,攜手更多伙伴共同構建開放協作的生態系統,助力昇騰生態在中國的蓬勃發展。

《華為技術披露集》系列 VOL.14 :高可用性

想象一下,你正在用手機導航規劃長途路線,背后可能有幾十個 AI 模型同時在分析路況、預測擁堵;醫院用 AI 輔助診斷癌癥時,系統需要瞬間處理成百上千張 CT 影像。這些看似簡單的智能應用,背后都依賴著像 "超級大腦" 一樣的 AI 算力集群在 24 小時不停運轉。

如果把 AI 算力集群比作一個大型工廠的生產線,高可用性就相當于讓這條生產線具備 "永不罷工" 的能力,給 AI 算力集群上了一份 "保險",讓這個支撐智能時代的 "數字發動機" 既能承受日常的 "小磕小碰",又能在遇到突發故障時保持穩定運行。只有確保算力資源隨時可用、持續輸出,才能讓 AI 真正成為驅動業務創新的可靠引擎,而不是隨時可能熄火的 "半成品"。

高可用核心基礎:面向超節點的故障感知、管理及容錯

AI大集群問題定位復雜,系統規模大、軟硬技術棧復雜、調用鏈長,先要跨域故障定界,然后各域內部故障定界定位,故障診斷面臨巨大挑戰;當前定位時間從數小時到數天,技能要求高 ,難以找到故障設備和根因。華為團隊為了讓集群運維工具能夠快速找到問題原因,有效提升現網問題的閉環效率,提出了全棧可觀測能力,構建了大規模集群的故障感知能力,主要由集群運行視圖、告警視圖、網絡鏈路監控、告警接入和配置、網絡流可觀測能力組成;同時還提出了包括全棧故障模式庫、跨域故障診斷、計算節點故障診斷、網絡故障診斷等四大能力的故障診斷技術。

當前行業水平下,萬卡級別的AI集群平均每天會出現一次甚至多次故障,這不僅嚴重影響了訓練效率,還導致了算力資源的大量浪費。為解決這一問題,華為團隊通過建立AI集群全系統可靠性分析模型,實現對可靠性指標的預計評估和分配分解。從可分析、可增強、可驗證、可診斷等方面,持續構建可靠性系統工程能力,突破關鍵可靠性技術,實現CloudMatrix超節點萬卡集群MTBF大于24小時的硬件高可靠能力。

超節點需要做大超節點規模,才能充分發揮超平面網絡的優勢,目前業界沒有使用光鏈路來構建超節點的成功案例,因此華為團隊提出了相應的超節點光鏈路軟件容錯方案。通過多層防護體系,借助超時代答,綠色通道等關鍵技術實現無超節點級故障,通過鏈路級重傳,光模塊動態升降Lane,HCCL算子重執行,借軌通信,雙層路由收斂,Step級重調度等特性,實現光模塊閃斷的故障率容忍度>99%。在新增10倍+光模塊后,通過軟件可靠性措施,以及光鏈路壓測技術等,實現光模塊閃斷率低至電鏈路水平,保障了超平面的可靠性。通過構建Step級重調度能力,高頻的HBM多比特ECC故障恢復時間縮短至1min,對于因為故障造成的用戶的算力損失下降5%。

高可用助力業務:萬卡集群上千億模型的線性度和訓推快恢

線性度指標用于衡量訓練任務速度或吞吐的提高比例(即完成時間縮短比例)隨算力卡數增長比例的比值。華為團隊提出拓撲感知的協同編排技術TACO、網絡級網存算融合技術NSF、拓撲感知的層次化集合通信技術NB、無侵入通信跨層測量與診斷技術AICT等四項關鍵技術,實現Pangu訓練線性度提升。總體方案如下圖所示:


實驗及理論分析結果顯示,訓練Pangu Ultra 135B稠密模型時,4K卡Atlas 800T A2集群相比256卡基線,線性度為96%。訓練Pangu Ultra MoE 718B稀疏模型時,8K卡Atlas 800T A2集群相比512卡基線,線性度95.05%;4K卡CloudMatrix 集群相比256卡基線,線性度96.48%。

大規模AI集群運行過程中頻繁因為各類硬件、軟件故障導致訓練任務中斷,業界通常使用訓練過程中周期保存的CKPT恢復訓練任務。華為基于軟硬件全棧的技術方案創新打造了如下分層分級的訓練任務故障快恢系統,不同層級的故障恢復能力如下圖所示。


通過數據集索引構建加速、模型編譯緩存加速、集合通信建鏈加速、存儲CKPT加速等關鍵技術優化,萬卡集群的訓練恢復時間可以做到10min以內,進程級重調度恢復能夠有效縮短訓練恢復時間到3min以內,進程級在線恢復進一步縮短訓練恢復時間到30s以內,同時可以降低訓練回滾時間到一個訓練迭代的時間,且與集群規模、模型規模基本無關,極大提升了AI集群可用度和大模型訓練效率。

隨著千億MOE模型架構演進,實例部署的組網架構從傳統的一機八卡演進為大EP組網架構,目前在大EP組網架構下主要面臨部署規模擴大導致的故障概率數量增大、故障爆炸半徑變大的可靠性問題,任意硬件故障都會導致整個Decode實例不可用,進而導致推理業務受損,甚至中斷。

針對大EP推理架構的可靠性難題,華為團隊提出三級容錯方案,實例間切換、實例內重啟恢復、實例內無損恢復,從芯片驅動層、框架層、平臺層相互協作,構筑端到端可靠性體系。在不同的故障場景下,采用不同的容錯恢復手段,可以最小化用戶損失。


其中實例內重啟恢復技術,可構筑帶內快速故障感知和重調度、參數權重和鏡像預熱技術等技術,將實例內重啟恢復時間壓縮到5min內。TOKEN級重試技術,基于DeepSeekV3 1P2D多機CloudMatrix 384場景下,針對HBM KV Cache故障,故障恢復時長(從故障發生到Token重新輸出時間),小于10s。相較于業界的10min恢復實例,TLR可將故障影響減少60倍。

針對AI算力集群的高可用性,華為團隊提出了六大創新方案,即故障感知診斷、故障管理、集群光鏈路容錯等高可用所需要三大基礎能力,以及集群線性度、訓練快恢、推理快恢等高可用為業務帶來的三大支撐能力。這六大創新均帶來了非常可觀的收益,比如萬卡集群可用度達到98%、集群訓推最快達到秒級快恢、集群線性度達到95%+、千種故障模式庫與分鐘級故障診斷等。

面向未來,華為團隊會持續在場景多元化與復合化為代表的新應用驅動、異構融合與對資源池化為代表的新架構突破、極致可觀可測與智能自治免維代表的新工程范式等三個方向進行探索,帶來更多的創新成果。

本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4447833.html?f=wyxwapp

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京不再手下留情,6月11日,俄軍斬首行動傳來新消息

普京不再手下留情,6月11日,俄軍斬首行動傳來新消息

Ck的蜜糖
2025-06-13 00:13:19
GMS:曼聯著急賣拉什福德簽弗拉霍維奇,巴薩不急且打算只租不買

GMS:曼聯著急賣拉什福德簽弗拉霍維奇,巴薩不急且打算只租不買

直播吧
2025-06-13 00:52:02
宋凱重大表態!國足換帥方案人選被曝,日本名帥請纓有望馳援國足

宋凱重大表態!國足換帥方案人選被曝,日本名帥請纓有望馳援國足

大國侃球
2025-06-12 15:05:42
19歲學霸因差6分滿分跳樓身亡,更多內幕曝光,一細節諷刺至極

19歲學霸因差6分滿分跳樓身亡,更多內幕曝光,一細節諷刺至極

溫柔看世界
2025-06-12 11:57:26
震驚!大量外籍演員演中國劇,觀眾怒吼:我們的演員哪去了?

震驚!大量外籍演員演中國劇,觀眾怒吼:我們的演員哪去了?

深析古今
2025-06-11 22:45:22
中國率先開始大規模生產非二進制AI芯片

中國率先開始大規模生產非二進制AI芯片

俄羅斯衛星通訊社
2025-06-10 15:05:57
世俱杯參賽球員會籍分布:巴西141人,阿根廷103人,中國1人

世俱杯參賽球員會籍分布:巴西141人,阿根廷103人,中國1人

懂球帝
2025-06-12 04:01:11
東貝集團:子公司東貝制冷是蜜雪冰城供應商

東貝集團:子公司東貝制冷是蜜雪冰城供應商

每日經濟新聞
2025-06-12 17:41:11
?19萬股民淚奔!“超級牛”300308,拿下全球第一,徹底爆了!

?19萬股民淚奔!“超級牛”300308,拿下全球第一,徹底爆了!

看財經show
2025-06-12 16:13:11
韋東奕發型和衣著整潔,已看不出明顯口腔問題,最新回應:輿論已影響到自己,不想再回應

韋東奕發型和衣著整潔,已看不出明顯口腔問題,最新回應:輿論已影響到自己,不想再回應

大象新聞
2025-06-13 00:18:43
比亞迪官宣:仰望U7正式開啟交付!62.8萬起,配備這些黑科技

比亞迪官宣:仰望U7正式開啟交付!62.8萬起,配備這些黑科技

每日經濟新聞
2025-06-12 12:01:05
特朗普褲子上的凸起,引圍觀!

特朗普褲子上的凸起,引圍觀!

刀刀說事
2025-06-12 19:16:53
某工程局大崩潰:考勤截止,各謀生路!

某工程局大崩潰:考勤截止,各謀生路!

黯泉
2025-06-12 22:08:08
多地緊急叫停國補!萬億補貼到底肥了誰?普通人根本搶不到

多地緊急叫停國補!萬億補貼到底肥了誰?普通人根本搶不到

史行途
2025-06-12 08:25:50
唐駁虎:印度波音787墜毀,可能是副駕犯的低級錯誤

唐駁虎:印度波音787墜毀,可能是副駕犯的低級錯誤

新浪財經
2025-06-12 22:35:16
突發!山東德州首富被立案調查,最新回應

突發!山東德州首富被立案調查,最新回應

21世紀經濟報道
2025-06-12 21:42:58
一碗面=宴請,這不是嚴格執法,而是屎上雕花

一碗面=宴請,這不是嚴格執法,而是屎上雕花

李老逵亂擺龍門陣
2025-06-12 08:37:06
阿拉基宣布賽季報銷:被許鐘豪撞傷 上屆獲亞洲杯亞軍今年或缺席

阿拉基宣布賽季報銷:被許鐘豪撞傷 上屆獲亞洲杯亞軍今年或缺席

醉臥浮生
2025-06-12 18:28:09
韋東奕的數學天賦從哪來?原來爺爺就是學霸,基因太強大了

韋東奕的數學天賦從哪來?原來爺爺就是學霸,基因太強大了

阿器談史
2025-06-13 02:36:01
員工們情緒激動,大聲拍打屋門要求還錢!燒光228億融資的哪吒汽車上演圍堵討薪!與董事長方運舟爆發激烈爭吵,質問“你這什么態度”,超2900人已經被裁員

員工們情緒激動,大聲拍打屋門要求還錢!燒光228億融資的哪吒汽車上演圍堵討薪!與董事長方運舟爆發激烈爭吵,質問“你這什么態度”,超2900人已經被裁員

金融界
2025-06-12 15:25:27
2025-06-13 03:23:00
虎嗅APP incentive-icons
虎嗅APP
個性化商業資訊與觀點交流平臺
24276文章數 686307關注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

頭條要聞

印度墜機幸存者:我站起來時周圍都是尸體 嚇壞了

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

787客機首起空難 波音飛機事故頻發引質疑

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

教育
家居
數碼
本地
藝術

教育要聞

石室聯中的高中公布師資了!清一色“老教師”

家居要聞

精致奢華 豐富的連貫空間

數碼要聞

Anker因存在起火和燒傷風險召回超過110萬個移動電源

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天全县| 双流县| 武穴市| 察哈| 勃利县| 固原市| 平顺县| 遵化市| 榆林市| 临夏县| 临城县| 徐州市| 颍上县| 浦江县| 政和县| 靖安县| 三台县| 荆门市| 平江县| 东明县| 闽清县| 仙游县| 高碑店市| 乌兰察布市| 安多县| 新津县| 高密市| 桐乡市| 综艺| 墨竹工卡县| 开远市| 遂宁市| 响水县| 镇宁| 云龙县| 青岛市| 临西县| 柘城县| 阳高县| 乐陵市| 军事|