99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

破解AI集群擴展中的關鍵瓶頸

0
分享至



(作者:是德科技產品營銷經理Emily Yan)

人工智能(AI)正以前所未有的速度向前發展,整個市場迫切需要更加強大、更加高效的數據中心來夯實技術底座。為此,各個國家以及不同類型的企業正在加大對人工智能基礎設施的投入。據《福布斯》報道,2025年,泛科技領域對人工智能的支出將超過2500億美元,其中大部分投入將用于基礎設施建設。到 2029 年,全球對包括數據中心、網絡和硬件在內的人工智能基礎設施的投資將達到4230億美元。

然而,人工智能技術的快速創新迭代也給數據中心網絡帶來了前所未有的壓力。例如,Meta最近發布的有關Llama 3 405B模型訓練集群的論文顯示,該模型在預訓練階段需要超過700 TB的內存和16000顆英偉達H100 GPU芯片。據Epoch AI預計,到2030年,人工智能模型所需的計算能力將是目前領先模型的1萬倍。

如果企業擁有數據中心,那么部署人工智能只是時間問題。此篇是德科技署名文章旨在探討人工智能集群擴展面臨的關鍵挑戰,同時揭示為何“網絡會是新的瓶頸”。

人工智能集群的崛起

所謂人工智能集群就是一個高度互聯的大型計算資源網絡,用于處理人工智能工作負載。

與傳統的計算集群不同,人工智能集群針對人工智能模型訓練、推理和實時分析等工作任務進行了優化。它們依靠數千個GPU、高速互連和低時延的網絡來滿足人工智能對密集計算和數據吞吐量的要求。

建設人工智能集群

人工智能集群的核心功能類似于一個小型網絡。構建人工智能集群需要將GPU連接起來,形成一個高性能計算網絡,讓數據在GPU之間實現無縫傳輸。這其中強大的網絡連接至關重要,因為分布式訓練往往需要使用數千個GPU進行長時間并行計算。

人工智能集群的關鍵組成部分

如圖1所示,人工智能集群由多個重要部分組成。



圖1:AI數據中心集群

?計算節點如同人工智能集群的大腦,由成千上萬個GPU組成并連接到了機架頂部的交換機。隨著復雜性的提升,對GPU的需求也在增加。

?以太網等高速互聯技術可實現計算節點之間的快速數據傳輸。

?網絡基礎設施包括網絡硬件和協議,它們能夠支持在數千個GPU之間進行長時間的數據通信。

擴展人工智能集群

人工智能集群可進行擴展,以應對日益增長的人工智能工作負載和復雜性。直到近期,由于網絡帶寬、時延等因素的限制,人工智能集群的規模局限在約3萬個GPU。然而,xAI Colossus超級計算機項目打破了這一局限,將所使用的GPU數量擴展到了超過10萬顆英偉達H100 GPU芯片,網絡和內存技術的進步使得這一突破成為可能。

擴展面臨的關鍵挑戰

隨著人工智能模型的相關參數增長到數萬億個,人工智能集群的擴展會遇到大量來自技術和財務層面的阻礙。

網絡挑戰

GPU可以有效地執行并行計算。然而,當數千個甚至幾十萬個GPU在人工智能集群中共同執行同一工作任務時,如果其中一個GPU缺乏所需的數據或遇到延遲等情況,其他GPU的工作就會停滯不前。這種長時間的數據包延遲或網絡擁堵造成的數據包丟失會導致需要重新傳輸數據包,從而大幅延長了任務完成時間(JCT),造成價值數百萬美元的GPU閑置。

此外,人工智能工作負載產生的東西向流量,也就是數據中心內部計算節點之間的數據遷移,急劇增加,如果傳統的網絡基礎設施沒有針對這些負載進行優化,可能會出現網絡擁堵和延遲問題。

互聯挑戰

隨著人工智能集群規模的拓展,傳統的互連技術可能難以支持必要的吞吐量。為了避免瓶頸問題,企業必須進行升級迭代,采用更高速的互連技術,如800G甚至1.6T的解決方案。然而,要滿足人工智能工作負載的嚴格要求,部署和驗證此類高速鏈路并非易事。高速串行路徑必須經過仔細調試和測試,以確保最佳的信號完整性、較低的誤碼率和長距可靠的前向糾錯(FEC)性能。高速串行路徑中的任何不穩定因素都會降低可靠性并減慢人工智能訓練的速度。企業需要采用高精度、高效率的測試系統,在高速互聯技術部署前對其進行驗證。

財務挑戰

擴展人工智能集群的總成本遠遠不止于購買GPU的花費。企業必須將電源、冷卻、網絡設備和更廣泛的數據中心基礎設施等相關投入考慮在內。然而,通過采用更出色的互連技術并借助經過優化的網絡性能來加速處理人工智能工作負載,可以縮短訓練周期,并釋放資源用于執行其他任務。這也意味著每節省一天的培訓時間,就能大幅降低成本,因此對于財務風險和技術風險需要給予同等的重視。

測試和驗證面臨的挑戰

優化人工智能集群的網絡性能需要對網絡架構和GPU之間的互連技術進行性能測試和基準測試。然而,由于硬件、架構設計和動態工作負載特性之間的關系錯綜復雜,對這些器件和系統進行驗證具有很大的挑戰性。主要有三個常見的驗證問題需要解決。

第一,實驗室部署方面的限制

人工智能硬件成本高昂、可用的設備有限以及對專業網絡工程師的需求缺口,使得全盤復制變得不切實際。此外,實驗室環境通常在空間、電力和散熱方面受到限制,與現實世界的數據中心條件不同。

第二,對生產系統的影響

減少對生產系統的測試可能會造成破壞,并影響關鍵的人工智能操作。

第三,復雜的人工智能工作負載

人工智能工作負載和數據集的性質多種多樣,在規模和通信模式上也有很大差異,因此很難重現問題并執行一致性的基準測試。

人工智能將重塑數據中心的產業格局,因此構建面向未來的網絡基礎設施對于在技術和標準快速演進的過程中保持領先地位至關重要。是德科技先進的仿真解決方案可在部署前對網絡協議和系統運行的場景進行全面驗證,進而幫助企業獲得關鍵優勢。是德科技致力于幫助網絡工程師降低人工智能工作負載的復雜性并優化網絡性能,從而確保系統的可擴展性、效率,并為應對人工智能需求做好充分準備。

關于是德科技

是德科技(NYSE:KEYS)啟迪并賦能創新者,助力他們將改變世界的技術帶入生活。作為一家標準普爾 500 指數公司,我們提供先進的設計、仿真和測試解決方案,旨在幫助工程師在整個產品生命周期中更快地完成開發和部署,同時控制好風險。我們的客戶遍及全球通信、工業自動化、航空航天與國防、汽車、半導體和通用電子等市場。我們與客戶攜手,加速創新,創造一個安全互聯的世界。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一夜踏破兩大紅線,羅馬尼亞F16戰機開火了:與俄軍爆發兩輪戰斗

一夜踏破兩大紅線,羅馬尼亞F16戰機開火了:與俄軍爆發兩輪戰斗

帥先工場
2025-07-15 23:04:47
果然,外網皮蛋的火爆再次證明,只要你強大,自有老外為你辯經!

果然,外網皮蛋的火爆再次證明,只要你強大,自有老外為你辯經!

椰青美食分享
2025-07-15 17:42:52
媒體人:王鈺棟東亞杯暴露太多弱點 去葡乙只能當替補+周薪1000歐

媒體人:王鈺棟東亞杯暴露太多弱點 去葡乙只能當替補+周薪1000歐

風過鄉
2025-07-15 20:57:30
故事:尼日爾賴掉4億美元,驅逐中企高管,我方留有后手完美反擊

故事:尼日爾賴掉4億美元,驅逐中企高管,我方留有后手完美反擊

星宇共鳴
2025-04-03 18:58:34
血液沸騰,大腦冒泡,內臟灑滿甲板……這場災難帶來了潛水史上最可怕的死亡

血液沸騰,大腦冒泡,內臟灑滿甲板……這場災難帶來了潛水史上最可怕的死亡

果殼
2025-07-15 20:48:35
韋德:歷史最佳還在場上奮戰,我著急討論GOAT歸屬很不公平

韋德:歷史最佳還在場上奮戰,我著急討論GOAT歸屬很不公平

雷速體育
2025-07-15 14:46:10
73歲大爺西餐廳遭遇名媛嘲諷"你配嗎",結賬時,餐廳寂靜無聲

73歲大爺西餐廳遭遇名媛嘲諷"你配嗎",結賬時,餐廳寂靜無聲

磊子講史
2025-07-12 15:34:26
1950年,毛岸英在作戰會上與彭德懷叫板,他的上級緊張到手心冒汗

1950年,毛岸英在作戰會上與彭德懷叫板,他的上級緊張到手心冒汗

甜檸聊史
2025-07-15 09:16:48
僅因下架好麗友派的山姆會員店,為何成為2025年最大危機?

僅因下架好麗友派的山姆會員店,為何成為2025年最大危機?

財聞網
2025-07-15 22:59:33
中國電車的九大罪狀:讓無數人付出巨大代價

中國電車的九大罪狀:讓無數人付出巨大代價

沙雕小琳琳
2025-07-13 20:02:16
對華征500%關稅,對俄征100%關稅,美國這是又想把事兒搞大嗎?

對華征500%關稅,對俄征100%關稅,美國這是又想把事兒搞大嗎?

高原一劍客
2025-07-15 22:29:06
湖記:東契奇預計會和湖人續約,我從幕后聽到的所有消息都是積極的

湖記:東契奇預計會和湖人續約,我從幕后聽到的所有消息都是積極的

雷速體育
2025-07-16 07:30:08
平均每公里造價8億!廣東大灣區長71.6公里城際鐵路距開工更近了

平均每公里造價8億!廣東大灣區長71.6公里城際鐵路距開工更近了

交建動態
2025-07-14 20:12:32
3位臺獨藝人妄圖內地撈金,沒開始就結束!演唱會取消,全面抵制

3位臺獨藝人妄圖內地撈金,沒開始就結束!演唱會取消,全面抵制

不似少年游
2025-06-10 10:40:03
男籃84-76戰勝荷蘭 球員評價:5人優秀,5人及格,1人低迷

男籃84-76戰勝荷蘭 球員評價:5人優秀,5人及格,1人低迷

籃球資訊達人
2025-07-16 04:29:40
一個傻子給另一個傻子洗冤

一個傻子給另一個傻子洗冤

喪心病狂周公子
2025-05-08 18:22:06
第1豪門!皇馬1年單靠球衣廣告狂賺2.6億歐 英超第14名殺入前3

第1豪門!皇馬1年單靠球衣廣告狂賺2.6億歐 英超第14名殺入前3

風過鄉
2025-07-16 06:49:10
為什么費米悖論認為,宇宙最可怕的事實,是根本沒有外星人?

為什么費米悖論認為,宇宙最可怕的事實,是根本沒有外星人?

清游說娛
2025-04-14 17:51:44
莫斯科根本不相信

莫斯科根本不相信

牛彈琴
2025-07-16 07:13:52
3換1,胡明軒交易或鎖定,張寧或被交易,巴里布朗或加盟日本

3換1,胡明軒交易或鎖定,張寧或被交易,巴里布朗或加盟日本

東球弟
2025-07-15 14:28:52
2025-07-16 08:03:00
前端科技
前端科技
關注前端科技吧!
957文章數 12316關注度
往期回顧 全部

科技要聞

恢復對華出口AI芯片,AMD漲6%,英偉達漲4%

頭條要聞

"山姆下架好麗友派"吵上熱搜 盼盼洽洽改用英文名上架

頭條要聞

"山姆下架好麗友派"吵上熱搜 盼盼洽洽改用英文名上架

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

黃仁勛釋懷了

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

數碼
房產
教育
藝術
公開課

數碼要聞

AMD處理器銷量輕松超越所有英特爾CPU 即使是上一代AM4型號

房產要聞

抄底信號!海口跌幅,全國第二!

教育要聞

中學高考沖清北失敗,逼學生報天坑專業被拒,遭老師言語攻擊

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 化州市| 佛学| 库尔勒市| 波密县| 苍山县| 阜平县| 鲁山县| 福泉市| 亚东县| 齐齐哈尔市| 枝江市| 青海省| 宣威市| 西畴县| 德昌县| 漠河县| 秀山| 芒康县| 土默特右旗| 南岸区| 丹东市| 乌兰浩特市| 甘肃省| 梅河口市| 镇赉县| 铅山县| 西畴县| 哈密市| 象山县| 石景山区| 滁州市| 论坛| 读书| 逊克县| 隆回县| 广灵县| 股票| 明星| 鄂托克旗| 昭平县| 崇仁县|