99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

多數據中心訓練:OpenAI、Google、Anthropic三家野心勃勃

0
分享至

【編者按】大模型競爭的背后也是基礎設施的競爭。隨著大模型規模越來越大,單體數據中心所能承受的訓練量逐步達到臨界值,未來多數據中心訓練成為趨勢。大模型三巨頭OpenAI、Google和Anthropic均在布局多數據中心訓練,Semianalysis對三巨頭多數據中心訓練的情況進行了分析,以下是具體內容。

由于Scaling Laws不斷改進,當前的人工智能基礎設施愈發難以滿足需求。像OpenAI、Google Gemini等領先的前沿人工智能模型訓練集群今年已擴展到10 萬個 GPU ,并計劃到 2025 年將超過 30 萬個 GPU 集群。考慮到建設時間、許可、法規和電力可用性等物理限制,傳統的同步訓練方法單個數據中心站點的大型模型已達到臨界點。

Google、OpenAI 和 Anthropic 已經在執行相關計劃,將其大型模型訓練從一個站點擴展到多個數據中心園區。谷歌擁有當今世界上最先進的計算系統,并率先大規模使用了許多關鍵技術,這些技術直到現在才被其他公司采用,例如機架級液冷架構和多數據中心訓練。

Gemini 1 Ultra 在多個數據中心進行了培訓。盡管他們擁有更多的 FLOPS,但他們現有的模型仍落后于 OpenAI 和 Anthropic,因為他們在合成數據、強化學習和模型架構方面仍在追趕,但即將發布的 Gemini 2 將改變這一現狀。此外,到 2025 年,谷歌將有能力在多個園區進行千兆瓦級的訓練,但令人驚訝的是,谷歌的長期計劃并不像 OpenAI 和微軟那么積極。


大多數公司才剛剛引入采用 Nvidia GB200 架構的高密度液冷 AI 芯片,預計明年產量將達到數百萬顆。另一方面,谷歌已經部署了數百萬個液冷 TPU,占液冷 AI 芯片容量超過 1 GW。谷歌的基礎設施與其競爭對手之間的差異肉眼可見。


上圖所示的人工智能培訓園區已擁有接近 300MW 的電力容量,明年將增至 500MW。除了規模龐大之外,這些設施還非常節能。我們可以在下面看到大型冷卻塔和集中設施供水系統,水管連接三座建筑物,能夠排出近 200 兆瓦的熱量。根據最新的環境報告,該系統允許 Google 全年大部分時間無需使用冷卻器即可運行,從而在 2023 年實現 1.1 PUE(電力使用效率)。


雖然上圖僅顯示了設施供水系統,但水也通過直接到芯片系統輸送到機架,液-液熱交換器將熱量從機架傳輸到中央設施供水系統。這種非常節能的系統類似于 Nvidia GB200 的 L2L 部署 - 在我們的GB200 深入研究中詳細描述。

另一方面,微軟當今最大的培訓集群(如下所示)不支持液體冷卻,并且每棟建筑的 IT 容量降低了約 35%,盡管建筑 GFA(總建筑面積)大致相似。已發布的數據顯示 PUE 為 1.223,但 PUE 計算對風冷系統有利,因為服務器內部的風扇功率沒有得到正確考慮 - 對于風冷 H100 服務器來說,這是服務器功率的 15%+,而對于風冷 H100 服務器來說,PUE 計算為 <5%液體 DLC 冷卻服務器。因此,對于提供給芯片的每瓦特,微軟需要額外約 45% 以上的功率用于服務器風扇功率、設施冷卻和其他非 IT 負載,而谷歌則接近每瓦特 IT 功率約 15% 的額外負載。疊加 TPU 的更高效率,情況就變得模糊了。


此外,為了在沙漠(亞利桑那州)實現良好的能源效率,微軟需要大量的水 - 用水效率 (L/kWh) 為 2.24,遠高于集團平均值 0.49,谷歌的平均值略高于 1。用水量增加引起了媒體的負面關注,他們被要求為該園區即將建設的數據中心改用風冷式冷水機,這將減少每棟建筑的用水量,但會進一步增加 PUE,從而擴大與 Google 的能效差距。在未來的報告中,我們將更詳細地探討數據中心的工作方式和典型的超大規模設計。

因此,基于現有的數據中心參考設計,Google 擁有更高效的基礎設施,并且可以更快地建造兆瓦,因為每棟建筑的容量提高了 >50%,并且每個 IT 負載需要承包的公用電力更少。

0 1

谷歌的AI訓練基礎設施

谷歌總是有一種獨特的方式來構建基礎設施。雖然他們各自的數據中心設計比當今的微軟、亞馬遜和 Meta 更先進,但這并不能全面體現他們的基礎設施優勢。十多年來,谷歌也一直在建設大型園區。下圖所示的 Google 位于愛荷華州康瑟爾布拉夫斯的站點就是一個很好的例子,盡管已有多年歷史,但其西部地區的 IT 容量仍接近 300MW 。雖然大量容量被分配給傳統工作負載,但我們相信底層的建筑承載著大量的 TPU 。東部擴建采用最新的數據中心設計,將進一步提高人工智能培訓能力。


谷歌最大的人工智能數據中心也彼此非常接近。 Google 有兩個主要的多數據中心區域,位于俄亥俄州和愛荷華州/內布拉斯加州。如今,康瑟爾布拉夫斯周圍的區域正在積極擴建,容量已達到現有容量的兩倍以上。除了上述園區外,谷歌還在該地區擁有其他三個站點,這些站點都在建設中,并且正在升級為高帶寬光纖網絡。


三個站點彼此相距約 15 英里(康瑟爾布拉夫斯、奧馬哈和 Papillon 愛荷華州),另一個站點位于內布拉斯加州林肯市約 50 英里。下圖所示的 Papillion 園區將為 Google 在奧馬哈和康瑟爾布拉夫斯周圍的業務增加 >250MW 的容量,加上上述總容量,到 2023 年將超過 500MW,其中很大一部分分配給 TPU。


另外兩個站點尚未那么大,但正在快速發展:到 2026 年,所有四個園區合并起來將形成一個 GW 規模的人工智能訓練集群。約 50 英里外的林肯數據中心將成為 Google 最大的單個站點。

谷歌龐大的 TPU 足跡還不止于此。另一個即將到來的千兆瓦級集群位于俄亥俄州哥倫布市周圍 - 該地區遵循類似的主題,正在開發三個園區,到 2025 年底總裝機容量將達到 1 GW!


如下所示的新奧爾巴尼集群將成為 Google 最大的集群之一,并且已經托管 TPU v4、v5、v6。


谷歌俄亥俄州和谷歌愛荷華州/內布拉斯加州的集中區域也可以進一步互連,為訓練單個模型提供數千兆瓦的電力。我們在數據中心模型中擁有超過 5,000 個數據中心的精確詳細的季度歷史和預測電力數據。這包括人工智能實驗室、超大規模、新云和企業的集群構建狀態。本報告稍后將詳細介紹多數據中心培訓的軟件堆棧和方法。

0 2

微軟和OpenAI開始反擊?

微軟和 OpenAI 很清楚他們短期內在基礎設施方面的劣勢,并開始了一項雄心勃勃的基礎設施建設,以超越谷歌。他們正試圖在自己的水冷多數據中心訓練集群游戲中擊敗谷歌。

微軟和 OpenAI正在建設接近GW級的超密集液冷數據中心園區,并與Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,幫助他們實現比 Google更大的總AI 訓練和推理能力。

其中一些園區一旦建成,將比目前任何一個谷歌園區還要大。事實上,微軟在威斯康星州的園區將比谷歌在俄亥俄州的所有園區加起來還要大,但建設它需要一些時間。

更雄心勃勃的是 OpenAI 和微軟計劃將各個超大型園區互連在一起,并在全國范圍內開展大規模的分布式培訓。微軟和 OpenAI 將率先推出多 GW 計算系統。他們與供應鏈合作伙伴一起深入開展有史以來最雄心勃勃的基礎設施建設。

這份報告將在接近尾聲時詳細介紹微軟和 OpenAI 的基礎設施建設。在此之前,它將首先介紹多校區同步和異步訓練方法、落后者、容錯、靜默數據損壞以及與多數據中心訓練相關的各種挑戰。

0 3

多數據中心分布式訓練

大型語言模型 ( LLMs ) 主要是同步訓練的。訓練數據通常分為幾個較小的小批量,每個小批量都由在不同 GPU 組上運行的模型的單獨數據副本進行處理。處理完小批量后,每個副本都會計算梯度,然后所有副本必須在每個小批量處理結束時同步。

這種同步涉及聚合來自所有副本的梯度,通常通過像全歸約這樣的集體通信操作。一旦梯度被聚合,它們就會被平均并用于一致更新模型的參數。這確保了所有數據副本都維護一組相同的參數,從而使模型能夠以穩定的方式收斂。此過程的鎖步性質(所有設備在進入下一步之前等待彼此完成)確保沒有設備在模型狀態方面領先或落后太遠。


雖然同步梯度下降提供了穩定的收斂,但它也帶來了重大挑戰,特別是當您在單個訓練作業中擴展到超過 100k+ 芯片時,通信開銷會增加。同步性質還意味著您有嚴格的延遲要求,并且必須有一個連接所有芯片的大管道,因為數據交換會發生巨大的突發。

當您嘗試使用來自多個區域的 GPU 來處理相同的訓練工作負載時,它們之間的延遲會增加。即使光纖中的光速為 208,188 公里/秒,從美國東海岸到美國西海岸的往返時間 (RTT) 也為 43.2 毫秒 (ms)。此外,各種電信設備也會造成額外的延遲。這是一個很大的延遲,對于標準同步訓練來說很難克服。

根據阿姆達爾定律,當存在大量同步活動時,向工作負載添加更多芯片所帶來的加速效果會遞減。當您添加更多芯片時,并且程序運行時需要同步的部分(即對應于保持串行且無法并行化的計算比例)保持不變,將達到理論極限,即使 GPU 數量增加一倍不會使總體吞吐量增加超過 1%。


除了阿姆達爾定律描述的將更多 GPU 擴展到單個工作負載的理論限制之外,同步梯度下降還存在諸如落后者等實際挑戰。當只有一個芯片慢 10% 時,就會導致整個訓練運行慢 10%。例如,在下圖中,從第 7,500 步到第 19,000 步,字節跳動看到他們的 MFU 慢慢下降,因為工作負載中越來越多的芯片逐漸變慢,整個工作負載變得落后。

在識別并清除掉隊者后,他們從檢查點重新開始訓練工作量,將 MFU 增加到正常水平。正如您所看到的,MFU 從 40% 降至 30%,下降了 25%。當您擁有 100 萬個 GPU 時,MFU 減少 25% 相當于在任何給定時間有 25 萬個 GPU 處于空閑狀態,僅 IT 資本支出就相當于超過 10B 美元的成本。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
殲-35A海外首展,殲-10CE低調“赴約”,中國明星戰機組團亮相巴黎航展

殲-35A海外首展,殲-10CE低調“赴約”,中國明星戰機組團亮相巴黎航展

環球網資訊
2025-06-17 07:04:57
惡心!《哪吒2》片方不滿分賬51億,仍在上映沖榜,網友終于清醒

惡心!《哪吒2》片方不滿分賬51億,仍在上映沖榜,網友終于清醒

奇思妙想草葉君
2025-06-16 21:50:09
金正恩“心愛的女兒”今年多大了?

金正恩“心愛的女兒”今年多大了?

IN朝鮮
2025-06-16 14:03:43
埃及、約旦等21國發表聯合聲明 譴責以色列襲擊伊朗

埃及、約旦等21國發表聯合聲明 譴責以色列襲擊伊朗

新京報
2025-06-17 07:34:04
所有的工廠都有一個現象,明明早上8點上班,卻要求員工必須7點40分到廠開早會!

所有的工廠都有一個現象,明明早上8點上班,卻要求員工必須7點40分到廠開早會!

張曉磊
2025-06-17 07:18:42
奔馳發兩張海報回懟某豪華新能源車,字字不提、句句皆是

奔馳發兩張海報回懟某豪華新能源車,字字不提、句句皆是

天行艦
2025-06-17 07:39:41
黃曉明機場“整活”!16厘米鞋跟配詭異發際線,網友笑不活了

黃曉明機場“整活”!16厘米鞋跟配詭異發際線,網友笑不活了

玫瑰講娛
2025-06-16 19:44:51
林彪問一小戰士:你長官是誰?小戰士:老子四野的,長官是林彪!

林彪問一小戰士:你長官是誰?小戰士:老子四野的,長官是林彪!

z千年歷史老號
2025-06-16 19:05:08
內塔尼亞胡稱伊朗倒下,下一個就是巴基斯坦!印度拒絕譴責以色列

內塔尼亞胡稱伊朗倒下,下一個就是巴基斯坦!印度拒絕譴責以色列

王朝風云
2025-06-16 07:00:15
三名男子酒后興致而起推車回家,交警:此舉不屬于酒駕但也不提倡

三名男子酒后興致而起推車回家,交警:此舉不屬于酒駕但也不提倡

觀威海
2025-06-16 21:28:14
醫療圈炸了!湘雅醫院再爆黑幕,驚呆所有人…

醫療圈炸了!湘雅醫院再爆黑幕,驚呆所有人…

慧翔百科
2025-06-16 12:25:35
各個門閥勢力在國內已經形成,對國家持續發展危害極大!要警惕了

各個門閥勢力在國內已經形成,對國家持續發展危害極大!要警惕了

律法刑道
2025-06-15 21:25:05
好利來10cm短裙制服太吸睛!短裙絲襪遭質疑:為了流量這樣合適嗎

好利來10cm短裙制服太吸睛!短裙絲襪遭質疑:為了流量這樣合適嗎

寒士之言本尊
2025-06-16 16:10:41
6月訃告密集,讓無數中年人心驚

6月訃告密集,讓無數中年人心驚

17譚
2025-06-16 14:49:49
35歲送菜工睡了8名女大學生,竟主動拍攝裸照尋其歡心

35歲送菜工睡了8名女大學生,竟主動拍攝裸照尋其歡心

胖胖侃咖
2025-06-17 08:00:05
以色列特工德黑蘭大街上公然追殺伊朗高官,哈梅內伊已躲藏起來

以色列特工德黑蘭大街上公然追殺伊朗高官,哈梅內伊已躲藏起來

史政先鋒
2025-06-16 20:40:14
計劃被打亂,G7峰會陰影下召開

計劃被打亂,G7峰會陰影下召開

上觀新聞
2025-06-16 19:37:11
房價距離高點已經下跌40%

房價距離高點已經下跌40%

挪威Talk
2025-06-16 12:40:48
無人員傷亡!剛剛,深圳一區最新通報

無人員傷亡!剛剛,深圳一區最新通報

南方都市報
2025-06-16 21:45:47
村民哄搶近100萬斤土豆,派出所稱“法不責眾”?警方通報

村民哄搶近100萬斤土豆,派出所稱“法不責眾”?警方通報

觀察者網
2025-06-16 20:40:06
2025-06-17 10:40:49
dobigdata incentive-icons
dobigdata
科技推動商業
719文章數 305關注度
往期回顧 全部

科技要聞

為保住200億融資,奧特曼或將引爆"核選項"

頭條要聞

牛彈琴:戰火還在猛烈繼續 哈梅內伊最新發布一張圖片

頭條要聞

牛彈琴:戰火還在猛烈繼續 哈梅內伊最新發布一張圖片

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

52歲楊坤戀情疑曝光,前女友已去世

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

2500km續航 風云A9L將于6月25日預售7月上旬上市

態度原創

家居
親子
手機
藝術
房產

家居要聞

輕奢簡約 大戶型三代之家

親子要聞

孩子想長高別再盲目補鈣,三大誤區要小心!

手機要聞

谷歌 Pixel 10 系列手機被曝引入 Tele-Macro:利用長焦微距攝影

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 垣曲县| 包头市| 德清县| 会理县| 隆安县| 庆云县| 永胜县| 玉田县| 济南市| 石门县| 纳雍县| 岐山县| 丰顺县| 黔东| 济源市| 万宁市| 边坝县| 平罗县| 专栏| 香港| 海晏县| 和政县| 元阳县| 玉溪市| 天全县| 新田县| 监利县| 迁西县| 吉木乃县| 城市| 拜城县| 贵阳市| 常德市| 南陵县| 保定市| 安乡县| 武乡县| 类乌齐县| 宝兴县| 南开区| 英山县|