新智元報道
編輯:KingHZ
【新智元導讀】AI算力正以每9個月翻倍的速度激增!Epoch AI最新報告揭示:不到10年,頂級AI算力或將暴漲8萬倍。誰在領跑?誰被甩出局?
世界首富馬斯克與「前老板」特朗普公開決裂,互相揭短、公開互噴。
國際國內各媒體「圍觀吃瓜」,波蘭外長甚至不無諷刺地挖苦馬斯克。
這場風波,讓人想起另一位與馬斯克「恩怨未了」的人物——OpenAI CEO奧特曼。
現在,奧特曼再贏一次:這次馬斯克和特朗普的決裂,最大的受益者可能還是奧特曼。
不過,要評選「AI圈最靚的崽」,馬斯克無疑當之無愧——
他擁有2025年最強的AI算力系統:
xAI旗下的Colossus超算共采用20萬塊AI芯片,
硬件成本高達70億美元,
功耗達300兆瓦,相當于25萬戶家庭的用電量。
這只是Epoch AI趨勢研究報告的一角。
他們的研究報告揭示了AI算力的驚人趨勢:
超級計算機算力9個月翻倍,
硬件成本和能耗則每13個月激增一倍!
按當前趨勢,2030年的頂級AI超級計算機將需要:
200萬個AI芯片,
2000億美元投入,
9吉瓦電力功耗,相當于9座核電站的輸出。
2019年,私營企業擁有全球40%的AI超級計算能力;到2025年,這一比例上升至80%。
左右滑動查看
如果當前趨勢持續,到2030年,全球最強的AI超級計算機將具備:
·算力:2×1022(16位浮點運算/秒)
·硬件規模:200萬塊AI芯片
·成本:2000億美元
·功耗:9吉瓦(GW)
Epoch AI收集了2019至2025年間500臺AI超級計算機的數據,并分析了其在性能、功耗、硬件成本、所有權和全球分布等方面的關鍵趨勢。
論文鏈接:https://arxiv.org/abs/2504.16026v2
剛剛,他們還上線了AI超級計算機數據庫。
在新數據庫,可以查看700多個訓練和推理集群的規格參數——
包括計算能力、芯片類型、功耗、所有權、位置等信息。
三大趨勢,兩大格局變化
頂尖AI的發展依賴于強大的超級計算機,但針對這些系統的分析仍然有限。
在35個國家,研究團隊追蹤了配備專用AI芯片的集群,覆蓋全球約15%的計算能力。
地圖視圖可以精確定位許多數據中心,直至具體街道地址!
Epoch AI利用圖表,揭示了頂尖AI算力的3大趨勢:
(1)計算性能,每9個月翻一番。
(2)采購成本,每13個月翻一番。
(3)電力需求,每12個月翻一番。
此外,還有另外兩個不容忽視的格局變化:
(1)私企主導AI超級計算機,馬斯克的xAI擁有今年規模最大的AI超算;
(2)AI超級計算機總算力上,中國位居第二。
除了地圖和圖表外,數據庫還提供表格視圖,方便對數據進行排序、篩選、查看和下載。
算力躍遷:頂尖AI超算每9個月翻倍
頂尖AI超級計算機的計算性能每九個月翻一番。
自2019年以來,頂尖AI超級計算機的計算性能每年增長2.5倍。
這使得訓練運行的能力大幅增強:如果將2020年的GPT-3模型在xAI的Colossus上進行訓練,原本需要兩周的訓練時間可縮短至不到兩小時。
這種增長由兩個因素驅動:
(1)每個集群中部署的芯片數量每年增長1.6倍;
(2)每顆芯片的性能也以每年1.6倍的速度提升。
雙輪驅動:數量+計算性能
首先,頂級AI超算的芯片數量每年增長1.6倍。
比如:2019年1月,最高紀錄是橡樹嶺國家實驗室的Summit系統,共有27,648塊V100芯片。
而到2025年3月,已知規模最大的AI超算是xAI公司的「Colossus」系統,共有20萬塊H100和H200芯片。
若將2019年前的系統納入統計,增長率可能下降,但由于數據收集始于2019年,該假設尚無法驗證。
其次,頂級AI超算的單芯片計算性能每年提升1.6倍。
在研究期間,有三代芯片表現尤為突出:
2019至2021年間,V100占據絕對主導地位,貢獻了超過90%的部署算力;
2021年A100開始嶄露頭角,到2023年已成為主流芯片,同期AMD MI250X和谷歌TPU v4僅占較小份額;
2023年H100迅速普及,截至2024年7月已占據數據集中總算力的50%以上。
領先AI超算的單芯片性能1.6倍(90%置信區間:1.5-1.7)的年提升速度,略高于AI芯片整體性能的提升水平——
FP32精度芯片年提升1.28倍(90%置信區間:1.24-1.32),
FP16精度芯片年提升1.38倍(90%置信區間:1.28-1.48)。
這一差異主要是因為AI超級計算機通常采用最先進的AI芯片,而非性能處于平均水平的芯片。
需求強勁:年增長4-5倍
最大規模訓練任務年增長率為4-5倍,而AI超級計算機與之保持同步。
2024年,Sevilla與Roldan發現,2018至2024年間最大AI模型的訓練算力需求以每年4.2倍(90%置信區間:3.6-4.9倍)的速度增長。
在考慮訓練時長增加的因素后,這一數據與Epoch觀察到的AI超算性能增長趨勢相吻合。
論文鏈接:https://arxiv.org/abs/2403.17466
下圖對比了最大規模AI訓練任務所需的計算性能與數據集中領先AI超算的性能。
2019至2025年間,工業界最大規模的AI超算始終保持著最大AI訓練任務所需算力10倍的性能優勢(不包括最終訓練前實驗所需的計算資源)。
雖然最大訓練任務所需的系統規模增長速度(3.4倍)略快于領先AI超算(3.0倍),但兩種趨勢的差異在統計學上并不顯著(p=0.18)。
正如下圖所示,AI超算的發展與訓練算力需求的增長保持了一致。
訓練計算量增長驅動因素概覽
上圖OOM表示數量級。AI超級計算機的指標基于私營部門系統,以及在各種數值精度下的最高計算性能。
電力翻一番,只需12月
頂尖AI超級計算機的電力需求,每12個月翻一番。
領先的AI超級計算機使用的芯片數量越來越多,功耗越來越高,用于訓練前沿模型的電力需求迅速增長。
2019年1月,橡樹嶺國家實驗室的Summit是當時功率最大的AI超級計算機,功率為13兆瓦。
而如今,xAI的Colossus超級計算機使用高達280兆瓦的電力,是Summit的20多倍。
由于本地電網無法為如此龐大的硬件提供足夠的電力,Colossus依賴于移動發電機來運行。
未來,為了解決向單一地點輸送巨量電力的難題,可能會看到前沿模型在地理上分布的超級計算機之間進行訓練,這種方式類似于Gemini 1.0的訓練架構。
算力綠色革命:AI更節能
從2019年到2025年,AI超級計算機的能源效率每年提升約1.34倍(見下圖11)。
在計算性能保持不變的情況下,AI超級計算機每年約可減少25%的能源消耗。
AI超級計算機的能源效率提升主要來源于兩個方面:
一是硬件效率的提高,
二是數據中心基礎設施(如冷卻系統)效率的改進。
硬件效率的提升主要來自AI芯片的進步,但也包括其他硬件(如CPU、網絡交換機和存儲設備)的改進。
全行業電力使用效率(PUE)、是指供電給硬件的電力與供電給整個數據中心的電力之比。
理想的PUE為1.0,意味著所有輸送到數據中心的電力都被直接用于硬件,而在電壓轉換、冷卻及其他運維方面無任何電力損耗。
圖11顯示,每當新一代AI芯片問世時,能源效率都會顯著提高。
與此同時,PUE的提升速度較慢,并且在估算中已接近理想值1.0,因此每年帶來的效率提升不到5%。
因此,能源效率的提升主要歸因于AI超級計算機采用了更高能效的硬件。
采購成本:13個月翻一番
頂尖AI超級計算機的采購成本,每13個月翻一番。
AI超級計算機的成本持續攀升。
自2019年以來,領先超級計算機的計算硬件成本以每年1.9倍的速度增長。
2022年6月,最昂貴的集群是橡樹嶺國家實驗室的Frontier,報告顯示其成本為2億美元。
三年后的2025年最強系統:xAI的「Colossus」采用20萬塊AI芯片,硬件成本高達70億美元,功耗達300兆瓦(相當于25萬戶家庭的用電量)。
總硬件成本基于公開數據,或依芯片數量與價格估算。
此外,還包括了估算的額外硬件成本,如CPU和網絡交換機,但不考慮電力生成或數據中心建設成本。
這一趨勢背后,誰在加速沖刺?誰又在原地踏步?
私企主導AI超級計算機
隨著AI超級計算機從科研工具演變為工業級機器,企業所占的算力份額迅速擴大,而政府和學術機構的占比則逐漸下降。
私營部門在全球AI計算能力中的占比已從2019年的40%增長至2025年的80%。
盡管早期的許多領先超級計算機(如Summit)由政府和學術實驗室運營,但公共部門超級計算機的總裝機計算能力僅以每年1.8倍的速度增長,遠遠落后于私營部門,后者的計算能力以每年2.7倍的速度增長。
AI日益重要的經濟價值正在推動私營企業建設更多、更強大的超級計算機用于訓練和推理。
截至2025年5月,已知最大的公共AI超級計算機——勞倫斯利物莫國家實驗室的El Capitan,其計算性能不到已知最大行業AI超級計算機xAI的Colossus的四分之一。
中國AI算力
世界第二
截至2025年5月,美國約占全球AI超級計算機算力的四分之三,中國以15%位居第二。
與此同時,德國、日本和法國等傳統高性能計算強國在AI超級計算領域的作用日益邊緣化。
這一轉變主要反映了以美國為主的大型科技公司在該領域的主導地位日益增強。
注意:截至2025年3月,數據集覆蓋了全球AI超級計算機總性能的約10–20%。
指數時代已來,誰將掉隊?
AI超級計算機,正進入指數級躍遷時代。
算力、能耗和成本的加速增長,既是AI飛躍的加速器,也可能成為其發展的瓶頸。
接下來的競爭,不只是比誰芯片多,而是比誰算得又快又省。
構建綠色、高效、分布式AI訓練基礎設施,將成為下一個關鍵戰場。
從V100到H100,從實驗室到馬斯克的Colossus——
AI超級計算的時代,才剛剛開始。
參考資料:
https://x.com/EpochAIResearch/status/1930736072813670721
https://epoch.ai/data/ai-supercomputers
https://epoch.ai/blog/trends-in-ai-supercomputers
https://epoch.ai/blog/what-is-epoch
https://arxiv.org/abs/2504.16026
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.