編者按:
2025中國智算中心全棧技術大會以“全棧智算算存網加速進化”為主題。字節跳動服務器架構師高曉軍,在此次大會上做了主題為《字節跳動“大禹” 服務器架構》的精彩演講。
本文根據高曉軍的演講全文進行整理,略有刪減。
在此次大會上,跟大家著重分享字節跳動的基礎設施服務器架構。
該架構之所以被命名為“大禹”,主要原因有兩個,一是在于面對各種各樣的算力,如何才能用好?字節跳動希望通過疏而不是堵的方式,也就是更開放的將算力用起來,這是“大禹治水”的理念;二是我們認為“大禹”代表了一種智慧,代表了團結的態度,字節跳動考慮通過更加開放的、積極的態度,和業界同行協作,共同將基礎服務器產業做大、做好、做強。
大禹架構設計理念
字節跳動的服務器設計理念,總結起來可以分為四條。
第一,從業務需求出發。 由于過去幾年業務快速增長,字節跳動在全球建設了大量的數據中心和服務器集群。因此擁有豐富的數據中心集群建設經驗。因此,字節跳動會基于業務的優化,從場景出發來進行最合適的服務器設計,不是一定追求先進的技術,但一定是和業務的需求緊密的結合在一起。在此基礎上再考慮更好地支持多樣性算力,以及對未來跨代的演進提出想法,確保在演進的過程中最大化基礎設施的投資收益;
第二,沿綠色低碳方向。 字節跳動始終是致力于建設一個比較低碳的綠色數據中心,已經部署了幾十萬臺液冷服務器,后續還會加大液冷服務器部署的力度,占比在未來還會持續上升。
第三,推進極速交付。 字節跳動在服務器交付的過程中發現,更快交付以快速滿足業務需求這個非常重要。因此,字節跳動那個一直在推進L11、L12級別的整機柜模式的交付方式,以快速的縮短交付周期、提升交付質量,實現全球范圍規模化部署。
第四,促進開放協同 。在行業生態方面,字節跳動會更加積極、開放的形成統一的解決方案。在這個基礎上,實現開放系統的彈性擴展,滿足業務增長的需求,快速地使能各種各樣的應用。
AI液冷整機柜架構分享
大禹架構的AI液冷整機柜有如下幾個特點。
一是算力解耦,彈性擴展。我們的整機柜在U位的設計上,與其他公司的略有不同。在計算區有24個U位,支持機頭通過機頭+BOX的配置組合,實現資源的靈活配比。
二是多樣性算力兼容,支持國內外主流GPU/NPU,U位功能可擴展。
三是擴展性強。在AI基礎設施中,Scale-up非常重要,我們在機柜中保留了一定的擴展性。典型情況下會用到8臺或者4臺交換機,如果需要更多交換機,也能夠向上或者向下擴展靈活的組合。
四是機柜預留擴展性大。機柜的深度上為1.4米,保證在供電、制冷方面有充分的空間。
當前整機柜典型的配置功耗在100千瓦,下一代升級之后,會有200-240千瓦的供電需求。通過PowerShelf的數量和PowerShelf PSO 功率模塊等比較容易升級替換。
在尺寸方面,我們的整機柜借鑒了行業典型的2286毫米的 高度,U位設計為通用的48毫米。在位置設計方面,也盡可能跟行業內很多設計保持了一致,方便GPU的靈活擴展,能夠支持單機柜64卡或者128卡,也可以通過兩柜背靠背的方式一直到256卡的規模,擴展性能夠滿足當前以及未來2-3年的業務需求。
在模塊化方面,無論是Cable Tray、Busbar還是Manifold,我們都進行了模塊化的設計,支持各種獨立演進和跨代演進。
通用計算液冷整機柜架構分享
字節跳動的通用計算液冷整機柜借鑒了AI液冷整機柜的架構,它的高度、深度、外緣尺寸等都跟AI液冷整機柜保持了一致,確保在數據中心的部署時能夠統一。
通用計算液冷整機柜采用了24個U位做計算節點,每個U位可以放兩個邏輯節點,因此整個機柜可以提供48個通用處理器節點,相比傳統的風冷機柜能夠實現4倍以上密度提升。
通用計算液冷整機柜的很大一部分收益來自于密度和網絡。傳統的風冷 多機柜方式 ,網絡端口利用率在70-80%,而液冷整機柜的方式,能夠把利用率提升到95%以上,能夠節約大量的網絡成本。
此外,我們會預留10U的空間,去支持存儲服務器,來支持業務存算混合部署場景,以提高集群的性能。這里預留的空間可以方便地部署兩臺或者三臺HDD存儲服務器,也可以部署NVMe的SSD存儲服務器。當然,機柜下方的空間也可以保留支持CDU。
在整機柜的后部,我們采用了跟AI整機柜同樣的設計理念,實現了Manifold和Busbar模塊化的設計,功率等級略低于AI整機柜,單機柜按照66千瓦規劃。
整機柜的極速交付 便捷運維
除了以上提及的整機柜設計理念,字節跳動在交付部分也進行了較多的嘗試,在全球多地實現了L11級整機柜模式的交付實踐。
我們認為,首先在規劃方面,需要數據中心和服務器進行較好的協同,包括單機柜的功率等級、散熱、網絡架構等。
通用計算的很多設計是只給CPU做液冷,這部分風液比大概在50-60%,而AI的機柜通常AI算力的液冷已經可以占到80-90%。
其次,要實現服務器的標準化,這一點非常關鍵。不管是機柜、供電、快接規格、機柜管理方法等,都需要在較長的時間內保持延續性,避免部署的過程中跨代的變更但來的成本;
在預集成的管理。在工廠端的預集成包括了各個部件的集成,整機柜的測試等;
另外,上線的自動化部署、整機柜質量的測試等,都是比較重要的能力。
通過一系列的工作,我們實現了交付周期的大規模縮短,從平均兩個月到了一個月,收益非常大。同時,服務器的故障率也得到了明顯的改善,隨著AI機柜和通用機柜的持續規模化部署,我們相信未來在全球整機柜的交付模式會持續推進。
服務器整機柜規模部署挑戰和展望
我們認為,當前在整機柜的部署中,既有挑戰,也面臨著很大的機會,應該著重在如下三個方面發力:
第一,規劃協同。這需要數據中心、服務器和網絡等各個方向上共同做好規劃,比如說在未來三年的規劃應該今早做好協同。在此基礎上,需要服務器架構設計有更多的開放和彈性。在業務發生變化和數據中心建設發生變化時,服務器端能夠很容易的調整和適配。
第二,業務優化。業務的需求在持續不斷的變化,在服務器的準備上一定要契合業務的需求變化快速靈活的做好響應,這樣才能夠提升業務的效率、質量和運維的體驗。
第三,規范保駕。這就需要大家一起努力,在全行業推進整機柜規范的建設,通過規范的建設做好行業經驗的共享,較好的使能各種算力,保障整機柜服務器在數據中心大規模的可靠、穩定、快速的應用。
整體而言,字節跳動希望跟大家一起,共建共享行業生態,從CPU、GPU的算力,液冷、供電、機柜等部件的生態,跟大家共同推進整個智算、通算生態的發展。
7月27日, 由全球計算聯盟(GCC)在2025世界人工智能大會(WAIC)主辦、益企研究院協辦的論壇——“智算技術創新與行業實踐”,將于7月27日下午在上海世博中心展覽館召開。屆時,字節跳動技術專家將會現場分享《面向未來的智算基礎架構》。
歡迎掃碼蒞臨現場參加!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.