網易首頁 > 網易號 > 正文申請入駐

首發：字節跳動“大禹”服務器架構

2025-07-07 12:14:00　來源: DT Value

北京舉報

分享至

編者按:

2025中國智算中心全棧技術大會以“全棧智算算存網加速進化”為主題。字節跳動服務器架構師高曉軍，在此次大會上做了主題為《字節跳動“大禹” 服務器架構》的精彩演講。

本文根據高曉軍的演講全文進行整理，略有刪減。

在此次大會上，跟大家著重分享字節跳動的基礎設施服務器架構。

該架構之所以被命名為“大禹”，主要原因有兩個，一是在于面對各種各樣的算力，如何才能用好？字節跳動希望通過疏而不是堵的方式，也就是更開放的將算力用起來，這是“大禹治水”的理念；二是我們認為“大禹”代表了一種智慧，代表了團結的態度，字節跳動考慮通過更加開放的、積極的態度，和業界同行協作，共同將基礎服務器產業做大、做好、做強。

大禹架構設計理念

字節跳動的服務器設計理念，總結起來可以分為四條。

第一，從業務需求出發。由于過去幾年業務快速增長，字節跳動在全球建設了大量的數據中心和服務器集群。因此擁有豐富的數據中心集群建設經驗。因此，字節跳動會基于業務的優化，從場景出發來進行最合適的服務器設計，不是一定追求先進的技術，但一定是和業務的需求緊密的結合在一起。在此基礎上再考慮更好地支持多樣性算力，以及對未來跨代的演進提出想法，確保在演進的過程中最大化基礎設施的投資收益；

第二，沿綠色低碳方向。字節跳動始終是致力于建設一個比較低碳的綠色數據中心，已經部署了幾十萬臺液冷服務器，后續還會加大液冷服務器部署的力度，占比在未來還會持續上升。

第三，推進極速交付。字節跳動在服務器交付的過程中發現，更快交付以快速滿足業務需求這個非常重要。因此，字節跳動那個一直在推進L11、L12級別的整機柜模式的交付方式，以快速的縮短交付周期、提升交付質量，實現全球范圍規模化部署。

第四，促進開放協同。在行業生態方面，字節跳動會更加積極、開放的形成統一的解決方案。在這個基礎上，實現開放系統的彈性擴展，滿足業務增長的需求，快速地使能各種各樣的應用。

AI液冷整機柜架構分享

大禹架構的AI液冷整機柜有如下幾個特點。

一是算力解耦，彈性擴展。我們的整機柜在U位的設計上，與其他公司的略有不同。在計算區有24個U位，支持機頭通過機頭+BOX的配置組合，實現資源的靈活配比。

二是多樣性算力兼容，支持國內外主流GPU/NPU，U位功能可擴展。

三是擴展性強。在AI基礎設施中，Scale-up非常重要，我們在機柜中保留了一定的擴展性。典型情況下會用到8臺或者4臺交換機，如果需要更多交換機，也能夠向上或者向下擴展靈活的組合。

四是機柜預留擴展性大。機柜的深度上為1.4米，保證在供電、制冷方面有充分的空間。

當前整機柜典型的配置功耗在100千瓦，下一代升級之后，會有200-240千瓦的供電需求。通過PowerShelf的數量和PowerShelf PSO 功率模塊等比較容易升級替換。

在尺寸方面，我們的整機柜借鑒了行業典型的2286毫米的高度，U位設計為通用的48毫米。在位置設計方面，也盡可能跟行業內很多設計保持了一致，方便GPU的靈活擴展，能夠支持單機柜64卡或者128卡，也可以通過兩柜背靠背的方式一直到256卡的規模，擴展性能夠滿足當前以及未來2-3年的業務需求。

在模塊化方面，無論是Cable Tray、Busbar還是Manifold，我們都進行了模塊化的設計，支持各種獨立演進和跨代演進。

通用計算液冷整機柜架構分享

字節跳動的通用計算液冷整機柜借鑒了AI液冷整機柜的架構，它的高度、深度、外緣尺寸等都跟AI液冷整機柜保持了一致，確保在數據中心的部署時能夠統一。

通用計算液冷整機柜采用了24個U位做計算節點，每個U位可以放兩個邏輯節點，因此整個機柜可以提供48個通用處理器節點，相比傳統的風冷機柜能夠實現4倍以上密度提升。

通用計算液冷整機柜的很大一部分收益來自于密度和網絡。傳統的風冷多機柜方式，網絡端口利用率在70-80%，而液冷整機柜的方式，能夠把利用率提升到95%以上，能夠節約大量的網絡成本。

此外，我們會預留10U的空間，去支持存儲服務器，來支持業務存算混合部署場景，以提高集群的性能。這里預留的空間可以方便地部署兩臺或者三臺HDD存儲服務器，也可以部署NVMe的SSD存儲服務器。當然，機柜下方的空間也可以保留支持CDU。

在整機柜的后部，我們采用了跟AI整機柜同樣的設計理念，實現了Manifold和Busbar模塊化的設計,功率等級略低于AI整機柜，單機柜按照66千瓦規劃。

整機柜的極速交付便捷運維

除了以上提及的整機柜設計理念，字節跳動在交付部分也進行了較多的嘗試，在全球多地實現了L11級整機柜模式的交付實踐。

我們認為，首先在規劃方面，需要數據中心和服務器進行較好的協同，包括單機柜的功率等級、散熱、網絡架構等。

通用計算的很多設計是只給CPU做液冷，這部分風液比大概在50-60%，而AI的機柜通常AI算力的液冷已經可以占到80-90%。

其次，要實現服務器的標準化，這一點非常關鍵。不管是機柜、供電、快接規格、機柜管理方法等，都需要在較長的時間內保持延續性，避免部署的過程中跨代的變更但來的成本；

在預集成的管理。在工廠端的預集成包括了各個部件的集成，整機柜的測試等；

另外，上線的自動化部署、整機柜質量的測試等，都是比較重要的能力。

通過一系列的工作，我們實現了交付周期的大規模縮短，從平均兩個月到了一個月，收益非常大。同時，服務器的故障率也得到了明顯的改善，隨著AI機柜和通用機柜的持續規模化部署，我們相信未來在全球整機柜的交付模式會持續推進。

服務器整機柜規模部署挑戰和展望

我們認為，當前在整機柜的部署中，既有挑戰，也面臨著很大的機會，應該著重在如下三個方面發力：

第一，規劃協同。這需要數據中心、服務器和網絡等各個方向上共同做好規劃，比如說在未來三年的規劃應該今早做好協同。在此基礎上，需要服務器架構設計有更多的開放和彈性。在業務發生變化和數據中心建設發生變化時，服務器端能夠很容易的調整和適配。

第二，業務優化。業務的需求在持續不斷的變化，在服務器的準備上一定要契合業務的需求變化快速靈活的做好響應，這樣才能夠提升業務的效率、質量和運維的體驗。

第三，規范保駕。這就需要大家一起努力，在全行業推進整機柜規范的建設，通過規范的建設做好行業經驗的共享，較好的使能各種算力，保障整機柜服務器在數據中心大規模的可靠、穩定、快速的應用。

整體而言，字節跳動希望跟大家一起，共建共享行業生態，從CPU、GPU的算力，液冷、供電、機柜等部件的生態，跟大家共同推進整個智算、通算生態的發展。

7月27日，由全球計算聯盟（GCC）在2025世界人工智能大會（WAIC）主辦、益企研究院協辦的論壇——“智算技術創新與行業實踐”，將于7月27日下午在上海世博中心展覽館召開。屆時，字節跳動技術專家將會現場分享《面向未來的智算基礎架構》。

歡迎掃碼蒞臨現場參加！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.