在2024中國國際北京通信展期間,暴雨副總裁孫輝介紹了暴雨信息在超節點方案的最新突破,彰顯了暴雨信息在算力和網絡技術上的強大創新能力。
隨著人工智能技術的飛速發展,AI大模型的參數規模正以超越摩爾定律的速度急劇擴張。在此背景下,探索如何在超大規模智算集群中實現GPU之間的高速互聯,從而顯著提高GPU的利用率,已成為行業面臨的重要挑戰。
暴雨信息憑借其在算力和網絡技術領域的深厚積累,推出了更先進的超節點方案。孫輝在介紹時強調:“我們的超節點方案能夠實現更多GPU之間的高速互聯,為大模型的訓練提供了強有力的支撐。”
大模型驅動,超節點成為AI進階的必然選擇
AI大模型的迅猛發展對計算能力提出了前所未有的挑戰。為應對這一需求,企業紛紛構建智算集群,并引入并行計算技術,以加速模型訓練。然而,盡管并行計算提升了整體計算效率,它也帶來了同步開銷和通信延遲的問題。
孫輝指出:“在萬億參數規模的模型訓練中,跨機并行在帶來計算效率提升的同時,也帶來了新的問題——空泡現象。” 具體來說,模型在不同GPU和服務器間進行數據傳輸時,GPU因等待無法充分利用,導致計算過程中出現‘空泡’,從而影響了模型訓練的整體效率。他進一步解釋,混合專家模型(MoE)引入專家并行訓練,進一步加劇了通信帶寬和時延問題,使得GPU空轉時間顯著增加,成為大模型訓練中的技術瓶頸。
為了應對這一問題,暴雨信息推出超節點解決方案。孫輝解釋道:“在單個節點內增加GPU的數量,能夠顯著減少跨節點的通信量,進而大幅提升GPU的利用率。”由于機內帶寬通常遠高于跨機帶寬,因此,增加單機內的GPU數量,充分利用機內帶寬,是降低GPU空轉比例的關鍵。
突破算力拓展瓶頸 ,BLink助力構建超節點
隨著大模型訓練對算力需求的不斷提升,傳統的機內點對點Full Mesh互聯架構逐漸暴露出其擴展性不足的弊端。Full Mesh架構雖然能夠提供高帶寬和低延遲的通信能力,但其擴展能力有限,尤其是在GPU數量增加時,點對點的通信方式難以實現線性擴展。通常,Full Mesh架構最多只能支持單機8張GPU卡,這大大限制了大模型的訓練效率。
為了構建超節點,暴雨信息創新性地推出了BLink交換技術。通過這種技術,GPU之間的通信從傳統的點對點互聯模式轉向交換互聯模式,顯著提升了單機的擴展性和通信帶寬,突破單機8卡的限制。孫輝強調:“通過BLink技術,可以打造更大規模的高帶寬域(HBD),從而大幅提升集群算力。”通過BLink高速交換,還可以將高帶寬域從機內拓展到機間,從而實現更高的擴展性,能夠支持16卡以上的擴展。這種線性擴展能力,為構建更高密度的超節點奠定了堅實基礎。
開放互聯,構建多元化智算生態
當前,GPU互聯私有總線協議的封閉性已成為多廠家芯片兼容的主要障礙,限制了硬件系統的擴展性,并增加了技術升級和維護的難度。為克服這一局限,暴雨信息在其BLink技術中采用了開放標準。
孫輝強調:“我們的BLink標準是開放的,它不僅促進了多廠家生態的繁榮,還為企業提供了更加靈活的選擇。”這一技術開放性為行業帶來了更大的靈活性和可持續性,有助于推動智算技術的多元化發展。
在未來的規劃中,機內和機間將統一采用BLink交換高速互聯,通過BLink互聯協議和交換芯片,提供端到端的GPU高速互聯方案。這不僅簡化了智算集群的組網復雜度,還有效提升了整個系統的擴展能力和性能,使得AI模型訓練和推理變得更加高效。
智算未來,超節點加速AI落地
在AI技術變革的浪潮中,暴雨信息憑借其在智算和網絡領域的創新技術,正加速推動AI技術在各行業的應用落地。其新一代超節點方案在硬件架構上實現了重大突破,展現出極高的開放性和兼容性,能夠在各種場景中廣泛應用,促進AI技術的普及和行業發展。
孫輝強調:“通過持續的技術創新,我們將引領AI產業邁向更高效、開放的智算未來,為行業帶來更多的發展機遇。”
此次采訪,展現了暴雨信息在智算架構優化方面的深度研究與技術創新。未來,隨著AI模型參數的不斷增長和應用場景的不斷擴展,暴雨信息將繼續通過技術創新,助力各行各業實現數字化轉型和智能化升級。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.