(文/觀察者網 呂棟)
7月26日,觀察者網在世界人工智能大會(WAIC 2025)現場了解到,華為首次展出了昇騰384超節點真機,并且獲評“WAIC鎮館之寶”。在展臺上,華為還全方位展現了昇騰算力底座的創新能力、訓練及推理解決方案、開源開放的軟硬件生態,以及在互聯網、運營商、金融、能源、教育科研等千行萬業的豐富實踐。
圖源:觀察者網
在當下,大模型訓練和推理對算力需求的爆炸式增長,但傳統計算架構面臨資源利用率低,故障頻發等挑戰,難以支撐AI技術的代際躍遷,這就算力集群的系統工程能力提出更高要求。
今年5月,在鯤鵬昇騰開發者大會上,華為推出了昇騰384超節點,由12個計算柜和4個總線柜構成。這個體積龐大的“算力核彈”,成功實現業界最大規模的384個NPU卡高速總線互聯。根據現場介紹,昇騰超節點具備超大帶寬、超低時延、超強性能的三大優勢,包括多款訓練和推理產品。
相比英偉達NVL72等行業超節點方案,昇騰超節點最關鍵的創新,在于徹底打破了傳統以CPU為中心的馮諾依曼架構,既“主從架構”,創新提出了“全對等架構”,憑借高速互聯總線的關鍵突破,把總線從服務器內部擴展到整機柜、甚至跨機柜,最終將CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,這樣就能去除掉繁多的中轉環節,從而實現真正的點對點互聯,進而實現更大的算力密度和互聯帶寬。
縱觀國內,目前使用全國產芯片構建超節點,還能全面超越英偉達NVL72的,只有華為。昇騰384超節點通過全新高速網絡MatrixLink全對等互聯,形成一臺超級“AI服務器”,它的算力總規模達300Pflops,是英偉達NVL72的1.7倍;網絡互聯總帶寬達269TB/s,比英偉達NVL72提升107%;內存總帶寬達1229TB/s,比英偉達NVL72提升113%;單卡推理吞吐量躍升到2300 Tokens/s。
更重要的是,通過最佳負載均衡組網等方案,昇騰超節點還能進一步擴展為包含數萬卡的Atlas 900 SuperCluster超節點集群,未來可以支撐更大規模的模型演進。
觀察者網獲得的性能測試數據顯示,在昇騰超節點集群上,LLaMA3等千億稠密模型性能相比傳統集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模態、MoE模型上,性能提升可達3倍以上,較業界其他集群高出1.2倍,在行業中處于領先地位。
“單芯片制程從7納米到5納米、3納米、2納米,每代性能提升不超過20%,總體能提升50%左右。華為通過高效的超節點系統,提升了芯片算力利用率。在硬件什么也沒有改變的情況下,通過系統工程的優化,資源的高效調度,一定程度彌補了芯片工藝的不足。”華為專家曾對觀察者網表示。
昇騰384超節點架構
自2019年以來,昇騰不僅在芯片等根技術領域深耕,還持續擴展產業生態,提供好用易用的軟件、工具和平臺,實現AI技術和行業場景深度融合。目前業界已基于昇騰適配和開發超過80個大模型,在基礎大模型方面多個技術方向均有積累,如訊飛星火認知、DeepSeek、Qwen、鵬城、LLaMA等。同時,昇騰聯合2700+行業合作伙伴,共同孵化了超過6000+個行業解決方案,使能百模千態,加速行業智能化。
觀察者網了解到,本次參展WAIC,華為展臺面積超過800平方米,除了展示昇騰軟硬件能力,訓練、推理解決方案和開源開放的軟硬件生態,還攜手伙伴共同展示互聯網、運營商、金融、政務、醫療、油氣、交通等11大行業解決方案實踐,供與會者現場參觀交流。
本文系觀察者網獨家稿件,未經授權,不得轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.