在人工智能與高性能計算領域,英偉達憑借多項核心技術占據行業領先地位。其中,除廣為人知的 AI 硬件、CUDA 生態外,NVLink 內存共享端口技術同樣是其重要的核心競爭力,堪稱構筑起英偉達市場優勢的關鍵護城河之一。然而,隨著技術的發展與行業競爭的加劇,NVLink 正面臨諸多挑戰,其作為護城河的穩固性引發廣泛關注。
01
NVLink如何構建英偉達AI護城河?
早在 2014 年,英偉達便首次向外界公布了 NVLink 協議,這一創新技術的誕生,為多 GPU 協同工作開啟了新的篇章。2016 年,NVLink 1.0 在 DGX - 1 系統中首次得到實際應用,成功連接 8 個 P100 GPU。彼時,傳統的 PCIe(Peripheral Component Interconnect Express)互聯技術受限于帶寬和延遲,已難以滿足高性能計算(HPC)應用日益增長的需求。NVLink 1.0 以 80GB/s 的帶寬橫空出世,有效緩解了數據傳輸瓶頸,極大地提升了多 GPU 系統的協同效率,開創了高性能計算領域多 GPU 協同工作的新局面。
此后,NVLink 歷經多次重要的技術迭代,持續突破性能極限。2017 年,NVLink 2.0 版本推出,引入了 NVSwitch 這一關鍵組件,進一步拓展了連接規模。借助 NVSwitch,多 GPU 和 CPU 節點能夠在更大范圍內構建起復雜的互聯網絡,每個鏈接的帶寬提升至 25GB/s,雙向總帶寬達到 50GB/s。以 V100 GPU 為例,其最高可支持 6 個鏈接,實現了 300GB/s 的雙向總帶寬,為大規模計算任務提供了更強大的支持。
2020 年發布的 NVLink 3.0 在技術上再次取得重大突破,將每個差分對的數據傳輸速率從 25Gbit/s 提升至 50Gbit/s,同時對差分對數量進行優化,從 8 個減少到 4 個。以基于 Ampere 架構的 A100 GPU 為例,其 12 個鏈接帶來了高達 600GB/s 的總帶寬,數據傳輸效率得到顯著提升。
到了 2022 年,NVLink 4.0 在信號技術方面實現重要革新,從 NRZ 進化到 PAM4。基于 Hopper 架構的 GPU 憑借 18 個 NVLink 4.0 鏈接,實現了 900GB/s 的總帶寬,進一步鞏固了英偉達在高速互聯領域的技術優勢。而在 COMPUTEX 2025 上,英偉達推出的第五代 NVLink 更是將帶寬提升至驚人的 1.2TB/s,不斷刷新高性能計算領域的性能上限。
同時,隨著技術的演進,NVLink的應用場景也不斷拓展。在人工智能與深度學習領域,大語言模型等AI模型訓練需要處理海量參數和數據,單GPU的內存和計算能力遠遠不足,NVLink允許多GPU共享統一內存池,加速模型訓練。
隨著技術的不斷演進,NVLink 的應用場景也在持續拓展。在人工智能與深度學習領域,大語言模型等 AI 模型訓練面臨著海量參數和數據處理的巨大挑戰,單 GPU 的內存和計算能力遠遠無法滿足需求。NVLink 技術允許眾多 GPU 共享統一內存池,通過高效的數據傳輸和協同計算,大幅加速模型訓練進程。實測數據顯示,采用 NVLink 互聯的千卡集群,參數同步效率提升 2 倍以上,整體算力利用率從 60% 躍升至 90% 量級。正是憑借 NVLink 技術構筑起的強大技術壁壘,英偉達得以在全球 AI 訓練市場占據霸主地位,壟斷全球高端 GPU 市場,成為高性能計算領域的領軍企業。
02
NVLink 的競爭對手越來越多了
當前,英偉達 GPU 憑借高效率的運算能力,廣泛應用于全球各高算力領域,使得 NVLink 在事實上成為行業互聯標準。然而,這一局面也引發了其他科技巨頭的競爭。為了在高性能計算和 AI 領域與英偉達一爭高下,AMD、英特爾紛紛推出 CXL、UCIe 等互聯方案。這些競爭對手面臨著艱難的抉擇:若不加速與市場需求和現有生態的兼容適配,其產品很可能在激烈的競爭中被邊緣化;反之,在技術研發和市場推廣上則需投入巨大成本。
此外,行業內的競爭態勢愈發激烈。UALink 聯盟近期正式發布 1.0 標準,為市場帶來新的技術選擇。國內首家對標英偉達 “NVLink&NVSwitch” 的互聯通信方案提供商 —— 北京探微芯聯科技有限公司,也宣布完成數千萬人民幣天使輪融資。探微芯聯源自清華大學類腦計算研究中心,專注于 GPU 與 GPU 間通信協議和交換芯片的研發,其自研的 ACCLink & ACCSwitch 技術,在性能和功能上可與英偉達的 NVLink & NVSwitch 技術相媲美,為國產高性能計算互聯技術的發展注入新的活力,也給英偉達的 NVLink 技術帶來了新的競爭壓力。
03
英偉達開放NVLink
在 2025 年臺北國際電腦展上,英偉達首席執行官黃仁勛宣布開放 NVLink Fusion 技術授權,允許聯發科、美滿電子、富士通、高通等 12 家第三方企業接入其高速互連體系。這一舉措預計將帶動 AI 服務器制造成本下降 18%。表面上看,開放 NVLink 意味著英偉達正在放棄其長期以來堅持的硬件閉環優勢,但深入分析其背后邏輯可以發現,這實則是英偉達戰略轉型的重要一步。通過 NVLink Fusion 吸引第三方硬件接入,英偉達旨在擴大 CUDA 生態的 “勢力范圍”,實現從單純的硬件賣家向 “技術標準輸出 + 區域產能綁定” 模式的蛻變,完成從 “賣鏟人” 到 “修路者” 的角色轉變。
近期,英偉達首度推出 NVLink Fusion,正式進軍 ASIC 市場,與 UALink 聯盟展開正面競爭。英偉達執行長黃仁勛表示,目前 90% 的 ASIC 專案都將失敗,并強調英偉達的 ASIC 產品會比其他競爭者成長更快。然而,英偉達開放 NVLink Fusion 技術授權的背后,也透露出其對技術護城河被打破的擔憂。隨著越來越多競爭對手的涌現和技術的快速發展,英偉達不得不通過開放技術來鞏固自身的市場地位,但這折射出其核心技術正面臨著更多的競爭和挑戰。
04
華為超節點技術或打破NVLink壟斷
盡管英偉達開放了 NVLink 技術授權,但遺憾的是,首批獲得授權的 12 家企業中,沒有一家來自大陸。在國內,如何發展相關技術成為構建大規模國產 GPU 集群的關鍵所在。近期,“超節點” 這一概念在 AI 圈迅速走紅。超節點(SuperPod)最初由英偉達公司提出,在 AI 發展進程中,隨著大模型參數規模不斷增長,對 GPU 集群的規模需求也水漲船高,從千卡級逐步發展到萬卡級、十萬卡級,未來甚至可能邁向更大規模。構建大規模 GPU 集群主要有兩種方式:Scale Up 和 Scale Out。Scale Up 即向上擴展,也稱為縱向擴展,通過增加單節點的資源數量來提升算力;Scale Out 則是向外擴展,又稱橫向擴展,通過增加節點的數量來實現規模增長。例如,在每臺服務器中增加幾塊 GPU,這就是 Scale Up,此時一臺服務器可視為一個節點;而通過網絡將多臺電腦(節點)連接起來,則屬于 Scale Out。
近期,華為高調發布了 AI 領域的重磅技術 ——CloudMatrix 384 超節點。該超節點以 384 張昇騰算力卡組成,在目前已商用的超節點中單體規模最大,可提供高達 300 PFLOPs 的密集 BF16 算力,接近英偉達 GB200 NVL72 系統算力的兩倍。華為 CloudMatrix 384 超節點通過超高帶寬 Scale - Up 新型高速總線網絡,實現了從 “傳統以太網” 向 “共享總線網絡” 的重大演進,將資源互聯帶寬提升了 10 倍以上,在關鍵特性上超越了英偉達 NVL72 超節點。
這種集群計算技術有效地彌補了國產芯片在先進制程和算力上的不足。華為華為首席執行官任正非在采訪中也表示,“單芯片還是落后美國一代,我們用數學補物理、非摩爾補摩爾,用群計算補單芯片,在結果上也能達到實用狀況。”任正非補充說,“中國在中低端芯片上是可以有機會的,中國數十、上百家芯片公司都很努力。特別是化合物半導體機會更大。硅基芯片,我們用數學補物理、非摩爾補摩爾,利用集群計算的原理,可以達到滿足我們現在的需求。”他還表示,“芯片問題其實沒必要擔心,用疊加和集群等方法,計算結果上與最先進水平是相當的。軟件方面,將來是千百種開源軟件滿足整個社會需要。”
值得注意的是,英偉達更早就有超節點了,但最多只能做到72塊卡。這主要是因為英偉達的卡和卡之間是用銅纜通信,即所謂的NVLink,其可以保證每秒百g級的通信效率,并且不需要經過CPU,這樣才能保障多卡之間的訓練和推理,會隨著卡數的增加而提升吞吐量和效率。但NVLink也有問題,不能超過3米,否則信號會急劇衰減,所以,英偉達的多卡超節點只能放在一個機柜里,最多塞72塊,這也是他的上限。
與之相比,華為雖然昇騰單卡性能目前與英偉達仍存在一定差距,但華為作為通訊領域出身的企業,在通信技術方面具有得天獨厚的優勢,處于行業領先地位。華為另辟蹊徑,采用光通信替代銅纜通信,這一創新舉措能夠在幾乎無限長度的傳輸距離下,保障比 NVLink 更高的帶寬。因此,華為的超節點不要求算力卡集中在一個機柜內,甚至可以分布在不同機房。這種優勢使得華為能夠更大規模地堆疊算力卡,384 超節點的實際算力節點已遠超英偉達的 72 超節點,并且未來還有進一步擴展的空間。此外,華為光通信技術在模塊化和異構化方面表現出色,不僅支持昇騰卡,還能兼容其他各家的 TPU,形成了一個開放、靈活的生態系統。
05
英偉達也瞄準光通信技術
顯然,英偉達也意識到了相關問題,一直以來都在布局研究光通信技術和產品。英偉達正在為當前及下一代光學系統優先采用硅光技術。2025 年 3 月,英偉達宣布推出全球首個采用新型微環調制器的 1.6T CPO 系統,并表示其 Quantum-X 硅光交換機將于 2025 年下半年出貨,Spectrum-X 系統也將在 2026 年下半年跟進。
然而,在光通信技術生態建設方面,英偉達面臨著諸多挑戰。Meta 和微軟倡導圍繞 CPO 建立新的生態系統,并致力于制定光學引擎制造的行業標準,但初期產品仍將基于專有設計。這對于傾向于自行設計服務器、交換機和所有互連設備的大客戶而言,成為了大規模部署的一大障礙。為了加速 CPO 技術的部署,英偉達計劃向終端用戶提供集成了 CPO 的完整系統,并全面負責系統的運行和維護。如果此類系統能夠帶來顯著的性能提升,客戶或許會愿意接受。但從長遠來看,完全依賴英偉達的設計并非 Meta、微軟等大型云公司可接受的長期戰略。要實現 CPO 技術的大規模部署,構建一個全新的、充滿競爭的生態系統至關重要。
博通公司也在日前宣布,開始交付 Tomahawk 6 交換機系列芯片,該系列單芯片提供 102.4 Tbps 的交換容量,是目前市場上以太網交換機帶寬的兩倍。Tomahawk 6 專為下一代可擴展和可擴展 AI 網絡而設計,通過支持 100G / 200G SerDes 和共封裝光學模塊(CPO),提供更高的靈活性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.