編者按:
6月11日,暨第11屆中國(上海)國際數(shù)據(jù)中心產(chǎn)業(yè)展覽會、第6屆中國數(shù)據(jù)中心綠色能源大會在上海新國際博覽中心順利舉辦。
2025中國智算中心全棧技術(shù)大會以“全棧智算算存網(wǎng)加速進(jìn)化”為主題。奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁祝俊東,在此次大會上做了主題為《從Scale Out到Scale Up,以互聯(lián)為中心,構(gòu)筑高性能AI基礎(chǔ)設(shè)施》的精彩演講。
本文根據(jù)祝俊東的演講全文進(jìn)行整理,略有刪減。
奇異摩爾聯(lián)合創(chuàng)始人、產(chǎn)品及解決方案副總裁 祝俊東
在AI算力基礎(chǔ)設(shè)施中,如何通過Scale Up到Scale Out的網(wǎng)絡(luò),構(gòu)建一個(gè)更加高效的算力,如何以互聯(lián)為中心來解決這些問題?
從Scale Out到Scale Up,算力形態(tài)不斷發(fā)展變化
在過去數(shù)年中,AI已經(jīng)深入到工作與生活的方方面面。簡單而言,從模型的算力能力來講,以大模型為基礎(chǔ)的AIGC在各個(gè)領(lǐng)域,包括寫作、編程等,已經(jīng)達(dá)到跟人類類似的水平;另外一方面,AIGC也已經(jīng)逐步進(jìn)入大家的生活,成為了生產(chǎn)力工具。互聯(lián)網(wǎng)花了將近20年的時(shí)間,才覆蓋90%的人群;而AI只花了3年,就達(dá)到了廣泛使用的用戶基礎(chǔ)。
此外,AI相關(guān)的新技術(shù)也是不斷發(fā)展,從回答問題到完成任務(wù),以AI Agent為代表的新形態(tài)已經(jīng)出現(xiàn)。比如說Manus,它不僅是像過去那樣來回答問題,還能夠幫助主動完成很多任務(wù),這給大家在生活中帶來了諸多便利。
AI的背后是算力,算力規(guī)模的投入一直在持續(xù)增加。無論是全球還是國內(nèi),算力的規(guī)模都越來越大,各家巨頭都在持續(xù)進(jìn)行大規(guī)模的算力投入。
與此同時(shí),跟AI相關(guān)的網(wǎng)絡(luò)技術(shù)即互聯(lián)技術(shù),相關(guān)的關(guān)注度及投入正在快速增加。此前,互聯(lián)相關(guān)的技術(shù)在算力中心投入不足5%,現(xiàn)在已經(jīng)逐漸增加到15%甚至20%,未來還可能會持續(xù)增加。
互聯(lián),已經(jīng)成為AI算力基礎(chǔ)設(shè)施中非常重要的組成部分。
模型及應(yīng)用持續(xù)發(fā)展,帶來算力形態(tài)變化
隨著基礎(chǔ)模型的變化和AI應(yīng)用的變化,算力中心的算力形態(tài)也在逐漸發(fā)生變化。
模型的參數(shù)規(guī)模越來越大,從千億級到萬億級的大模型仍然在持續(xù)增長。隨著推理應(yīng)用的逐步落地,ROI成為了企業(yè)部署大模型考慮的關(guān)鍵,在考慮性能的同時(shí)、還需兼顧體驗(yàn)和成本的平衡。所謂的性能就是支持快速的響應(yīng)速度,同時(shí)要支持高并發(fā),以及在整個(gè)應(yīng)用環(huán)境中取得成本的平衡。
同時(shí),輕量級小模型也在紛紛推出,邊緣推理性能大幅提升。以通義千問3-4B為例,在4B的模型上已經(jīng)可以取得不錯(cuò)的應(yīng)用效果,整體在端側(cè)應(yīng)用表現(xiàn)出較大的優(yōu)勢。
Scaling Law受到限制,需要算法和工程的協(xié)同演進(jìn)
很多人現(xiàn)在意識到了一個(gè)問題,經(jīng)典的基于Transformer 的Scaling Law(縮放定律)正面臨挑戰(zhàn):集群算力增長放緩,單純縮放效果放緩。首先是算力的增長跟不上軟件與模型的算力需求,其次是單純靠算力堆疊更大規(guī)模的縮放效果也逐步放緩。
因此,在大模型的發(fā)展領(lǐng)域,堆算力時(shí)代已經(jīng)成為過去,工程優(yōu)化成為了必須。
在這方面,DeepSeek做了一個(gè)非常好的榜樣,如何通過軟硬件協(xié)同的設(shè)計(jì),將模型、訓(xùn)練和硬件基礎(chǔ)設(shè)施整合在一起,或者是基于現(xiàn)有的硬件設(shè)施改進(jìn)模型設(shè)計(jì)和優(yōu)化模型的設(shè)計(jì)等。
只有通過這種方式,通過算法、軟硬件、工程協(xié)同的進(jìn)展,才能夠持續(xù)過去的縮放定律或者持續(xù)這種性能提升的趨勢。
互聯(lián)在高性能AI發(fā)展中的重要價(jià)值
因此,眾多因素綜合作用下,互聯(lián)已經(jīng)成為了構(gòu)建整個(gè)AI基礎(chǔ)設(shè)施的關(guān)鍵技術(shù)。
一方面,由于算力放緩,現(xiàn)在Chiplet和集群互聯(lián)已經(jīng)成為了關(guān)鍵。隨著工藝制程的放緩,算力密度的提升越來越放緩;而國產(chǎn)芯片在制程上也會收到限制,Chiplet成為了提升性能的關(guān)鍵。在訓(xùn)練和推理的規(guī)模越來越大的情況下,對算力的需求越來越增加,通信的效能就成為了整個(gè)模型關(guān)鍵的影響因素。
根據(jù)Meta在2024年的相關(guān)數(shù)據(jù),在模型訓(xùn)練不同的情況下,通信的開銷占比已經(jīng)占到整個(gè)時(shí)間的平均30%左右。
隨著AI推理的落地,大家也發(fā)現(xiàn),其響應(yīng)速度也就是TPOT(Time Per Output Token)和互聯(lián)性能成正比,互聯(lián)速度越高,吞吐速度越高,即TPOT會越強(qiáng)。
大模型在進(jìn)行并行計(jì)算過程中,TP(張量并行)已經(jīng)占到了整個(gè)通信量的80%,需要TB級別的帶寬(Scale up GPU間互聯(lián)),所以超節(jié)點(diǎn)變成了非常重要的技術(shù)手段。DP(數(shù)據(jù)并行)的通信量大于10%,就需要Tb級別的帶寬(Scale out 網(wǎng)間互聯(lián));而在將MoE引入EP(專家并行)通信,則會帶來更復(fù)雜的流量。在不同的情況下,流量不同,需要更復(fù)雜的調(diào)度算法和更完善的通信技術(shù)手段。
超節(jié)點(diǎn)已經(jīng)成為大規(guī)模訓(xùn)練、并行推理中重要的支撐技術(shù)。什么是超節(jié)點(diǎn)?按照我們的理解,超節(jié)點(diǎn)是一種通過高帶寬、低時(shí)延互聯(lián)技術(shù)(如NVLink、UB、OISA等)將成百上千張GPU互聯(lián)在一起的產(chǎn)品形態(tài)和技術(shù)。
比如說成百上千張GPU互聯(lián)在一起,猶如一個(gè)巨型GPU般工作;此外,還可以通過構(gòu)建更大的HBD系統(tǒng),以應(yīng)對多種并行通信造成的巨大通信數(shù)據(jù)量。
因此需要再更大規(guī)模的機(jī)柜或者幾個(gè)機(jī)柜之間,引入超高帶寬的互聯(lián),這通常是TB級別的。這會帶來什么好處?
以英偉達(dá)為例,在Hopper架構(gòu)時(shí)代的DGX8卡,跟基于GB300的NVL72相比,超節(jié)點(diǎn)的性能帶來了50倍的提升,同時(shí)其投入產(chǎn)出比也帶來了十倍的提升。
隨著推理大規(guī)模的落地,投資性價(jià)比非常重要,超節(jié)點(diǎn)現(xiàn)在也成為了非常重要的技術(shù)手段。
如何通過互聯(lián)構(gòu)建高性能AI基礎(chǔ)設(shè)施
在很多場合中,大家提到算力時(shí),指的就是集群的有效總算力,集群的算力由幾個(gè)方面的內(nèi)容匯總而成,包括GPU單卡算力乘以集群總卡數(shù),再乘以集群線性度,或者高帶寬域效率。集群有效總算力:單卡算力乘總卡數(shù)以及它的互聯(lián)和調(diào)度的性能。
(圖:奇異摩爾演講摘要)
互聯(lián),萬億英偉達(dá)的支柱之一
從互聯(lián)來看,分為兩個(gè)方面。北向的Scale Out即服務(wù)器之間的互聯(lián),以及南向的Scale Up即GPU之間的互聯(lián)。
以英偉達(dá)為例,這一代開始英偉達(dá)的GPU產(chǎn)品B200或者GB200采用了Chiplet技術(shù),進(jìn)一步擴(kuò)升了芯片本身的算力。同時(shí)在集群之間有超級網(wǎng)卡ConnectX-8(通常稱為CX8),再通過以太網(wǎng)和交換機(jī)實(shí)現(xiàn)互聯(lián)。
英偉達(dá)的NVLINK可以實(shí)現(xiàn)高帶寬、低延時(shí)、多節(jié)點(diǎn)的集群,從72、144到256節(jié)點(diǎn),英偉達(dá)始終在擴(kuò)展其高帶寬集群。
從今年GTC上面英偉達(dá)公布的Roadmap來看,在其整個(gè)產(chǎn)品體系中,其互聯(lián)的占比越來越大。當(dāng)然其計(jì)算還是在不斷地發(fā)展,從Hopper到Blackwell到Rubin會持續(xù)進(jìn)一步的提升算力。通過采用Chiplet技術(shù),可以集成更多的芯片或者芯粒。
(圖:奇異摩爾演講摘要)
在Scale Out側(cè)使用的CX超級網(wǎng)卡,也正在從此前的800G逐步提升到1.6T,甚至將來可能會到大3.2T乃至更高;在Scale Up側(cè),即NVLINK部分,以及NVLINK的交換機(jī)也在以每一代翻倍的速度提升,過去是900G,現(xiàn)在是1.8T,下一代也會提升到3.6T。
可以說,互聯(lián)正成為英偉達(dá)的一個(gè)非常重要的戰(zhàn)略的支柱,正如過去英偉達(dá)的GPU產(chǎn)品和CUDA技術(shù),互聯(lián)也成為它最重要的差異化的競爭手段。
奇異摩爾賦能未來國產(chǎn)AI算力閉環(huán)方案
對于國產(chǎn)算力而言,產(chǎn)業(yè)界眾多企業(yè)正共同努力,以構(gòu)建國產(chǎn)算力的集群與基礎(chǔ)設(shè)施。GPU或者說AI芯片,當(dāng)然是其中非常重要的手段,在AI芯片之外,互聯(lián)也非常重要。
由于國產(chǎn)AI芯片的制程受限,Chiplet片內(nèi)互聯(lián),基本上目前已經(jīng)成為國內(nèi)芯片企業(yè)的必然選擇。目前在構(gòu)建大卡集群的時(shí)候,業(yè)界很多同仁在做國產(chǎn)交換機(jī),無論是Scale Out還是Scale Up,都有相關(guān)的產(chǎn)品。
那么,奇異摩爾為國產(chǎn)算力的發(fā)展提供什么樣的支持?奇異摩爾可以提供相關(guān)的端側(cè)互聯(lián)方案。
在Scale Out領(lǐng)域,奇異摩爾設(shè)計(jì)了AI原生的超級智能網(wǎng)卡NDSA-SNIC,它內(nèi)建高性能的RDMA引擎,能夠提供與英偉達(dá)網(wǎng)卡相當(dāng)?shù)男阅埽辉赟cale Up超節(jié)點(diǎn)內(nèi),奇異摩爾提供NDSA-G2G網(wǎng)絡(luò)加速芯粒(又名G2G IOD)。
AI網(wǎng)絡(luò)的Scale Out面臨三大核心挑戰(zhàn) 需要AI原生網(wǎng)卡
為什么AI網(wǎng)絡(luò)需要AI 原生超級網(wǎng)卡?
因?yàn)镾cale Out面臨著如下三大核心挑戰(zhàn)。
首先需要非常高的傳輸性能,Tb級別的傳輸延時(shí)要可控;其次是要實(shí)現(xiàn)萬卡、十萬卡甚至更大規(guī)模流控的能力;第三是要有相對可以控制的部署成本,因?yàn)槠髽I(yè)部署的數(shù)量太多,理論上而言一個(gè)或者兩個(gè)GPU就需要配備一個(gè)超級網(wǎng)卡。
因此,智算行業(yè)正在發(fā)生變化。智算的集群里面需要的是針對AI原生的超級網(wǎng)卡。AI本質(zhì)是需要一個(gè)非常高效的方式來進(jìn)行網(wǎng)絡(luò)傳輸,需要非常高性能的RDMA引擎,需要更加復(fù)雜的網(wǎng)絡(luò)控制,來真正有效的實(shí)現(xiàn)數(shù)據(jù)傳輸。
因此,為AI網(wǎng)絡(luò)而生的網(wǎng)卡成為了AI時(shí)代的一個(gè)必需品。
此外,從協(xié)議的角度來看,過去傳統(tǒng)的RDMA有一些不足之處,因此業(yè)界需要一個(gè)更加現(xiàn)代化的下一代RDMA的標(biāo)準(zhǔn),即UEC(Ultra Ethernet Consortium,超級以太網(wǎng)聯(lián)盟)。
自去年誕生之后,UEC已經(jīng)完成了多項(xiàng)工作,核心就是要解決復(fù)雜網(wǎng)絡(luò)之間的多徑傳輸、亂序等問題,以及實(shí)現(xiàn)擁塞情況下更好的流控手段和更高效的重傳方式。這些都是需要在AI里面來解決的,也是RDMA需要面對的新挑戰(zhàn)。
奇異摩爾正在研發(fā)并即將推出AI原生超級網(wǎng)卡NDSA-SNIC,它能夠提供800G的RDMA帶寬; 此外,在標(biāo)準(zhǔn)的RDMA以外還會提供多種功能,諸如支持亂序、多徑傳輸、選擇性重傳等高性能RDMA功能。
同時(shí),該網(wǎng)卡基于奇異摩爾的HPDE架構(gòu)設(shè)計(jì),該架構(gòu)是一個(gè)高性能可編程的數(shù)據(jù)引擎。通過該方式,網(wǎng)卡在提供優(yōu)秀的產(chǎn)品性能的同時(shí)還能夠兼顧靈活性。
不同的網(wǎng)絡(luò)環(huán)境下需要靈活的配置,采用的網(wǎng)絡(luò)標(biāo)準(zhǔn)不同,還有一些私有的算法,而奇異摩爾能夠通過該原生超級網(wǎng)卡,兼容多家的標(biāo)準(zhǔn),實(shí)現(xiàn)可靠性與靈活性的融合。
最后要說明的一點(diǎn)是,該網(wǎng)卡是一款完全基于以太生態(tài)的超級網(wǎng)卡,跟傳統(tǒng)的DPU相比,有很大的性價(jià)比優(yōu)勢。
AI網(wǎng)絡(luò)的Scale Up面臨的挑戰(zhàn),需要全新產(chǎn)品形態(tài)
在AI網(wǎng)絡(luò)中,Scale UP面臨著四大挑戰(zhàn)。
一是需要超高帶寬;
二是需要可擴(kuò)展的拓?fù)洌?/strong>支持不同的超節(jié)點(diǎn)的形態(tài);
三是需要通用的協(xié)議來做互聯(lián)互通,傳統(tǒng)的通算協(xié)議(PCIe/CXL)和私有協(xié)議都具備局限性,因此業(yè)界的主要Scale up生態(tài),都在做Scale Up協(xié)議的標(biāo)準(zhǔn)化,從而實(shí)現(xiàn)通用化標(biāo)準(zhǔn)化的目標(biāo);
四是多語義的支持。
因此,智算集群需要基于通用協(xié)議的端網(wǎng)產(chǎn)品,G2G IO Chiplet成為一種創(chuàng)新GPU互聯(lián)技術(shù)路徑。奇異摩爾提供相關(guān)的產(chǎn)品通用GPU互聯(lián)顆粒NDSA-G2G。
在大芯片里用IO Chiplet做G2G的連接,已經(jīng)開始成為一種新方式。原因在于一方面,它可以大幅度降低研發(fā)難度和成本,節(jié)省數(shù)億研發(fā)費(fèi)用。如果企業(yè)自己投入研發(fā),需要非常多的人力物力,從過去P2P的協(xié)議變成復(fù)雜的網(wǎng)絡(luò)協(xié)議,而且這個(gè)協(xié)議正在標(biāo)準(zhǔn)化中,還沒有統(tǒng)一的標(biāo)準(zhǔn),企業(yè)需要支持多個(gè)不同的協(xié)議。
基于通用的G2G的Chiplet,企業(yè)還可以單獨(dú)不斷地進(jìn)行迭代,加上既有的奇異摩爾HPDE架構(gòu),就能夠支持多種協(xié)議實(shí)現(xiàn)快速的升級。奇異摩爾的G2G芯粒可以把需要的Scale Up協(xié)議集成在芯粒里面,企業(yè)無需在設(shè)計(jì)的階段確定捆綁哪種協(xié)議,可以通過配置或者產(chǎn)品升級的方案,來支持更新的算法、更新的協(xié)議。
由于是基于標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議,可以復(fù)用現(xiàn)在的網(wǎng)絡(luò)交換機(jī),而無需用自己專門研發(fā)專用的交換機(jī)。
奇異摩爾NDSA-G2G主要產(chǎn)品特點(diǎn):
從性能來看,產(chǎn)品具有高帶寬、低延時(shí)及高并發(fā)的特性,可以實(shí)現(xiàn)TB級別的帶寬; 從網(wǎng)絡(luò)拓?fù)鋪砜矗珿2G芯粒支持多種拓?fù)浒‵ull Mesh、Spine-Leaf等組網(wǎng);從語義支持方面,G2G芯粒將同時(shí)支持消息語義與內(nèi)存語義雙引擎。由于當(dāng)前Scale-up協(xié)議從簡單 P2P 接口變成復(fù)雜協(xié)議,通用協(xié)議也在進(jìn)一步標(biāo)準(zhǔn)化的過程中。Kiwi NDSA-G2G 本身基于奇異摩爾獨(dú)創(chuàng)的HPDE架構(gòu),可滿足不同廠商不同場景的需求,在生態(tài)百花齊放的Scale-up系統(tǒng)中支持多協(xié)議類型及其升級,從而降低持續(xù)研發(fā)難度和開發(fā)成本。
AI網(wǎng)絡(luò)的Scale Inside面臨的挑戰(zhàn),需要高性能D2D IP
在Scale Inside領(lǐng)域,UCIe已經(jīng)成為片內(nèi)Die to Die(D2D)的主流接口標(biāo)準(zhǔn),奇異摩爾自研了UCIe的IP,它基于UCIe 1.1標(biāo)準(zhǔn)研制,能夠支持16-32Gb的高帶寬,ns級的延時(shí),全面覆蓋2.X/2.5/3D等不同Chiplet封裝形態(tài)。
目前,奇異摩爾的所有產(chǎn)品都基于Chiplet架構(gòu)、互聯(lián)使用UCIe的接口,奇異摩爾也會把接口提供給客戶,讓客戶實(shí)現(xiàn)更好的集成方案。
總結(jié)與未來展望
整體而言,AI對網(wǎng)絡(luò)的需求還是在不斷地迭代和變化。
首先,Scale Up和Scale Out域之間需要有統(tǒng)一的框架,盡量無感減少軟件編程的需求;
其次,在復(fù)雜的網(wǎng)絡(luò)情況下,需要考慮如何在Scale Out域里面進(jìn)一步增強(qiáng)RDMA的性能;
由于通信越來越復(fù)雜,無論是CPU還是GPU,都需要消耗GPU的算力,需要業(yè)界有專門的數(shù)據(jù)引擎,以處理所有跟通信相關(guān)的算力,而無需消耗GPU的寶貴算力;
在網(wǎng)計(jì)算以及壓縮,也是將來的重要需求;
Scale Out的帶寬增加越來越高,一方面RDMA的限制,另外一方面收到PCIe的限制,在某個(gè)節(jié)點(diǎn)上,PCIe的迭代可能就跟不上需求。業(yè)界已經(jīng)有不少案例以Chiplet的方式將RDMA 、RoCE集成到芯片中,以D2D的方式進(jìn)一步增加帶寬;
異構(gòu)計(jì)算越來越普遍,GPU、CPU甚至其他的NPU之間相互之間都會通信,這也會變成瓶頸,因此Chiplet正成為該領(lǐng)域中非常重要的手段。
作為一家專注于AI 網(wǎng)絡(luò)的全棧式互聯(lián)產(chǎn)品提供商,奇異摩爾始終為計(jì)算而服務(wù)。
奇異摩爾希望能夠提供從Scale Inside,到Scale Up,到Scale Out的整體而完整的互聯(lián)產(chǎn)品解決方案以及協(xié)議棧。以開放的標(biāo)準(zhǔn)、統(tǒng)一的互聯(lián)架構(gòu),賦能國產(chǎn)算力,讓國產(chǎn)算力變得越來越強(qiáng)。
end
2026中國智算中心全棧技術(shù)大會暨展覽會暨第12屆中國(上海)國際數(shù)據(jù)中心產(chǎn)業(yè)展覽會、第7屆中國數(shù)據(jù)中心綠色能源大會,即將于2026年6月在上海新國際博覽中心舉辦。
參展、參會或了解更多詳情,請聯(lián)系:
金笑雨先生
電話:18610941758
微信:Jin_Xiaoyuer
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.