算力成本是大模型應(yīng)用起飛的前提,是下一代AI計(jì)算架構(gòu)需要解決的最核心問(wèn)題。
當(dāng)大模型訓(xùn)推需求份額已占據(jù)過(guò)半的算力需求時(shí),硬件層上針對(duì)大模型的創(chuàng)新卻屈指可數(shù),芯片設(shè)計(jì)幾乎成為制程工藝的附庸。
應(yīng)用需求 vs 基礎(chǔ)設(shè)施供給
類GPGPU架構(gòu)支持了AI大模型快速崛起,但其難以兼顧通用性和對(duì)大模型的針對(duì)性,在面對(duì)模型規(guī)模和復(fù)雜性的急劇膨脹時(shí),其效率與成本的黑洞被詬病已久,甚至已經(jīng)影響市場(chǎng)對(duì)大模型未來(lái)發(fā)展的預(yù)期。
玉盤(pán)MoonQuest團(tuán)隊(duì)充分拆解不同角度的算力問(wèn)題(內(nèi)存墻、存儲(chǔ)墻、功耗墻等),認(rèn)為核心都是I/O問(wèn)題(數(shù)據(jù)的讀寫(xiě)與搬運(yùn)效率太低),制約了硬件理論算力的充分發(fā)揮,算力成本問(wèn)題有進(jìn)一步制約了整個(gè)行業(yè)的發(fā)展。
本文旨在提出一種從I/O出發(fā)、專為AI大模型訓(xùn)推設(shè)計(jì)的創(chuàng)新計(jì)算架構(gòu)——SRDA(系統(tǒng)級(jí)極簡(jiǎn)可重構(gòu)數(shù)據(jù)流架構(gòu) System-level Simplified Reconfigurable Dataflow Architecture ),輔以一份更為詳細(xì)的架構(gòu)白皮書(shū),完整開(kāi)源SRDA的架構(gòu)理念、技術(shù)優(yōu)勢(shì)以及初代的核心組件,探討從I/O優(yōu)化角度出發(fā)克服現(xiàn)有算力成本瓶頸的新思路。
AI計(jì)算需求的演進(jìn)與挑戰(zhàn)
人工智能,尤其是深度學(xué)習(xí),在過(guò)去十年中取得了顯著進(jìn)展。AI模型,特別是Transformer、Diffusion等架構(gòu)的出現(xiàn),使得模型參數(shù)量從數(shù)百萬(wàn)激增至數(shù)千萬(wàn)億級(jí)別,直接導(dǎo)致了對(duì)計(jì)算資源,尤其是并行處理能力和內(nèi)存帶寬的極致需求,傳統(tǒng)計(jì)算架構(gòu)逐漸暴露多重制約:
- 性能提升依賴制程工藝:過(guò)去3年,工藝提升帶來(lái)的單位面積算力優(yōu)化只有15%,而主流觀點(diǎn)認(rèn)為當(dāng)前芯片工藝極限約1nm,先進(jìn)制程難以跟著大模型一起scale.
- 內(nèi)存帶寬限制:現(xiàn)有主流類GPGPU架構(gòu)采用的多級(jí)共享式內(nèi)存(如HBM)在多線程并發(fā)訪問(wèn)時(shí),讀寫(xiě)沖突以及數(shù)據(jù)過(guò)度隨機(jī)化極易產(chǎn)生顯存訪問(wèn)擁塞,導(dǎo)致內(nèi)存帶寬往往成為實(shí)際應(yīng)用中的瓶頸,尤其在處理巨型AI模型時(shí)問(wèn)題更加嚴(yán)重。
- 算力利用率低:由于架構(gòu)設(shè)計(jì)、通信開(kāi)銷以及內(nèi)存訪問(wèn)瓶頸等多重因素制約,芯片的理論峰值算力在實(shí)際AI負(fù)載中無(wú)法充分發(fā)揮。
- 功耗屢創(chuàng)新高:頂級(jí)AI加速器芯片的功耗指標(biāo)屢創(chuàng)新高,已成為制約其更廣泛應(yīng)用和可持續(xù)發(fā)展的核心瓶頸。以英偉達(dá)H100 GPU為例,其典型板卡功耗高達(dá)700瓦,基于光模塊的超節(jié)點(diǎn)集群方案更是功耗驚人。這是類GPGPU架構(gòu)依靠增加計(jì)算核來(lái)拉高算力導(dǎo)致的,算力增幅與功耗增幅幾乎成正比。
- 大規(guī)模集群擴(kuò)展難題:傳統(tǒng)兩層網(wǎng)絡(luò)(節(jié)點(diǎn)內(nèi)高速互聯(lián)如NVLink,節(jié)點(diǎn)間網(wǎng)絡(luò)如InfiniBand/以太網(wǎng))的設(shè)計(jì),帶來(lái)了帶寬層級(jí)差異、協(xié)議轉(zhuǎn)換開(kāi)銷、通信管理復(fù)雜等諸多問(wèn)題,不得不占用大量計(jì)算資源來(lái)執(zhí)行通信任務(wù)。
- 軟件復(fù)雜:現(xiàn)有AI加速方案的主流軟件棧非常復(fù)雜,實(shí)際算力利用率低,而優(yōu)化成本非常高,進(jìn)一步限制了其在大模型領(lǐng)域的應(yīng)用。
面對(duì)這些挑戰(zhàn),業(yè)界亟需創(chuàng)新的計(jì)算架構(gòu)來(lái)突破現(xiàn)有瓶頸,滿足AI大模型發(fā)展的技術(shù)需求。
SRDA:為AI大模型極致算力性價(jià)比設(shè)計(jì)的新計(jì)算范式
SRDA 系統(tǒng)級(jí)精簡(jiǎn)可重構(gòu)數(shù)據(jù)流架構(gòu)是一種以數(shù)據(jù)流為中心、軟硬件協(xié)同設(shè)計(jì)的AI計(jì)算架構(gòu),強(qiáng)調(diào)在成熟工藝下通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)性能突破的潛力。其核心設(shè)計(jì)理念是通過(guò)數(shù)據(jù)流驅(qū)動(dòng)計(jì)算,結(jié)合極簡(jiǎn)和可重構(gòu)思路,最大限度地提升AI計(jì)算的效率、靈活性和可擴(kuò)展性。
設(shè)計(jì)哲學(xué)
SRDA的設(shè)計(jì)哲學(xué)根植于對(duì)AI計(jì)算負(fù)載特性的深刻理解:
- 數(shù)據(jù)流驅(qū)動(dòng)
- AI計(jì)算,尤其是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理,本質(zhì)上是大規(guī)模、結(jié)構(gòu)化的「數(shù)據(jù)流」處理過(guò)程(數(shù)據(jù)在計(jì)算節(jié)點(diǎn)間依照特定計(jì)算圖(Compute Graph)進(jìn)行流動(dòng)和轉(zhuǎn)換)。傳統(tǒng)GPGPU類的「控制流」架構(gòu)(Control-Flow Architecture)下,SIMT架構(gòu)疊加復(fù)雜的多級(jí)共享內(nèi)存架構(gòu)導(dǎo)致內(nèi)存訪問(wèn)常常成為性能瓶頸,致使計(jì)算單元長(zhǎng)時(shí)間空閑和高額的數(shù)據(jù)搬運(yùn)功耗。
- SRDA 將「數(shù)據(jù)流」的優(yōu)化置于架構(gòu)設(shè)計(jì)的核心(Data-Flow Architecture)。SRDA通過(guò)編譯器解析計(jì)算圖,定制優(yōu)化路徑,將計(jì)算圖拆解后直接靜態(tài)映射到硬件,實(shí)現(xiàn)數(shù)據(jù)在計(jì)算單元之間點(diǎn)到點(diǎn)直接傳輸,大幅減少了對(duì)中央內(nèi)存的依賴和訪問(wèn)次數(shù)。這種設(shè)計(jì)理念從根本上減少了數(shù)據(jù)移動(dòng)的距離和頻率——這也是當(dāng)前大模型計(jì)算系統(tǒng)中主要的性能和能耗瓶頸之一。通過(guò)讓數(shù)據(jù)“流動(dòng)”起來(lái),讓計(jì)算“追隨”數(shù)據(jù),SRDA最大化有效計(jì)算的占比,最小化等待和搬運(yùn)的開(kāi)銷。
- 軟硬件超融合
- 為充分發(fā)揮硬件潛力,SRDA從設(shè)計(jì)之初就強(qiáng)調(diào)硬件架構(gòu)與軟件系統(tǒng)的超融合設(shè)計(jì)。這并非簡(jiǎn)單地為已有的硬件開(kāi)發(fā)軟件,而是在架構(gòu)定義階段就將軟件精簡(jiǎn)性和易用性作為核心指標(biāo)。(這也是玉盤(pán)僅20余人投入的核心起點(diǎn),我們認(rèn)為高效是AI時(shí)代的必然要求)
- SRDA的編譯器對(duì)硬件的可重構(gòu)特性、內(nèi)存系統(tǒng)的架構(gòu)與訪問(wèn)特性、以及互聯(lián)網(wǎng)絡(luò)的拓?fù)渑c通信特性擁有精確的認(rèn)知。這使得編譯器能夠在編譯階段進(jìn)行全局的靜態(tài)優(yōu)化,例如:將計(jì)算圖高效地映射到物理計(jì)算單元,精確規(guī)劃數(shù)據(jù)在片上和片間的傳輸路徑,優(yōu)化內(nèi)存訪問(wèn)模式,以及預(yù)先配置數(shù)據(jù)流通路以消除運(yùn)行時(shí)調(diào)度開(kāi)銷。這種深度的超融合設(shè)計(jì),使得SRDA能夠?qū)崿F(xiàn)傳統(tǒng)通用架構(gòu)配合通用編譯器難以企及的優(yōu)化水平,從而將硬件的理論性能更充分地轉(zhuǎn)化為實(shí)際應(yīng)用性能。
- 同時(shí),SRDA軟件棧也致力于對(duì)上層AI框架(如PyTorch、JAX及更上層的訓(xùn)推框架)提供簡(jiǎn)潔的接入層接口,使開(kāi)發(fā)者不用感知底層硬件就能夠高效利用SRDA的強(qiáng)大能力。
- 精簡(jiǎn)與高效
- SRDA追求用最直接、最高效的方式滿足AI計(jì)算的核心需求。面對(duì)AI計(jì)算負(fù)載的專用性,SRDA選擇剝離傳統(tǒng)通用處理器中為支持多樣化任務(wù)而引入的復(fù)雜控制邏輯、冗余指令集以及多級(jí)緩存一致性等機(jī)制。作為一種AI領(lǐng)域的專用架構(gòu),SRDA將硬件資源更聚焦于AI計(jì)算本身的核心操作,如張量運(yùn)算、向量處理等。 這種架構(gòu)上的精簡(jiǎn)帶來(lái)了多重效益:
- 更高的面積效率:在相同的芯片面積下,可以集成更多的有效計(jì)算單元和片上內(nèi)存,直接提升原始計(jì)算能力。
- 更高的能源效率:減少了非計(jì)算相關(guān)的晶體管活動(dòng)和復(fù)雜控制邏輯的能耗,使得每一瓦特電力都能更有效地轉(zhuǎn)化為有效算力。
- 更低的復(fù)雜度:底層基于開(kāi)源RISC-V指令集生態(tài),大幅簡(jiǎn)化了指令系統(tǒng)和算子開(kāi)發(fā)難度。同時(shí),精簡(jiǎn)的架構(gòu)也意味著芯片和系統(tǒng)的開(kāi)發(fā)復(fù)雜度更可控,能更好的助力芯片設(shè)計(jì)團(tuán)隊(duì)及未來(lái)的用戶大幅降低開(kāi)發(fā)成本。
- 可重構(gòu)性與適應(yīng)性
- SRDA是為AI領(lǐng)域設(shè)計(jì)的專用架構(gòu),但并非僵化的固定模型的硬件加速器。AI算法和模型本身在快速演進(jìn),從經(jīng)典的CNN、RNN到主流的Transformer,再到新興的MoE(混合專家模型)、Mamba(狀態(tài)空間模型)、DiT(Diffusion Transformer)、ViT(Vision Transformer)等,其計(jì)算特性和數(shù)據(jù)流模式各不相同。 SRDA的關(guān)鍵特性之一是其可重構(gòu)性,硬件的數(shù)據(jù)路徑、部分計(jì)算單元的功能組合以及內(nèi)存訪問(wèn)模式,可以在一定程度上由軟件根據(jù)具體的AI模型或計(jì)算任務(wù)進(jìn)行配置和優(yōu)化,實(shí)現(xiàn):
- 適應(yīng)多樣化的模型結(jié)構(gòu):針對(duì)不同模型的獨(dú)特計(jì)算需求(如不同類型的注意力機(jī)制、循環(huán)結(jié)構(gòu)或稀疏計(jì)算模式),配置最優(yōu)的硬件執(zhí)行方案。
- 優(yōu)化特定運(yùn)算層:專業(yè)用戶可以針對(duì)模型中的不同計(jì)算層或關(guān)鍵算子,進(jìn)行細(xì)粒度的硬件資源匹配和數(shù)據(jù)流定制。
- 面向未來(lái)模型架構(gòu)的擴(kuò)展性:為未來(lái)可能出現(xiàn)的新型AI算法和模型架構(gòu)預(yù)留了適應(yīng)空間,避免了因架構(gòu)固化而過(guò)早被淘汰的風(fēng)險(xiǎn)。 通過(guò)這種受控的可重構(gòu)性,SRDA?力求在專用加速器的高效率與通用處理器的高靈活性之間取得理想的平衡,以持續(xù)高效地支持AI技術(shù)的快速發(fā)展。
關(guān)鍵技術(shù)模塊與解決方案
源于深厚I/O技術(shù)積累和市場(chǎng)需求洞察,玉盤(pán)SRDA憑借系統(tǒng)級(jí)數(shù)據(jù)流、分布式3D堆疊內(nèi)存系統(tǒng)、I/O融合互連技術(shù)、極簡(jiǎn)可重構(gòu)等多項(xiàng)關(guān)鍵技術(shù)模塊,實(shí)現(xiàn)極簡(jiǎn)且高效的軟硬件超融合SRDA架構(gòu),系統(tǒng)性解決當(dāng)前算力面臨的核心挑戰(zhàn)。
- QDDM?:分布式片上3D堆疊內(nèi)存管理技術(shù)
為了突破“內(nèi)存墻”的限制,SRDA采用了QDDM?(Distributed 3D DRAM Management)技術(shù) 。該技術(shù)利用先進(jìn)的3D堆疊工藝,在計(jì)算芯片上直接集成了高帶寬、大容量的分布式內(nèi)存網(wǎng)絡(luò)。QDDM?的關(guān)鍵特性包括:
- 計(jì)算單元內(nèi)存私有化:每個(gè)計(jì)算核心或計(jì)算簇?fù)碛衅渌接械?、緊耦合的內(nèi)存區(qū)域,天然支持帶寬隔離,消除了多核心共享內(nèi)存帶來(lái)的帶寬競(jìng)爭(zhēng)和訪問(wèn)沖突。
- 3D-DRAM專用控制技術(shù):集成定制的3D-DRAM控制器,在提供高帶寬利用率的同時(shí),可有效縮短數(shù)據(jù)傳輸路徑和訪問(wèn)延遲,并定制了專用的數(shù)據(jù)加速功能。
- 良率提升方案:針對(duì)3D堆疊技術(shù)可能帶來(lái)的良率挑戰(zhàn),SRDA?采用了的專用良率方案,確保了大規(guī)模生產(chǎn)的可行性和成本效益。
- QLink?:融合高速互連通信技術(shù)
在大規(guī)模AI計(jì)算集群中,節(jié)點(diǎn)間的通信效率是決定整體性能的關(guān)鍵因素。SRDA為此引入了QLink?融合高速互連技術(shù) 。QLink?旨在構(gòu)建一個(gè)單層的統(tǒng)一、高效、低成本的互連網(wǎng)絡(luò),支持原生all-to-all的從芯片內(nèi)部核間、芯片間(chip-to-chip)到服務(wù)器節(jié)點(diǎn)間(node-to-node)的無(wú)縫互連。
- 融合網(wǎng)絡(luò)架構(gòu):將傳統(tǒng)數(shù)據(jù)中心中可能并存的多種網(wǎng)絡(luò)(如scale-up與scale-out網(wǎng)絡(luò))融合成統(tǒng)一的QLink?網(wǎng)絡(luò),簡(jiǎn)化網(wǎng)絡(luò)拓?fù)?,降低管理?fù)雜度和部署成本,且無(wú)需昂貴的專用網(wǎng)卡。
- 獨(dú)立通信引擎:QLink?集成了自研的獨(dú)立通信調(diào)度引擎,實(shí)現(xiàn)了計(jì)算任務(wù)與通信任務(wù)的完全解耦。通信操作由專門(mén)的硬件處理,不占用寶貴的核心計(jì)算資源,釋放更多有效算力。
- 高帶寬與低延遲:QLink?提供高速互聯(lián)帶寬和低延遲特性,為大規(guī)模并行訓(xùn)練和分布式推理提供強(qiáng)大的通信支撐。
- 線性擴(kuò)展與高可靠性:集成了自研的增強(qiáng)型網(wǎng)絡(luò)模塊,有效降低數(shù)據(jù)擁塞,支持大規(guī)模AI集群(如十萬(wàn)卡級(jí)別)的近乎線性擴(kuò)展,并增強(qiáng)了系統(tǒng)可靠性。
- 極簡(jiǎn)AI編譯器與協(xié)同設(shè)計(jì)的軟件棧
SRDA架構(gòu)的強(qiáng)大能力需要高效的軟件棧來(lái)釋放。為此,玉盤(pán)開(kāi)發(fā)與硬件架構(gòu)緊密協(xié)同的極簡(jiǎn)AI編譯器和軟件工具鏈 :
- 基于開(kāi)源RISC-V生態(tài):底層基于開(kāi)源的RISC-V指令集生態(tài),簡(jiǎn)化了底層算子的開(kāi)發(fā)和優(yōu)化難度,同時(shí)也為架構(gòu)的開(kāi)放性和社區(qū)合作提供了基礎(chǔ)。
- 聚焦核心與靜態(tài)編譯:編譯器聚焦AI計(jì)算的核心功能,降低了系統(tǒng)復(fù)雜度。通過(guò)支持靜態(tài)計(jì)算圖優(yōu)化和靜態(tài)編譯,能夠在編譯期間完成大部分的優(yōu)化工作,為可重構(gòu)數(shù)據(jù)流路徑的配置和資源調(diào)度提供精確指導(dǎo)。
- 兼容主流AI框架:前端接口設(shè)計(jì)注重與主流AI開(kāi)發(fā)框架(如PyTorch、JAX以及上層的vLLM)的兼容性,使得用戶可以平滑遷移現(xiàn)有的模型和開(kāi)發(fā)流程。
- 訓(xùn)推一體與資源優(yōu)化:軟件棧對(duì)推理、預(yù)訓(xùn)練和后訓(xùn)練等不同AI應(yīng)用場(chǎng)景進(jìn)行了重新設(shè)計(jì)和優(yōu)化,以充分利用SRDA架構(gòu)在算力、內(nèi)存和通信方面的硬件優(yōu)勢(shì),最大化資源利用率。在集群層面,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)的統(tǒng)一管理和高效利用。
- 高性能融合計(jì)算引擎與可重構(gòu)數(shù)據(jù)流
與傳統(tǒng)固定功能的計(jì)算單元不同,SRDA的計(jì)算單元支持根據(jù)AI模型的具體算子和數(shù)據(jù)依賴關(guān)系,動(dòng)態(tài)構(gòu)建和優(yōu)化計(jì)算路徑。這種可重構(gòu)的數(shù)據(jù)流使得中間計(jì)算結(jié)果可以在計(jì)算單元之間直接點(diǎn)到點(diǎn)傳輸,無(wú)需頻繁訪問(wèn)片外主存,從而極大減少了數(shù)據(jù)搬運(yùn)開(kāi)銷,消除了數(shù)據(jù)擁塞,顯著提高了實(shí)際算力利用率 。
該計(jì)算引擎特別針對(duì)AI工作負(fù)載進(jìn)行了優(yōu)化,定制了專用的計(jì)算單元以大幅提升峰值算力。此外,玉盤(pán)首顆SRDA芯片將原生支持FP8等主流趨勢(shì)的低精度數(shù)據(jù)類型,對(duì)于降低內(nèi)存占用、提升計(jì)算吞吐量至關(guān)重要,并能與采用FP8原生模型精度的前沿模型高效配合。計(jì)算單元還支持靈活的計(jì)算組合,保證了較強(qiáng)的通用性。
“當(dāng)下是推動(dòng)AI專用計(jì)算架構(gòu)的最合適時(shí)機(jī)”
SRDA架構(gòu)將:
- 大幅提升算力利用率:通過(guò)可重構(gòu)數(shù)據(jù)流、存算聯(lián)一體化設(shè)計(jì)以及計(jì)算通信解耦,大幅減少數(shù)據(jù)搬運(yùn)和通信等待,提升有效計(jì)算時(shí)間占比。
- 大幅優(yōu)化內(nèi)存帶寬與效率:大幅優(yōu)化超高內(nèi)存帶寬和低延遲訪問(wèn),有效緩解大模型應(yīng)用中的內(nèi)存瓶頸。
- 高效費(fèi)比的大規(guī)模集群擴(kuò)展:IO融合技術(shù)簡(jiǎn)化了網(wǎng)絡(luò)部署,降低了互聯(lián)成本,并支持構(gòu)建高效率的超大規(guī)模AI計(jì)算集群。
- 不依賴先進(jìn)制程拉高算力:基于成熟的工藝制程即可實(shí)現(xiàn)高有效算力。
- 大模型場(chǎng)景最優(yōu)總擁有成本(TCO):通過(guò)提升單芯片/單節(jié)點(diǎn)性能、大幅降低功耗、降低集群構(gòu)建和運(yùn)維復(fù)雜度、以及采用合適的成熟制程工藝,旨在提供更優(yōu)的整體TCO。
- 靈活的模型與算法適應(yīng)性:可重構(gòu)數(shù)據(jù)流和對(duì)多種數(shù)據(jù)精度的支持,使得SRDA有能力靈活適應(yīng)不斷演進(jìn)的AI模型和算法。
- 極簡(jiǎn)的軟件開(kāi)發(fā)與遷移:兼容主流框架并簡(jiǎn)化底層軟件棧,降低用戶的使用門(mén)檻。
下一步
SRDA不僅關(guān)注芯片單點(diǎn)性能的提升,更著眼于整體數(shù)據(jù)中心系統(tǒng)。我們希望SRDA在推動(dòng)AI技術(shù)普惠化、賦能下一代AI應(yīng)用、探索計(jì)算架構(gòu)發(fā)展以及構(gòu)建自主可控的AI算力基礎(chǔ)設(shè)施等方面發(fā)揮作用,為智能時(shí)代的加速到來(lái)貢獻(xiàn)力量:
- 重塑數(shù)據(jù)中心與智能算力網(wǎng)絡(luò):QLink?等互聯(lián)技術(shù)的創(chuàng)新,不僅優(yōu)化了單服務(wù)器內(nèi)部的通信,更為構(gòu)建高效、低成本、易擴(kuò)展的超大規(guī)模AI數(shù)據(jù)中心(“AI token工廠”)提供了新的解決方案。未來(lái),SRDA的理念和技術(shù)也可能延伸至邊緣計(jì)算乃至端側(cè)設(shè)備,滿足不同場(chǎng)景下對(duì)高效AI處理能力的需求,為構(gòu)建泛在的智能算力網(wǎng)絡(luò)貢獻(xiàn)力量。
- 賦能下一代AI大模型與復(fù)雜應(yīng)用:當(dāng)前AI模型正朝著更大參數(shù)規(guī)模、更復(fù)雜結(jié)構(gòu)(如多模態(tài)融合、長(zhǎng)程依賴處理)的方向發(fā)展。SRDA?提供的超高實(shí)際算力、超大內(nèi)存帶寬和容量、各類精度覆蓋,將為這些當(dāng)前受限于硬件能力的下一代AI模型的訓(xùn)練和部署提供堅(jiān)實(shí)基礎(chǔ),催生出更加智能和強(qiáng)大的AI應(yīng)用。
- 探索AI計(jì)算架構(gòu)的范式演進(jìn):作為一種專為AI設(shè)計(jì)的領(lǐng)域?qū)S眉軜?gòu),SRDA以數(shù)據(jù)流為中心的設(shè)計(jì)理念,以及其在分布式內(nèi)存系統(tǒng)和融合網(wǎng)絡(luò)上的創(chuàng)新,對(duì)傳統(tǒng)以控制流為主、依賴共享內(nèi)存和分層網(wǎng)絡(luò)的通用計(jì)算架構(gòu)構(gòu)成了重要補(bǔ)充和發(fā)展。基于此,我們有望進(jìn)一步推動(dòng)AI芯片設(shè)計(jì)向更深層次的軟硬件協(xié)同優(yōu)化和專用化方向發(fā)展,加速形成針對(duì)不同AI負(fù)載特征的異構(gòu)計(jì)算生態(tài)。SRDA所強(qiáng)調(diào)的可重構(gòu)性,也為應(yīng)對(duì)在transformer之上進(jìn)一步快速迭代的AI算法提供了靈活性,我們希望和各方模型伙伴探索演進(jìn)。
- 構(gòu)建開(kāi)放與協(xié)作的生態(tài)系統(tǒng):我們期待圍繞SRDA架構(gòu),與AI框架開(kāi)發(fā)者、模型研究社區(qū)、行業(yè)應(yīng)用伙伴以及上下游供應(yīng)鏈企業(yè)展開(kāi)深度合作。通過(guò)開(kāi)放部分硬件細(xì)節(jié)、提供完善的SDK和開(kāi)發(fā)工具、共同定義和優(yōu)化上下游關(guān)鍵組件與芯片的協(xié)同(“芯云一體”、“芯模一體”、“算電一體”等),旨在構(gòu)建一個(gè)活躍、共榮的開(kāi)發(fā)者和用戶社區(qū),加速SRDA技術(shù)的普及和創(chuàng)新應(yīng)用。
結(jié)語(yǔ)
當(dāng)一個(gè)場(chǎng)景的技術(shù)需求走向收斂,市場(chǎng)需求從小規(guī)??蒲凶呦虼笠?guī)模應(yīng)用,底層基礎(chǔ)設(shè)施由專用架構(gòu)替代通用架構(gòu)實(shí)現(xiàn)最高性價(jià)比幾乎是市場(chǎng)的必然選擇,從圖像顯示市場(chǎng)GPU替代CPU,到礦機(jī)市場(chǎng)礦卡替代GPGPU。
玉盤(pán)MoonQuest團(tuán)隊(duì)從芯片、Infra、應(yīng)用等不同角度看到了當(dāng)前AI計(jì)算架構(gòu)下算力瓶頸給AI發(fā)展帶來(lái)的限制,于2025年的今天提出SRDA架構(gòu),并推出接下來(lái)的相關(guān)芯片,不僅是我們對(duì)當(dāng)前AI算力瓶頸的回應(yīng),也是嘗試對(duì)未來(lái)AI計(jì)算領(lǐng)域的發(fā)展可能性提出一次“天問(wèn)”(A Moonquest)。
近期DeepSeek團(tuán)隊(duì)在其新論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中從芯片用戶角度對(duì)未來(lái)AI硬件提出了一些期待,其中很多點(diǎn)和SRDA架構(gòu)的思路不謀而合,也讓我們更有信心SRDA架構(gòu)有機(jī)會(huì)成為下一代針對(duì)AI大模型場(chǎng)景的更優(yōu)計(jì)算架構(gòu)。
我們期待除玉盤(pán)外,未來(lái)有更多AI大模型計(jì)算芯片考慮SRDA,繼模型層、Infra層之后,在硬件層也助力加速AGI的到來(lái)。
《SRDA計(jì)算架構(gòu)白皮書(shū)》:
https://github.com/moonquest-ai/SRDA/tree/main
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.