新智元報(bào)道
編輯:Aeneas 定慧
【新智元導(dǎo)讀】20人國(guó)內(nèi)團(tuán)隊(duì),竟然提前2年預(yù)判到了DeepSeek的構(gòu)想?玉盤(pán)AI的全新計(jì)算架構(gòu)方案浮出水面后,直接震動(dòng)業(yè)內(nèi):當(dāng)前AI算力的核心瓶頸,他們?cè)噲D從硬件源頭解決!
如果有一種芯片,天生只為大模型而生,能否突破當(dāng)前AI的算力瓶頸?
要知道,如今的芯片算力,強(qiáng)依賴(lài)于制程、工藝等非芯片設(shè)計(jì)因素。
這是因?yàn)椋瑐鹘y(tǒng)通用型的GPGPU計(jì)算架構(gòu)在應(yīng)對(duì)日益龐大的模型和復(fù)雜計(jì)算時(shí),其硬件固有的局限性日益凸顯。
通用圖形處理器(General-Purpose Graphics Processing Unit,GPGPU)
在這樣的背景下,學(xué)術(shù)界和產(chǎn)業(yè)界都在積極探索新的更針對(duì)AI大模型痛點(diǎn)的架構(gòu)方案。
近期,來(lái)自DeepSeek最新一篇論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,梳理了用戶(hù)視角下當(dāng)前大模型訓(xùn)練與推理中所面臨的具體技術(shù)挑戰(zhàn),以及對(duì)后續(xù)AI硬件發(fā)展的構(gòu)想。
論文地址:https://arxiv.org/pdf/2505.09343
與此同時(shí),國(guó)內(nèi)團(tuán)隊(duì)玉盤(pán)AI的SRDA系統(tǒng)級(jí)數(shù)據(jù)流計(jì)算架構(gòu)方案也浮出水面,意圖從硬件源頭解決當(dāng)前AI算力的核心瓶頸。
不少玉盤(pán)SRDA在做的事情和DeepSeek構(gòu)想相似,SRDA在當(dāng)前節(jié)點(diǎn)推出,或某種程度較好集合了業(yè)界關(guān)于下一代AI硬件的共識(shí)。
玉盤(pán)核心班底目前僅20余人,平均年齡僅30+,讓人不禁聯(lián)想到硅谷AI芯片明星創(chuàng)企Etched——三名哈佛大學(xué)學(xué)生創(chuàng)辦,流片時(shí)團(tuán)隊(duì)規(guī)模僅35人。
可以說(shuō),玉盤(pán)團(tuán)隊(duì)無(wú)疑是AI時(shí)代精簡(jiǎn)團(tuán)隊(duì)挑戰(zhàn)大象的又一范例,也顛覆了大眾對(duì)芯片公司規(guī)模的傳統(tǒng)觀念。
Etched芯片是針對(duì)Transformer架構(gòu)做推理ASIC,玉盤(pán)SRDA則是精簡(jiǎn)但可重構(gòu)的數(shù)據(jù)流架構(gòu),對(duì)Transformer、Diffusion、Mamba、MoE等都可支持模型訓(xùn)練與推理。
Etched Sohu:號(hào)稱(chēng)世界上第一個(gè)專(zhuān)用LLM計(jì)算的集成電路
同時(shí),筆者也了解到,早在2023年大模型爆發(fā)前,玉盤(pán)原班底便開(kāi)始研究I/O融合技術(shù),并在2023年就發(fā)布了eSPUAIHub方案,結(jié)合最近DeepSeek論文對(duì)比看,簡(jiǎn)直是AI基礎(chǔ)設(shè)施版的「我預(yù)判了你的預(yù)判」。
這,或許就是他們敢于現(xiàn)在就全面開(kāi)源自己底層的架構(gòu)思路的底氣。
本文將審視玉盤(pán)團(tuán)隊(duì)白皮書(shū)中SRDA架構(gòu)的核心特性,探討其設(shè)計(jì)思路如何針對(duì)AI算力基礎(chǔ)設(shè)施的若干關(guān)鍵問(wèn)題提供可能的解決路徑。
項(xiàng)目地址:https://github.com/moonquest-ai/SRDA
讓我們看看,國(guó)內(nèi)的創(chuàng)新硬件團(tuán)隊(duì)已經(jīng)思考到了什么層面,是否和DeepSeek這樣高級(jí)玩家的所需契合。
大模型兇猛:AI算力面臨「N重門(mén)」
在探討SRDA架構(gòu)之前,有必要先梳理其試圖應(yīng)對(duì)的模型挑戰(zhàn),也是DeepSeek論文指出的主要行業(yè)痛點(diǎn):
內(nèi)存容量不足:模型規(guī)模增長(zhǎng)迅速,以HBM為代表的內(nèi)存容量增長(zhǎng)緩慢。為了緩解這個(gè)問(wèn)題,DeepSeek采用了低精度計(jì)算和MLA兩種手段,大幅削減模型參數(shù)和KV Cache的存儲(chǔ)需求。
內(nèi)存帶寬短缺:盡管芯片的理論峰值算力不斷提升,但由于模型規(guī)模增速遠(yuǎn)超內(nèi)存帶寬增速,在許多實(shí)際AI應(yīng)用場(chǎng)景中,計(jì)算單元大部分時(shí)間可能因等待數(shù)據(jù)而閑置,未能充分發(fā)揮其計(jì)算潛力。
計(jì)算精度不支持:采用低精度計(jì)算能夠大幅提高訓(xùn)練和推理的性能,但為了保證模型能力不受影響,需要采用高精度累加和細(xì)粒度的量化,純軟件實(shí)現(xiàn)的難度較高,也會(huì)導(dǎo)致額外的開(kāi)銷(xiāo)。
集群擴(kuò)展難:隨著模型規(guī)模的指數(shù)級(jí)增長(zhǎng),分布式訓(xùn)練和推理成為常態(tài),這要求在集群層面進(jìn)行高效擴(kuò)展。然而,目前常見(jiàn)的節(jié)點(diǎn)內(nèi)互聯(lián)(scale-up,如NVLink)和節(jié)點(diǎn)間互聯(lián)(scale-out,如Infiniband)往往采用不同的技術(shù)標(biāo)準(zhǔn)和硬件,這不僅增加了系統(tǒng)優(yōu)化和管理的復(fù)雜度,也可能引入額外的通信延遲,影響整體擴(kuò)展效率。
PCIe總線帶寬競(jìng)爭(zhēng):現(xiàn)有架構(gòu)下,節(jié)點(diǎn)間通信和節(jié)點(diǎn)內(nèi)GPU與CPU之間的數(shù)據(jù)傳輸(如KV Cache)共享PCIe總線,存在競(jìng)爭(zhēng)。通信被影響會(huì)導(dǎo)致難以預(yù)測(cè)的性能下降,影響系統(tǒng)整體性能。
SRDA架構(gòu):打造AI計(jì)算新范式
這些痛點(diǎn),是否有解決之道?
玉盤(pán)團(tuán)隊(duì),從根本上找到了解決問(wèn)題的思路。
根據(jù)團(tuán)隊(duì)公開(kāi)的技術(shù)白皮書(shū),SRDA架構(gòu)的核心理念被描述為回歸AI計(jì)算的本質(zhì)——即高度結(jié)構(gòu)化的數(shù)據(jù)流動(dòng)和變換。
這個(gè)設(shè)計(jì)目標(biāo),似乎并非對(duì)現(xiàn)有架構(gòu)的簡(jiǎn)單改良,而是嘗試進(jìn)行更根本性的調(diào)整。
其關(guān)鍵設(shè)計(jì)哲學(xué)據(jù)稱(chēng)包括:
數(shù)據(jù)流驅(qū)動(dòng) (Dataflow Driven):與傳統(tǒng)GPGPU的控制流架構(gòu)不同,SRDA將數(shù)據(jù)流置于核心地位。其硬件設(shè)計(jì)旨在直接映射AI計(jì)算圖,使數(shù)據(jù)在計(jì)算單元間高效流轉(zhuǎn),從而期望大幅減少對(duì)內(nèi)存的反復(fù)訪問(wèn)和不必要的數(shù)據(jù)搬運(yùn)。
系統(tǒng)級(jí)數(shù)據(jù)流:當(dāng)數(shù)據(jù)流驅(qū)動(dòng)與融合互聯(lián)相結(jié)合,玉盤(pán)SRDA將數(shù)據(jù)流理念放到了整個(gè)數(shù)據(jù)中心層面,與過(guò)往數(shù)據(jù)流架構(gòu)僅在芯片層面實(shí)現(xiàn)很不一樣,當(dāng)所有SRDA芯片都做到all-to-all全互聯(lián),整個(gè)數(shù)據(jù)中心會(huì)類(lèi)似一臺(tái)電腦運(yùn)轉(zhuǎn)。這是玉盤(pán)SRDA架構(gòu)最引人矚目的地方,最終讓整個(gè)數(shù)據(jù)中心形成一條數(shù)據(jù)流,這將給大規(guī)模并行訓(xùn)練或大規(guī)模集群推理帶來(lái)全新的硬件支撐,值得模型用戶(hù)關(guān)注。
3D堆疊高帶寬內(nèi)存:為了支持其數(shù)據(jù)流驅(qū)動(dòng)的設(shè)計(jì),SRDA計(jì)劃采用3D堆疊工藝,將大容量、高帶寬內(nèi)存直接集成在計(jì)算芯片之上,目標(biāo)是從硬件層面緩解「內(nèi)存墻」的壓力。
精簡(jiǎn)高效:作為一種AI專(zhuān)用架構(gòu) (AI-DSA) 的設(shè)計(jì)思路,SRDA旨在剝離通用處理器中可能對(duì)AI計(jì)算冗余的復(fù)雜控制邏輯,將硬件資源聚焦于AI核心運(yùn)算,以期提升面積效率和能源效率。
融合高速互聯(lián):與英偉達(dá)互聯(lián)方案中NVLink + IB雙層互聯(lián)網(wǎng)絡(luò)不同,SRDA架構(gòu)構(gòu)建統(tǒng)一的片內(nèi)、片間至節(jié)點(diǎn)間高速互聯(lián)網(wǎng)絡(luò)。DeepSeek論文中也提到了I/O融合、甚至把I/O做進(jìn)算力芯片內(nèi)部的思路,玉盤(pán)已經(jīng)在把這一構(gòu)想變?yōu)楝F(xiàn)實(shí)。玉盤(pán)進(jìn)一步構(gòu)建獨(dú)立通信引擎,從硬件層面實(shí)現(xiàn)計(jì)算與通信解耦,這將進(jìn)一步減輕軟件層用戶(hù)的硬件優(yōu)化負(fù)擔(dān)。
軟件定義的可重構(gòu)性:據(jù)稱(chēng),其硬件的數(shù)據(jù)路徑、部分計(jì)算單元功能組合和內(nèi)存訪問(wèn)模式,可由編譯器根據(jù)具體AI模型進(jìn)行配置優(yōu)化,賦予架構(gòu)適應(yīng)不同算法的潛力。
SRDA能否回應(yīng)DeepSeek等前沿玩家的需求
數(shù)據(jù)不再「堵車(chē)」!SRDA給每個(gè)計(jì)算單元配上「專(zhuān)屬高速公路」
DeepSeek論文中提到模型增長(zhǎng)快于HBM技術(shù)發(fā)展,注意力機(jī)制等場(chǎng)景尤其受內(nèi)存帶寬瓶頸影響。其參考方案中提及了3D DRAM等技術(shù)方向。
傳統(tǒng)GPGPU架構(gòu)的核心痛點(diǎn)在于共享內(nèi)存架構(gòu)下,所有計(jì)算單元需要爭(zhēng)搶內(nèi)存資源,導(dǎo)致內(nèi)存帶寬成為瓶頸,SRDA思路十分巧妙,其采用3D堆疊工藝及特殊內(nèi)存架構(gòu),讓每個(gè)計(jì)算單元獨(dú)享大容量、高帶寬內(nèi)存。這一思路與DeepSeek提及的3D DRAM方向有共通之處,其目標(biāo)是從硬件層面提升數(shù)據(jù)供給能力。
此外,SRDA的「數(shù)據(jù)流驅(qū)動(dòng)」設(shè)計(jì)哲學(xué),旨在通過(guò)優(yōu)化計(jì)算圖的執(zhí)行路徑,減少對(duì)內(nèi)存的反復(fù)訪問(wèn)和不必要的數(shù)據(jù)搬運(yùn),從而期望從計(jì)算模式層面降低對(duì)內(nèi)存帶寬的絕對(duì)壓力,進(jìn)而提升計(jì)算單元的有效利用率。
研發(fā)效率極高
有統(tǒng)計(jì)顯示,2024年主流大模型中,基于Transformer的架構(gòu)占比達(dá)92%,且70%算力消耗集中于R1、Qwen等開(kāi)源模型。
這一趨勢(shì)使得AI專(zhuān)用芯片企業(yè)僅需深度優(yōu)化2-3個(gè)主流模型的訓(xùn)推流程,即可覆蓋大部分市場(chǎng)需求。
玉盤(pán)架構(gòu)正是抓住這個(gè)特點(diǎn),去繁就簡(jiǎn),相較于GPU需構(gòu)建完整軟件生態(tài)(如CUDA),玉盤(pán)可聚焦硬件加速,據(jù)稱(chēng)研發(fā)投入可壓縮至GPU企業(yè)的1/5-1/3。
原生提供合適計(jì)算精度
現(xiàn)有的主流硬件的問(wèn)題是,不直接提供針對(duì)低精度數(shù)據(jù)類(lèi)型的高精度累加和細(xì)粒度量化。
針對(duì)這個(gè)精度問(wèn)題,SRDA原生支持DeepSeek等模型廠商開(kāi)始探索的低精度FP8,并原生支持高精度FP32累加和細(xì)粒度量化,充分發(fā)揮低精度計(jì)算優(yōu)勢(shì)。
告別「線程打架」:I/O融合巧解數(shù)據(jù)傳輸與通信的「擁堵費(fèi)」
DeepSeek在觀察現(xiàn)有方案后,指出了以下幾個(gè)關(guān)鍵點(diǎn)——
Scale-up帶寬存在限制;Scale-up與Scale-out網(wǎng)絡(luò)的技術(shù)割裂導(dǎo)致通信復(fù)雜化并可能消耗計(jì)算資源;PCIe總線在某些場(chǎng)景下可能成為數(shù)據(jù)傳輸(如KV緩存)與節(jié)點(diǎn)間通信的競(jìng)爭(zhēng)點(diǎn)。
而針對(duì)這些問(wèn)題,DeepSeek提出了一些建議,包括統(tǒng)一內(nèi)外網(wǎng)絡(luò)、引入通信協(xié)處理器、將NIC功能集成到計(jì)算Die上等。
對(duì)此,SRDA團(tuán)隊(duì)也形成了自己的對(duì)策。
在白皮書(shū)中,他們就提到將「構(gòu)建統(tǒng)一的片內(nèi)、片間至節(jié)點(diǎn)間高速互聯(lián)網(wǎng)絡(luò)」,統(tǒng)一了scale-up與scale-out網(wǎng)絡(luò)。
更值得注意的是,其設(shè)計(jì)中還包括「在片上集成獨(dú)立通信引擎,實(shí)現(xiàn)計(jì)算與通信解耦」。
這種「獨(dú)立通信引擎」如果成功實(shí)現(xiàn),其功能可能將類(lèi)似于DeepSeek建議的「通信協(xié)處理器」,有潛力將網(wǎng)絡(luò)處理任務(wù)從主計(jì)算單元中卸載,從而釋放計(jì)算資源。
同時(shí),這種片上集成的統(tǒng)一網(wǎng)絡(luò)和通信引擎,其設(shè)計(jì)目標(biāo)是使節(jié)點(diǎn)間通信能更直接高效,從而可能減少對(duì)傳統(tǒng)PCIe總線的依賴(lài),進(jìn)而有機(jī)會(huì)緩解DeepSeek指出的PCIe帶寬競(jìng)爭(zhēng)問(wèn)題。
SRDA架構(gòu)通過(guò)上述創(chuàng)新,希望針對(duì)大模型訓(xùn)推場(chǎng)景做到以下優(yōu)勢(shì):
極致性能(Token生成效率):通過(guò)可重構(gòu)數(shù)據(jù)流、高帶寬3D堆疊內(nèi)存以及存算網(wǎng)融合等設(shè)計(jì),大幅減少數(shù)據(jù)搬運(yùn)和通信等待,提升算力利用率。
極致成本:通過(guò)提升單芯片/單節(jié)點(diǎn)算力利用率、超低功耗、簡(jiǎn)化網(wǎng)絡(luò)、簡(jiǎn)化軟件棧、降低集群構(gòu)建和運(yùn)維復(fù)雜度、以及采用成熟的國(guó)產(chǎn)工藝,旨在提供更優(yōu)的整體TCO。
高穩(wěn)定:通過(guò)融合網(wǎng)絡(luò)設(shè)計(jì),簡(jiǎn)化了網(wǎng)絡(luò)部署,降低了互聯(lián)成本,支持構(gòu)建高穩(wěn)定、高效費(fèi)比的超大規(guī)模AI計(jì)算集群或超節(jié)點(diǎn)方案。
靈活的模型與算法適應(yīng)性:可重構(gòu)數(shù)據(jù)流和對(duì)多種數(shù)據(jù)精度的支持,使得SRDA能夠靈活適應(yīng)不斷演進(jìn)的AI模型和算法。
極簡(jiǎn)易用的軟件開(kāi)發(fā)與遷移:兼容主流框架并簡(jiǎn)化底層開(kāi)發(fā)的軟件棧,降低了用戶(hù)的使用門(mén)檻。
可以說(shuō),SRDA架構(gòu)為AI基礎(chǔ)設(shè)施的未來(lái)發(fā)展提供了一種全新的構(gòu)想。
其設(shè)計(jì)基于對(duì)數(shù)據(jù)流的理解和軟硬件協(xié)同的理念,展現(xiàn)出應(yīng)對(duì)當(dāng)前AI算力瓶頸的潛力。
數(shù)據(jù)流思想的確也逐步出現(xiàn)在更多人的視野中,有望成為共識(shí),SRDA在此基礎(chǔ)之上,基于更進(jìn)一步的互聯(lián)技術(shù)實(shí)現(xiàn)了整個(gè)數(shù)據(jù)中心系統(tǒng)級(jí)別的數(shù)據(jù)流架構(gòu),無(wú)疑走在了前沿的位置。
目前國(guó)內(nèi)外也出現(xiàn)了昇騰達(dá)芬奇、Groq LPU、SambaNova RDA等新的計(jì)算架構(gòu)。
不過(guò),這些架構(gòu)基本上出現(xiàn)在大模型技術(shù)需求收斂前,更多針對(duì)傳統(tǒng)的AI小模型場(chǎng)景,在大模型場(chǎng)景下專(zhuān)用計(jì)算架構(gòu)應(yīng)有的效果似乎并不突出(相比于GPGPU而言)。
具體來(lái)說(shuō),在這些AI專(zhuān)用架構(gòu)里,有些保留了GPGPU架構(gòu),有些則難以適應(yīng)大模型的特殊需求(例如Groq LPU架構(gòu)在大模型場(chǎng)景的成本問(wèn)題已讓圈內(nèi)人詬病多時(shí))。
在當(dāng)下2025年這個(gè)時(shí)間點(diǎn),具備實(shí)用性的模型架構(gòu)和技術(shù)需求已經(jīng)趨向收斂。
在相當(dāng)長(zhǎng)一段時(shí)間里,現(xiàn)有的Transformer、Diffusion及相關(guān)架構(gòu)會(huì)作為主流架構(gòu)服務(wù)于市場(chǎng),3D-DRAM顆粒也剛好成熟、容量真正契合大模型需求。
玉盤(pán)選擇此時(shí)推行SRDA,或許會(huì)帶來(lái)不一樣的效果,甚至可能成為通用性的GPGPU架構(gòu)與真正AI大模型專(zhuān)用計(jì)算架構(gòu)的分水嶺。
從SRDA公開(kāi)的設(shè)計(jì)理念來(lái)看,其解決問(wèn)題的思路已與DeepSeek等前沿研究中對(duì)某些挑戰(zhàn)的分析方向不謀而合。這或許提示我們,以數(shù)據(jù)流為中心的專(zhuān)用計(jì)算架構(gòu),會(huì)在未來(lái)的AI算力發(fā)展中扮演越來(lái)越重要的角色。
玉盤(pán)團(tuán)隊(duì)在其公眾號(hào)中也預(yù)告了會(huì)在近期發(fā)布demo,公開(kāi)具體的性能指標(biāo)。
參考資料:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.