新智元報道
編輯:Aeneas 定慧
【新智元導讀】20人國內團隊,竟然提前2年預判到了DeepSeek的構想?玉盤AI的全新計算架構方案浮出水面后,直接震動業內:當前AI算力的核心瓶頸,他們試圖從硬件源頭解決!
如果有一種芯片,天生只為大模型而生,能否突破當前AI的算力瓶頸?
要知道,如今的芯片算力,強依賴于制程、工藝等非芯片設計因素。
這是因為,傳統通用型的GPGPU計算架構在應對日益龐大的模型和復雜計算時,其硬件固有的局限性日益凸顯。
通用圖形處理器(General-Purpose Graphics Processing Unit,GPGPU)
在這樣的背景下,學術界和產業界都在積極探索新的更針對AI大模型痛點的架構方案。
近期,來自DeepSeek最新一篇論文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,梳理了用戶視角下當前大模型訓練與推理中所面臨的具體技術挑戰,以及對后續AI硬件發展的構想。
論文地址:https://arxiv.org/pdf/2505.09343
與此同時,國內團隊玉盤AI的SRDA系統級數據流計算架構方案也浮出水面,意圖從硬件源頭解決當前AI算力的核心瓶頸。
不少玉盤SRDA在做的事情和DeepSeek構想相似,SRDA在當前節點推出,或某種程度較好集合了業界關于下一代AI硬件的共識。
玉盤核心班底目前僅20余人,平均年齡僅30+,讓人不禁聯想到硅谷AI芯片明星創企Etched——三名哈佛大學學生創辦,流片時團隊規模僅35人。
可以說,玉盤團隊無疑是AI時代精簡團隊挑戰大象的又一范例,也顛覆了大眾對芯片公司規模的傳統觀念。
Etched芯片是針對Transformer架構做推理ASIC,玉盤SRDA則是精簡但可重構的數據流架構,對Transformer、Diffusion、Mamba、MoE等都可支持模型訓練與推理。
Etched Sohu:號稱世界上第一個專用LLM計算的集成電路
同時,筆者也了解到,早在2023年大模型爆發前,玉盤原班底便開始研究I/O融合技術,并在2023年就發布了eSPUAIHub方案,結合最近DeepSeek論文對比看,簡直是AI基礎設施版的「我預判了你的預判」。
這,或許就是他們敢于現在就全面開源自己底層的架構思路的底氣。
本文將審視玉盤團隊白皮書中SRDA架構的核心特性,探討其設計思路如何針對AI算力基礎設施的若干關鍵問題提供可能的解決路徑。
項目地址:https://github.com/moonquest-ai/SRDA
讓我們看看,國內的創新硬件團隊已經思考到了什么層面,是否和DeepSeek這樣高級玩家的所需契合。
大模型兇猛:AI算力面臨「N重門」
在探討SRDA架構之前,有必要先梳理其試圖應對的模型挑戰,也是DeepSeek論文指出的主要行業痛點:
內存容量不足:模型規模增長迅速,以HBM為代表的內存容量增長緩慢。為了緩解這個問題,DeepSeek采用了低精度計算和MLA兩種手段,大幅削減模型參數和KV Cache的存儲需求。
內存帶寬短缺:盡管芯片的理論峰值算力不斷提升,但由于模型規模增速遠超內存帶寬增速,在許多實際AI應用場景中,計算單元大部分時間可能因等待數據而閑置,未能充分發揮其計算潛力。
計算精度不支持:采用低精度計算能夠大幅提高訓練和推理的性能,但為了保證模型能力不受影響,需要采用高精度累加和細粒度的量化,純軟件實現的難度較高,也會導致額外的開銷。
集群擴展難:隨著模型規模的指數級增長,分布式訓練和推理成為常態,這要求在集群層面進行高效擴展。然而,目前常見的節點內互聯(scale-up,如NVLink)和節點間互聯(scale-out,如Infiniband)往往采用不同的技術標準和硬件,這不僅增加了系統優化和管理的復雜度,也可能引入額外的通信延遲,影響整體擴展效率。
PCIe總線帶寬競爭:現有架構下,節點間通信和節點內GPU與CPU之間的數據傳輸(如KV Cache)共享PCIe總線,存在競爭。通信被影響會導致難以預測的性能下降,影響系統整體性能。
SRDA架構:打造AI計算新范式
這些痛點,是否有解決之道?
玉盤團隊,從根本上找到了解決問題的思路。
根據團隊公開的技術白皮書,SRDA架構的核心理念被描述為回歸AI計算的本質——即高度結構化的數據流動和變換。
這個設計目標,似乎并非對現有架構的簡單改良,而是嘗試進行更根本性的調整。
其關鍵設計哲學據稱包括:
數據流驅動 (Dataflow Driven):與傳統GPGPU的控制流架構不同,SRDA將數據流置于核心地位。其硬件設計旨在直接映射AI計算圖,使數據在計算單元間高效流轉,從而期望大幅減少對內存的反復訪問和不必要的數據搬運。
系統級數據流:當數據流驅動與融合互聯相結合,玉盤SRDA將數據流理念放到了整個數據中心層面,與過往數據流架構僅在芯片層面實現很不一樣,當所有SRDA芯片都做到all-to-all全互聯,整個數據中心會類似一臺電腦運轉。這是玉盤SRDA架構最引人矚目的地方,最終讓整個數據中心形成一條數據流,這將給大規模并行訓練或大規模集群推理帶來全新的硬件支撐,值得模型用戶關注。
3D堆疊高帶寬內存:為了支持其數據流驅動的設計,SRDA計劃采用3D堆疊工藝,將大容量、高帶寬內存直接集成在計算芯片之上,目標是從硬件層面緩解「內存墻」的壓力。
精簡高效:作為一種AI專用架構 (AI-DSA) 的設計思路,SRDA旨在剝離通用處理器中可能對AI計算冗余的復雜控制邏輯,將硬件資源聚焦于AI核心運算,以期提升面積效率和能源效率。
融合高速互聯:與英偉達互聯方案中NVLink + IB雙層互聯網絡不同,SRDA架構構建統一的片內、片間至節點間高速互聯網絡。DeepSeek論文中也提到了I/O融合、甚至把I/O做進算力芯片內部的思路,玉盤已經在把這一構想變為現實。玉盤進一步構建獨立通信引擎,從硬件層面實現計算與通信解耦,這將進一步減輕軟件層用戶的硬件優化負擔。
軟件定義的可重構性:據稱,其硬件的數據路徑、部分計算單元功能組合和內存訪問模式,可由編譯器根據具體AI模型進行配置優化,賦予架構適應不同算法的潛力。
SRDA能否回應DeepSeek等前沿玩家的需求
數據不再「堵車」!SRDA給每個計算單元配上「專屬高速公路」
DeepSeek論文中提到模型增長快于HBM技術發展,注意力機制等場景尤其受內存帶寬瓶頸影響。其參考方案中提及了3D DRAM等技術方向。
傳統GPGPU架構的核心痛點在于共享內存架構下,所有計算單元需要爭搶內存資源,導致內存帶寬成為瓶頸,SRDA思路十分巧妙,其采用3D堆疊工藝及特殊內存架構,讓每個計算單元獨享大容量、高帶寬內存。這一思路與DeepSeek提及的3D DRAM方向有共通之處,其目標是從硬件層面提升數據供給能力。
此外,SRDA的「數據流驅動」設計哲學,旨在通過優化計算圖的執行路徑,減少對內存的反復訪問和不必要的數據搬運,從而期望從計算模式層面降低對內存帶寬的絕對壓力,進而提升計算單元的有效利用率。
研發效率極高
有統計顯示,2024年主流大模型中,基于Transformer的架構占比達92%,且70%算力消耗集中于R1、Qwen等開源模型。
這一趨勢使得AI專用芯片企業僅需深度優化2-3個主流模型的訓推流程,即可覆蓋大部分市場需求。
玉盤架構正是抓住這個特點,去繁就簡,相較于GPU需構建完整軟件生態(如CUDA),玉盤可聚焦硬件加速,據稱研發投入可壓縮至GPU企業的1/5-1/3。
原生提供合適計算精度
現有的主流硬件的問題是,不直接提供針對低精度數據類型的高精度累加和細粒度量化。
針對這個精度問題,SRDA原生支持DeepSeek等模型廠商開始探索的低精度FP8,并原生支持高精度FP32累加和細粒度量化,充分發揮低精度計算優勢。
告別「線程打架」:I/O融合巧解數據傳輸與通信的「擁堵費」
DeepSeek在觀察現有方案后,指出了以下幾個關鍵點——
Scale-up帶寬存在限制;Scale-up與Scale-out網絡的技術割裂導致通信復雜化并可能消耗計算資源;PCIe總線在某些場景下可能成為數據傳輸(如KV緩存)與節點間通信的競爭點。
而針對這些問題,DeepSeek提出了一些建議,包括統一內外網絡、引入通信協處理器、將NIC功能集成到計算Die上等。
對此,SRDA團隊也形成了自己的對策。
在白皮書中,他們就提到將「構建統一的片內、片間至節點間高速互聯網絡」,統一了scale-up與scale-out網絡。
更值得注意的是,其設計中還包括「在片上集成獨立通信引擎,實現計算與通信解耦」。
這種「獨立通信引擎」如果成功實現,其功能可能將類似于DeepSeek建議的「通信協處理器」,有潛力將網絡處理任務從主計算單元中卸載,從而釋放計算資源。
同時,這種片上集成的統一網絡和通信引擎,其設計目標是使節點間通信能更直接高效,從而可能減少對傳統PCIe總線的依賴,進而有機會緩解DeepSeek指出的PCIe帶寬競爭問題。
SRDA架構通過上述創新,希望針對大模型訓推場景做到以下優勢:
極致性能(Token生成效率):通過可重構數據流、高帶寬3D堆疊內存以及存算網融合等設計,大幅減少數據搬運和通信等待,提升算力利用率。
極致成本:通過提升單芯片/單節點算力利用率、超低功耗、簡化網絡、簡化軟件棧、降低集群構建和運維復雜度、以及采用成熟的國產工藝,旨在提供更優的整體TCO。
高穩定:通過融合網絡設計,簡化了網絡部署,降低了互聯成本,支持構建高穩定、高效費比的超大規模AI計算集群或超節點方案。
靈活的模型與算法適應性:可重構數據流和對多種數據精度的支持,使得SRDA能夠靈活適應不斷演進的AI模型和算法。
極簡易用的軟件開發與遷移:兼容主流框架并簡化底層開發的軟件棧,降低了用戶的使用門檻。
可以說,SRDA架構為AI基礎設施的未來發展提供了一種全新的構想。
其設計基于對數據流的理解和軟硬件協同的理念,展現出應對當前AI算力瓶頸的潛力。
數據流思想的確也逐步出現在更多人的視野中,有望成為共識,SRDA在此基礎之上,基于更進一步的互聯技術實現了整個數據中心系統級別的數據流架構,無疑走在了前沿的位置。
目前國內外也出現了昇騰達芬奇、Groq LPU、SambaNova RDA等新的計算架構。
不過,這些架構基本上出現在大模型技術需求收斂前,更多針對傳統的AI小模型場景,在大模型場景下專用計算架構應有的效果似乎并不突出(相比于GPGPU而言)。
具體來說,在這些AI專用架構里,有些保留了GPGPU架構,有些則難以適應大模型的特殊需求(例如Groq LPU架構在大模型場景的成本問題已讓圈內人詬病多時)。
在當下2025年這個時間點,具備實用性的模型架構和技術需求已經趨向收斂。
在相當長一段時間里,現有的Transformer、Diffusion及相關架構會作為主流架構服務于市場,3D-DRAM顆粒也剛好成熟、容量真正契合大模型需求。
玉盤選擇此時推行SRDA,或許會帶來不一樣的效果,甚至可能成為通用性的GPGPU架構與真正AI大模型專用計算架構的分水嶺。
從SRDA公開的設計理念來看,其解決問題的思路已與DeepSeek等前沿研究中對某些挑戰的分析方向不謀而合。這或許提示我們,以數據流為中心的專用計算架構,會在未來的AI算力發展中扮演越來越重要的角色。
玉盤團隊在其公眾號中也預告了會在近期發布demo,公開具體的性能指標。
參考資料:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.