公眾號記得加星標??,第一時間看推送不會錯過。
近期,清華大學(xué)集成電路學(xué)院尹首一、胡楊研究團隊在晶圓級芯片領(lǐng)域的三項研究成果在2025年國際計算機體系結(jié)構(gòu)研討會(ISCA)發(fā)表。
自2020年起,尹首一教授前瞻性地瞄準超高性能大模型訓(xùn)練與推理場景,開展了晶圓級芯片這一前沿技術(shù)路線的探索。以胡楊教授為骨干,團隊提出了晶圓級芯片“計算架構(gòu)”與“集成架構(gòu)”兩大核心設(shè)計方法,本次ISCA的三項成果分別面向計算架構(gòu)問題、集成架構(gòu)問題與大模型推理任務(wù)映射問題開展研究,構(gòu)建了晶圓級芯片“計算架構(gòu)-集成架構(gòu)-編譯映射”協(xié)同設(shè)計優(yōu)化方法學(xué),取得了國內(nèi)外學(xué)術(shù)界與工業(yè)界的廣泛認可。
在產(chǎn)出高水平學(xué)術(shù)研究成果的基礎(chǔ)上,團隊聯(lián)合清華系知名芯片企業(yè)研發(fā)了可重構(gòu)算力網(wǎng)格芯粒,并聯(lián)合上海人工智能實驗室成功制造出國內(nèi)首臺基于可重構(gòu)AI芯粒的12寸晶圓級芯片驗證樣機,驗證了在次世代工藝條件下采用晶圓級集成方式趕超先進工藝芯片的理論和工程可行性,為解決國內(nèi)芯片“卡脖子”難題提供了兼具引領(lǐng)性和可行性的技術(shù)路線。工程成果已經(jīng)反哺多家產(chǎn)業(yè)界頭部合作伙伴,實現(xiàn)了產(chǎn)學(xué)研用高效閉環(huán)。
ISCA國際計算機體系結(jié)構(gòu)研討會(International Symposium on Computer Architecture)是計算機體系結(jié)構(gòu)領(lǐng)域的頂級會議,創(chuàng)辦于1973年,被譽為“計算機體系結(jié)構(gòu)創(chuàng)新的風(fēng)向標”,其收錄成果代表了該項研究的國際前沿突破性和全球創(chuàng)新引領(lǐng)性。
基于可重構(gòu)AI芯粒的晶圓級芯片驗證樣機
重構(gòu)軟硬件系統(tǒng),
晶圓級芯片加碼AI算力
何謂晶圓級芯片?它又為何是AI行業(yè)算力突破的“明日之星”?
晶圓級芯片(Wafer-Scale Chip)是一種顛覆傳統(tǒng)計算形態(tài)與半導(dǎo)體制造模式的前沿技術(shù)。眾所周知,芯片的算力與芯片內(nèi)部能夠集成的晶體管數(shù)量相關(guān),能夠集成的晶體管數(shù)目越多則芯片的算力越高,而晶體管數(shù)量又由單位面積的晶體管密度和芯片的面積兩個關(guān)鍵的因素來協(xié)同決定。其中前者主要依賴于集成電路的工藝先進性,然而在我國目前面臨著嚴重的“卡脖子”困境。而后者主要受集成電路光刻技術(shù)的制約,在現(xiàn)有工藝條件下只能達到858平方毫米的面積,這也制約了常規(guī)芯片能夠達到的總算力上限。
在構(gòu)建更大算力的系統(tǒng)時,常規(guī)芯片傳統(tǒng)的封裝和互連模式使得多個芯片間的互連往往需要經(jīng)過中介層、基板、PCB、線纜、光模塊、交換機等層層延遲,互連密度也被封裝結(jié)構(gòu)大幅稀釋,嚴重制約了其性能表現(xiàn)。因此,在追求極致算力與能效時,我們希望能夠構(gòu)建更大的芯片并設(shè)計更加高效的集成方式。
晶圓級芯片,顧名思義,是設(shè)計和制造一顆晶圓尺寸(約40000平方毫米)的超大面積芯片,實現(xiàn)“One Wafer One Chip”。其典型技術(shù)路線是通過在一整片晶圓上制造高密度硅互連基板,再將數(shù)十顆算力芯粒集成到硅晶圓基板上,從而構(gòu)建成一整片晶圓尺寸的算力芯片。
以Chiplet技術(shù)為基礎(chǔ)的晶圓級芯片制造流程
(Credit: 胡楊)
值得注意的是:晶圓級芯片不單純是一塊利用先進封裝技術(shù)拼接出來的大芯片,本質(zhì)上是整個智算系統(tǒng)在芯片級實現(xiàn)的高度集成。不夸張的說,晶圓級芯片就是一款“片上數(shù)據(jù)中心”,涉及計算、存儲、互連、封裝、供電、散熱、可靠性、機械結(jié)構(gòu)等多個設(shè)計因素的高度耦合,在設(shè)計時需要高度統(tǒng)籌計算架構(gòu)與集成架構(gòu)的協(xié)同優(yōu)化問題。
我們可以從兩層意義上來解讀晶圓級芯片帶來的優(yōu)勢:1. 如果將整個晶圓看做是一顆大芯片,在搭建具有同等算力的集群時,采用晶圓級芯片方案無疑比常規(guī)芯片方案具有更少的節(jié)點數(shù)目,因此可以獲得更佳的集群擴展線性度和性能。2. 更深一層看,晶圓級芯片在算力上可以對標一個甚至多個當(dāng)前的多卡算力服務(wù)器或者超節(jié)點,同時具有更高的互連密度,更短的互連距離,更大的集成密度,因此可以獲得更高的性能和能效。經(jīng)測算,其單機柜算力密度能夠達到現(xiàn)有超節(jié)點方案的2倍以上。可以說,晶圓級芯片是目前為止算力節(jié)點集成密度最高的一種形態(tài)。目前國際上已有美國的Cerebras WSE系列和特斯拉 Dojo系列兩款晶圓級芯片產(chǎn)品。
ISCA 2025論文導(dǎo)讀
晶圓級芯片以超大規(guī)模的單片集成方式,成為支撐下一代人工智能算力的新型芯片架構(gòu)。晶圓級芯片的設(shè)計、制造和應(yīng)用超越了當(dāng)前“算力芯片-服務(wù)器-超節(jié)點”的常規(guī)范式,亟待突破一系列關(guān)鍵問題。本次的三篇論文從計算架構(gòu)、集成架構(gòu)、編譯映射角度構(gòu)建了晶圓級芯片的完整體系。
《PD Constraint-aware Physical/Logical Topology Co-Design for Network on Wafer》提出了以互連為中心的晶圓級芯片計算架構(gòu)(第一作者為團隊博士學(xué)生楊啟澤)。
文中指出,晶圓級芯片計算架構(gòu)的核心是設(shè)計和構(gòu)造全晶圓尺度的互連架構(gòu)。在硅互連基板上設(shè)計片上互連網(wǎng)絡(luò)面臨嚴格的物理約束,包括有限且相互競爭的硅晶圓面積、不超過50mm的互連長度以及少于3層的金屬布線資源。
本文首次系統(tǒng)性揭示了計算架構(gòu)中的關(guān)鍵矛盾并提出"Tick-Tock"協(xié)同設(shè)計框架,將物理拓撲與邏輯拓撲的優(yōu)化緊密耦合。本文通過創(chuàng)新性融合Mesh的高集成度與Fat tree高效通信特性,提出Mesh-Switch物理拓撲計算架構(gòu),并設(shè)計了physical-design感知的設(shè)計空間搜索算法,可獲得最優(yōu)物理拓撲配置。
"Tick-Tock"協(xié)同設(shè)計的晶圓級芯片計算架構(gòu)
對比當(dāng)前典型晶圓級芯片架構(gòu),本文提出的晶圓級芯片計算架構(gòu)更有效的利用了物理資源,實現(xiàn)了更優(yōu)物理拓撲設(shè)計。同時,針對物理拓撲特性設(shè)計雙層次邏輯拓撲,細粒度并行策略以及拓撲感知的并行方案設(shè)計,從路由算法、通信流水到并行策略實現(xiàn)全棧優(yōu)化。實驗結(jié)果表明,該方案在主流大模型訓(xùn)練任務(wù)中對比特斯拉Dojo可實現(xiàn)2.39倍的吞吐提升。本文突破了現(xiàn)有方案的性能瓶頸,確立物理約束下物理拓撲-邏輯拓撲-并行方案協(xié)同設(shè)計的新范式,為晶圓級芯片提供了關(guān)鍵理論基礎(chǔ)與具體方案。
《Cramming a Data Center into One Cabinet, a Co-Exploration of Computing and Hardware Architecture of Waferscale Chip》提出了垂直空間協(xié)同設(shè)計的晶圓級芯片集成架構(gòu)(第一作者為團隊碩士學(xué)生余幸懋)。
晶圓級芯片是一個垂直堆疊的多層結(jié)構(gòu),算力芯粒、存儲芯粒、I/O模組、供電模組、散熱模組等多種異構(gòu)單元集成于互連基板的上下表面垂直空間內(nèi)。例如,特斯拉的Dojo晶圓級芯片系統(tǒng)結(jié)構(gòu)從上到下依次為散熱層、算力芯粒、中介層、基板、供電模組和外部連接器。這些多樣化異構(gòu)資源的高密度集成,面臨異構(gòu)設(shè)計因素緊耦合、系統(tǒng)性能優(yōu)化難的問題,是晶圓級芯片集成架構(gòu)亟需解決的難題。
本文首次提出以縱向面積約束引導(dǎo)跨物理層協(xié)同優(yōu)化的晶圓級集成架構(gòu)設(shè)計方法學(xué)。具體而言,本文建立了各物理層的面積模型,利用晶圓級系統(tǒng)內(nèi)跨層的功率依賴模型和信號傳遞關(guān)系,將各物理層的設(shè)計參數(shù)和指標統(tǒng)一變換為縱向面積約束。該方法考慮計算架構(gòu)和集成架構(gòu)的協(xié)同設(shè)計,實現(xiàn)了單芯片到整機的系統(tǒng)級設(shè)計與優(yōu)化。
縱向面積約束跨物理層協(xié)同優(yōu)化的集成架構(gòu)設(shè)計方法
相比于一個Dojo晶圓級芯片整機,采用本文提出的方法設(shè)計晶圓級芯片整機架構(gòu)能達到更高的系統(tǒng)級集成密度。在相同成本約束下,本文的設(shè)計平均提升系統(tǒng)算力2.90倍,通信帶寬2.11倍,內(nèi)存帶寬11.23倍。利用本文提出的晶圓級芯片系統(tǒng)協(xié)同設(shè)計方法,可以充分利用空間資源,大幅提高整機系統(tǒng)算力、帶寬、內(nèi)存容量等硬件性能。
《WSC-LLM: Efficient LLM Service and Architecture Co-exploration for Wafer-scale Chips》提出了一種大模型推理應(yīng)用在晶圓級芯片上的編譯映射方法(第一作者為團隊博士學(xué)生徐錚)。
本文圍繞大模型在晶圓級芯片上的推理應(yīng)用,提出了一種兼顧工作負載特性與硬件架構(gòu)特性的高效編譯映射方案。本文指出,晶圓級芯片編譯映射的核心在于充分發(fā)揮其高互連帶寬和細調(diào)度粒度的優(yōu)勢,規(guī)避尾端延遲帶來的性能瓶頸。針對大模型推理prefill和decode階段差異顯著的負載特性,本文設(shè)計了分離式映射調(diào)度方法,通過預(yù)探索策略和高效的KV cache管理策略實現(xiàn)了計算、存儲和通信資源的協(xié)同高效利用。
文中還指出,考慮到晶圓面積(約40000平方毫米)的約束,晶圓級芯片需要在計算、存儲和通信資源間進行權(quán)衡。本文深入分析了晶圓級芯片的架構(gòu)空間,并基于靈活的硬件模版與搜索機制,探索了適配大模型推理需求的最優(yōu)架構(gòu)方案。實驗結(jié)果表明,WSC-LLM在多種典型大模型推理任務(wù)中相較于最先進的GPU集群方案實現(xiàn)了平均3.12倍的性能提升,展示了晶圓級芯片結(jié)合優(yōu)化編譯映射方案在未來LLM服務(wù)中的廣闊前景。本文建立了從架構(gòu)探索到編譯映射的全流程優(yōu)化方法,為大模型在晶圓級芯片上的應(yīng)用提供了關(guān)鍵支撐。
高效LLM調(diào)度與架構(gòu)協(xié)同優(yōu)化框架
行業(yè)巨頭押注,
晶圓級芯片成為AI算力未來
放眼全球,國際科技巨頭紛紛布局晶圓級芯片,目前已有兩家科技公司在該領(lǐng)域?qū)崿F(xiàn)了產(chǎn)品化突破。
全球科技巨頭特斯拉公司2021年發(fā)布了晶圓級芯片Dojo和基于Dojo構(gòu)建的AI訓(xùn)練超算系統(tǒng)?。特斯拉采用Chiplet路線,在晶圓尺寸基板上集成了 25 顆專有的 D1 芯粒。每顆D1芯粒在645平方毫米的芯片上集成了500億個晶體管, 單個Dojo擁有9PFlops算力,以及每秒36TB帶寬。
另一家晶圓級芯片公司是位于美國硅谷的AI芯片設(shè)計公司Cerebras Systems。與特斯拉的技術(shù)路線不同,Cerebras通過改變晶圓光刻流程的技術(shù)路線,實現(xiàn)光罩拼接,在計算 Die 之間插入高密度連接線,使Die 與 Die 互連形成整個晶圓級芯片。其最新晶圓級芯片產(chǎn)品WSE-3采用5nm制程,集成4萬億晶體管,性能指標極大超越了傳統(tǒng)GPU芯片,如英偉達H100——片上內(nèi)存容量是其 880 倍、訪存帶寬是其 7000 倍、算力單元數(shù)量是其 52 倍、片上互連帶寬更是其 3715 倍。
全球半導(dǎo)體制造巨頭臺積電也在積極推進晶圓級系統(tǒng)(SoW,System-on-Wafer)的戰(zhàn)略布局。SoW技術(shù)是指以完整的12英寸硅晶圓作為“底座”,將多個核心芯片和內(nèi)存芯片緊密連接在一起,把AI加速器、高帶寬內(nèi)存(HBM)以及輸入輸出單元(IO)等關(guān)鍵模塊,直接整合在一整塊晶圓上。通過這種方式,不僅大幅提升了計算密度和數(shù)據(jù)傳輸效率,還讓系統(tǒng)運行更加穩(wěn)定一致。目前,這項技術(shù)已從研發(fā)進入初步應(yīng)用階段,預(yù)計將在2027年實現(xiàn)量產(chǎn),進一步鞏固了臺積電在先進封裝和異構(gòu)集成領(lǐng)域的全球領(lǐng)先地位。
近年來,AI算力芯片作為人工智能發(fā)展的基礎(chǔ)和核心,成為大國角逐的關(guān)鍵。清華大學(xué)集成電路學(xué)院尹首一教授領(lǐng)導(dǎo)的科研團隊,深耕前沿領(lǐng)域,不斷突破技術(shù)難題,在算力芯片領(lǐng)域持續(xù)創(chuàng)新,為算力芯片的高階國產(chǎn)替代發(fā)展筑牢根基,為打破技術(shù)壁壘、實現(xiàn)自主可控貢獻了磅礴力量!
參考文獻
[1] https://dl.acm.org/doi/full/10.1145/3695053.3731045
[2] https://dl.acm.org/doi/full/10.1145/3695053.3731016
[3] https://dl.acm.org/doi/full/10.1145/3695053.3731101
[4] https://mp.weixin.qq.com/s/FYHC3jMjXAWAam3JLCkt_w
1.
2.
3.
4.
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導(dǎo)體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4100期內(nèi)容,歡迎關(guān)注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.