最近,美國加州大學(xué)伯克利分校陳在俊助理教授團(tuán)隊(duì)與合作者基于超多路復(fù)用集成光子學(xué),開發(fā)了一種光學(xué)張量處理器(HITOP,Hypermultiplexed Integrated Tensor Optical Processor),運(yùn)算速度達(dá)每秒數(shù)萬億次,吞吐量達(dá) 0.98TOPS,可應(yīng)對多數(shù) AI 應(yīng)用需求。
這一架構(gòu)的核心創(chuàng)新在于其獨(dú)特的空間、時(shí)間和波長三維光學(xué)并行計(jì)算策略:通過在時(shí)間域和波長域同時(shí)復(fù)用計(jì)算任務(wù),HITOP 僅需 O(N)個片上電光調(diào)制器即可實(shí)現(xiàn) O(N2)級別的計(jì)算吞吐量,從而在硬件資源利用效率上實(shí)現(xiàn)了質(zhì)的飛躍。與傳統(tǒng)電子計(jì)算架構(gòu)相比,HITOP 展現(xiàn)出顯著的能效優(yōu)勢,其單位操作能耗可降低超過 100 倍。
值得注意的是,HITOP 通過引入時(shí)間積分器這一創(chuàng)新設(shè)計(jì),巧妙地規(guī)避了傳統(tǒng)光學(xué)計(jì)算系統(tǒng)對高速高精度模數(shù)轉(zhuǎn)換器(ADC,analog-to-digital converters)的依賴。這一設(shè)計(jì)不僅大幅簡化了輸出電路結(jié)構(gòu),還顯著降低了系統(tǒng)整體能耗,解決了長期制約光學(xué)計(jì)算系統(tǒng)性能的關(guān)鍵瓶頸問題。
圖丨陳在俊團(tuán)隊(duì)(來源:陳在俊)
從實(shí)現(xiàn)的性能方面來看,該系統(tǒng)在 10GS/s 的高數(shù)據(jù)速率下仍能保持 5-6 位的計(jì)算精度(計(jì)算誤差約 2.9%),可滿足圖像識別等多數(shù) AI 任務(wù)對大規(guī)模矩陣運(yùn)算的需求。實(shí)測數(shù)據(jù)顯示,HITOP 在處理大規(guī)模矩陣運(yùn)算時(shí)的單位操作能耗僅為 18 飛焦耳,這一數(shù)值比當(dāng)前先進(jìn)的電子計(jì)算系統(tǒng)(如 NVIDIA H100 GPU)低一個數(shù)量級以上。
此外,HITOP 的芯片面積效率達(dá)到 17.5GOPS/mm2,意味著在相同芯片面積下可完成更多計(jì)算任務(wù),顯著提升了硬件資源利用率。這項(xiàng)研究不僅解決了光學(xué)計(jì)算系統(tǒng)的可擴(kuò)展性問題,更為 AI 和高性能計(jì)算領(lǐng)域提供了一種極具潛力的全新硬件實(shí)現(xiàn)方案。
日前,相關(guān)論文以《基于光子學(xué)的超多路復(fù)用集成光學(xué)張量處理器》(Hypermultiplexed integrated photonics–based optical tensor processor)為題發(fā)表在Science Advances[1]。美國南加州大學(xué)碩士畢業(yè)生歐紹元、加州大學(xué)伯克利分校博士生薛凱文是主要作者,陳在俊擔(dān)任通訊作者。
圖丨相關(guān)論文(來源:Science Advances)
多維信號處理機(jī)制:將乘法運(yùn)算從“矩陣與向量”升級為“矩陣與矩陣”
傳統(tǒng)電子計(jì)算硬件(如 GPU、TPU)在處理大規(guī)模 AI 模型時(shí),正面臨能耗高、計(jì)算效率低的突出瓶頸。這一問題的根源在于電子架構(gòu)的物理限制:電信號在銅線中傳輸時(shí)會因電阻產(chǎn)生顯著損耗,同時(shí)電子器件的時(shí)鐘頻率提升空間有限,導(dǎo)致數(shù)據(jù)吞吐量受限。
若以交通系統(tǒng)作類比,傳統(tǒng)電子架構(gòu)就像平面交叉的單車道道路,數(shù)據(jù)信號如同密集的車流,極易因帶寬不足而引發(fā)“擁堵”。相比之下,光子計(jì)算則展現(xiàn)出顯著優(yōu)勢——其利用光波導(dǎo)傳輸信號,不僅避免了電阻損耗,還能通過多波長復(fù)用實(shí)現(xiàn)并行光路,如同立體交通樞紐中的多層立交橋,可同時(shí)容納更多“車輛”高速通行。
光學(xué)模擬計(jì)算的研究淵源可追溯至 20 世紀(jì)中葉,當(dāng)時(shí)已有科學(xué)家提出利用空間光路構(gòu)建傅里葉變換計(jì)算器的方案。然而,受限于早期光學(xué)器件的集成度與調(diào)控精度,該技術(shù)長期未能實(shí)現(xiàn)規(guī)模化應(yīng)用。直至近年,隨著集成光子學(xué)技術(shù)的突破性進(jìn)展,與此同時(shí),摩爾定律在電子器件領(lǐng)域逐漸逼近物理極限,光子計(jì)算才因其低能耗、高吞吐的特性重獲學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。
近年來,眾多高校和研究機(jī)構(gòu)陸續(xù)提出了多種光學(xué)計(jì)算架構(gòu),并在機(jī)器學(xué)習(xí)、圖形處理等領(lǐng)域展示了其大規(guī)模部署的可行性。然而,隨著系統(tǒng)中光學(xué)調(diào)制器數(shù)量的急劇增加,微納加工技術(shù)面臨巨大挑戰(zhàn),同時(shí)光學(xué)損耗也限制了波導(dǎo)路徑的可擴(kuò)展性。
更深層次的矛盾存在于系統(tǒng)級優(yōu)化層面。雖然電光調(diào)制器已能實(shí)現(xiàn)皮秒級響應(yīng)速度,但后端 ADC 的性能卻成為整體算力的短板。現(xiàn)有技術(shù)中,維持高采樣率與高量化精度的 ADC 往往需消耗數(shù)十皮焦每轉(zhuǎn)換步的能耗,這與光計(jì)算單元飛焦級每操作的能耗形成巨大落差,導(dǎo)致系統(tǒng)能效優(yōu)勢被部分抵消。
此外,當(dāng)前多數(shù)光計(jì)算架構(gòu)仍模仿電子計(jì)算的“存內(nèi)計(jì)算”范式,卻忽略了二者在物理尺度上的本質(zhì)差異:光學(xué)器件因受限于衍射極限,功能單元尺寸通常在百微米至毫米量級,而現(xiàn)代電子晶體管已縮至納米尺度。這種數(shù)量級的尺寸差異使得光學(xué)系統(tǒng)在集成密度上難以與電子芯片抗衡,也暴露出光子計(jì)算在有效縮放路線上的核心挑戰(zhàn)。
圖丨 HITOP 概念示意圖(來源:Science Advances)
針對上述瓶頸,研究團(tuán)隊(duì)提出了全新的光計(jì)算芯片架構(gòu),其核心創(chuàng)新體現(xiàn)在系統(tǒng)架構(gòu)設(shè)計(jì)層面。他們提出了“時(shí)間維度承載計(jì)算”的新范式:首先將數(shù)據(jù)編碼在時(shí)間序列上,再以時(shí)間維度作為橋梁,與波長維度和空間維度實(shí)現(xiàn)協(xié)同計(jì)算。通過多維度協(xié)同計(jì)算策略,為光學(xué)模擬計(jì)算提供了一種新的解決思路。
其突破在于:傳統(tǒng)光學(xué)計(jì)算實(shí)現(xiàn) 1000×1000 矩陣運(yùn)算需要 100 萬個調(diào)制器(O(N2)規(guī)模),而 HITOP 架構(gòu)僅需 1000-2000 個調(diào)制器(O(N)規(guī)模),這相當(dāng)于將硬件復(fù)雜度降低了三個數(shù)量級。
這種多維信號處理機(jī)制使得系統(tǒng)能夠直接完成矩陣與矩陣的乘法運(yùn)算,而傳統(tǒng)電子芯片通常僅能實(shí)現(xiàn)矩陣與向量的乘法運(yùn)算。陳在俊對 DeepTech 表示:“這種突破性的計(jì)算能力源于光信號在時(shí)間、波長和空間三個維度的并行處理特性,這是電子計(jì)算架構(gòu)難以實(shí)現(xiàn)的獨(dú)特優(yōu)勢。”
圖丨 HITOP 芯片架構(gòu)(來源:Science Advances)
在材料選擇方面,研究團(tuán)隊(duì)與加州大學(xué)伯克利分校喻夢潔助理教授、香港城市大學(xué)王騁副教授實(shí)驗(yàn)室合作,采用了具有優(yōu)異電光特性的薄膜鈮酸鋰(TFLN,Thin-Film Lithium Niobate)作為光學(xué)計(jì)算平臺。該材料具備優(yōu)異的電光特性,其較低的半波電壓(Vπ)顯著降低了電光轉(zhuǎn)換過程中的能耗,為實(shí)現(xiàn)高效、低功耗的光學(xué)計(jì)算系統(tǒng)提供了基礎(chǔ)。
應(yīng)用場景:從數(shù)據(jù)中心模型訓(xùn)練到終端設(shè)備模型部署
陳在俊在德國馬克斯普朗克量子光學(xué)研究所和德國慕尼黑大學(xué)獲得博士學(xué)位,導(dǎo)師為諾貝爾物理學(xué)獎獲得者特奧多爾·W·亨施(Theodor W. H?nsch),之后分別在馬克斯普朗克量子光學(xué)研究所和美國麻省理工學(xué)院迪爾克·英格倫(Dirk Englund)教授團(tuán)隊(duì)從事博士后研究工作(DeepTech 此前報(bào)道:MIT團(tuán)隊(duì)開發(fā)新型AI光子計(jì)算芯片,實(shí)現(xiàn)計(jì)算效率提高100倍)。
目前,陳在俊在加州大學(xué)伯克利分校成立了獨(dú)立實(shí)驗(yàn)室,其研究方向主要聚焦于光計(jì)算技術(shù)及其應(yīng)用的創(chuàng)新,研究內(nèi)容涵蓋量子光學(xué)、壓縮態(tài)光子學(xué)和光學(xué)傳感技術(shù)等多個前沿領(lǐng)域。
近期,團(tuán)隊(duì)正在開展存算一體化的新型光學(xué)傳感器方向研究,并探索量子增強(qiáng)傳感技術(shù)在自動駕駛等實(shí)際場景中的應(yīng)用。此外,團(tuán)隊(duì)還致力于將人工智能與量子光學(xué)方法相結(jié)合,以實(shí)現(xiàn)分子和原子尺度的高精度測量。
該研究歷時(shí)兩年,始于陳在俊實(shí)驗(yàn)室剛成立之際。研究的核心挑戰(zhàn)主要集中在如何確保長時(shí)間、高速光學(xué)計(jì)算過程中的測量精度與系統(tǒng)穩(wěn)定性。
在軟件架構(gòu)層面,研究團(tuán)隊(duì)采用任意波形發(fā)生器對光學(xué)系統(tǒng)作為精確控制核心,通過高精度時(shí)序同步實(shí)現(xiàn)光學(xué)計(jì)算單元的數(shù)據(jù)采集與處理,并與計(jì)算機(jī)系統(tǒng)協(xié)同工作,成功實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)的運(yùn)行。
在硬件測量方面,III/V 族半導(dǎo)體垂直腔面發(fā)射激光器(VCSEL,vertical-cavity surface-emitting laser)與薄膜鈮酸鋰集成芯片之間的時(shí)序校準(zhǔn)問題尤為關(guān)鍵,對實(shí)現(xiàn)高速測量的計(jì)算精度提出了嚴(yán)峻挑戰(zhàn)。
從計(jì)算原理來看,矩陣乘法運(yùn)算(N×N 矩陣乘以 N×N 矩陣)的本質(zhì)是,要求第一個矩陣中的所有行向量都必須與第二個矩陣中的所有列向量完成點(diǎn)積運(yùn)算。
在這個過程中,光學(xué)計(jì)算的獨(dú)特優(yōu)勢得以充分展現(xiàn):系統(tǒng)可以在計(jì)算框架內(nèi)實(shí)現(xiàn)天然的并行運(yùn)算,并通過波長復(fù)用技術(shù)將不同計(jì)算任務(wù)在光學(xué)域進(jìn)行有效分離。例如,當(dāng)一個向量(維度為 1×N)乘以一個矩陣(維度為 N×N)時(shí),傳統(tǒng)電子計(jì)算需要將該向量復(fù)制 N 次,然后分別與矩陣的每一列進(jìn)行運(yùn)算。
雖然從數(shù)學(xué)表達(dá)式看這個過程相對簡單,但在硬件實(shí)現(xiàn)層面卻異常復(fù)雜。研究團(tuán)隊(duì)通過光學(xué)手段巧妙地解決了這一難題——利用光的波動特性自然地完成向量復(fù)制過程,這種基于波場的并行數(shù)據(jù)傳輸機(jī)制是電子計(jì)算難以達(dá)到的。
此外,他們所使用的計(jì)算元件都非常簡單。陳在俊解釋說道:“我們最終的目標(biāo)是從簡單的計(jì)算單元開發(fā)出高算力、低能耗的光學(xué)計(jì)算系統(tǒng),解決光學(xué)可擴(kuò)展性。”
因此,他們選擇從最基礎(chǔ)的光學(xué)組件著手來構(gòu)建系統(tǒng)。例如,僅需讓激光束依次通過兩個調(diào)制器就能實(shí)現(xiàn)乘法運(yùn)算:第一個調(diào)制器完成 A 系數(shù)調(diào)制,第二個完成 B 系數(shù)調(diào)制,經(jīng)過兩次調(diào)制后的輸出光強(qiáng)即對應(yīng) A×B 的結(jié)果。通過這種簡潔而高效的乘法單元,研究團(tuán)隊(duì)成功構(gòu)建起三維計(jì)算架構(gòu),并利用光學(xué)復(fù)制原理實(shí)現(xiàn)了前所未有的計(jì)算效率。
(來源:Science Advances)
在應(yīng)用前景方面,這項(xiàng)技術(shù)直指當(dāng)前 AI 算力發(fā)展的核心瓶頸,其應(yīng)用場景涵蓋從數(shù)據(jù)中心模型訓(xùn)練、邊緣實(shí)時(shí)決策、終端設(shè)備模型部署、氣候模擬等場景。以自動駕駛為例,現(xiàn)代智能汽車通常搭載多個計(jì)算芯片,其中 30-40% 的整車能耗都消耗在計(jì)算任務(wù)上。這種低能耗、高算力的光學(xué)計(jì)算技術(shù)有望顯著提升終端設(shè)備的能效比。
實(shí)際上,AI 的發(fā)展水平在很大程度上受限于芯片性能,而光學(xué)計(jì)算的突破可能徹底改變這一局面。當(dāng)算力得到質(zhì)的提升后,此前受限于能耗和芯片效率的諸多技術(shù)瓶頸有望迎刃而解,更大規(guī)模的模型訓(xùn)練將成為可能。
該研究中的實(shí)驗(yàn)數(shù)據(jù)顯示,HITOP 系統(tǒng)在圖像分類任務(wù)中表現(xiàn)出色,而所需的模型參數(shù)量僅約 40 萬。其中,在單層網(wǎng)絡(luò)(28×28→10)架構(gòu)下,78.4ns 內(nèi)完成圖像處理,分類準(zhǔn)確率達(dá) 97%;在更復(fù)雜的三層網(wǎng)絡(luò)(28×28→100→10)Fashion MNIST 分類中,準(zhǔn)確率保持 91.8%。
這自然引出一個關(guān)鍵問題:該技術(shù)能否支撐 GPT 級別的超大規(guī)模模型訓(xùn)練?陳在俊指出,當(dāng)系統(tǒng)規(guī)模擴(kuò)展到 300×300 通道時(shí),單個光學(xué)芯片的計(jì)算能力將相當(dāng)于多個 GPU 的并行組合,屆時(shí)完全具備訓(xùn)練大模型的硬件條件。
盡管當(dāng)前的原型系統(tǒng)規(guī)模有限,但技術(shù)路線已經(jīng)展現(xiàn)出巨大的發(fā)展?jié)摿ΑL貏e值得一提的是,在實(shí)時(shí)性要求極高的自動駕駛場景中,現(xiàn)有系統(tǒng)需要 1 毫秒的反應(yīng)時(shí)間,而 HITOP 已實(shí)現(xiàn) 100 納秒的極低延遲。可以預(yù)見,隨著系統(tǒng)規(guī)模的持續(xù)擴(kuò)大,這項(xiàng)技術(shù)可能在自動駕駛等對實(shí)時(shí)性和能效要求嚴(yán)苛的領(lǐng)域發(fā)揮重要作用。
(來源:Science Advances)
現(xiàn)在,陳在俊正帶領(lǐng)團(tuán)隊(duì)重點(diǎn)攻克光計(jì)算系統(tǒng)的相關(guān)技術(shù)難題并推進(jìn)工程化。其首要目標(biāo)是提升激光器的波長穩(wěn)定性,通過優(yōu)化系統(tǒng)架構(gòu)將計(jì)算規(guī)模擴(kuò)展到 300×300,同時(shí)增加波長和通道數(shù)量。盡管現(xiàn)有的硅光技術(shù)理論上支持這一規(guī)模,但在實(shí)際實(shí)現(xiàn)過程中仍面臨諸多技術(shù)挑戰(zhàn)。
他表示:“實(shí)現(xiàn) 300×300 的系統(tǒng)規(guī)模后,計(jì)算能力預(yù)計(jì)將達(dá)到 4000TOPS(每秒 4000 萬億次運(yùn)算),這一性能將顯著超越當(dāng)前主流的 NVIDIA GB200。”隨著先進(jìn)封裝工藝的持續(xù)發(fā)展和系統(tǒng)集成度的不斷提高,時(shí)序校準(zhǔn)等關(guān)鍵技術(shù)難題將逐步得到解決,進(jìn)而為光學(xué)計(jì)算系統(tǒng)的大規(guī)模商業(yè)化應(yīng)用奠定堅(jiān)實(shí)基礎(chǔ)。
參考資料:
1.Ou,S. et al. Hypermultiplexed integrated photonics–based optical
tensor processor.Science Advances11, eadu0228(2025). https://www.science.org/doi/10.1126/sciadv.adu0228
排版:劉雅坤
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.