公眾號記得加星標(biāo)??,第一時間看推送不會錯過。
不斷增長的人工智能(AI)需求暴露出一個嚴(yán)峻的“計(jì)算危機(jī)”,其特點(diǎn)是能源消耗不可持續(xù)、訓(xùn)練成本過高以及傳統(tǒng)互補(bǔ)式金屬氧化物半導(dǎo)體(CMOS)微縮技術(shù)接近極限。「基于物理的專用集成電路(ASIC)」提供了一種變革性的范式,它直接利用固有的物理動力學(xué)進(jìn)行計(jì)算,而不是耗費(fèi)資源來強(qiáng)制實(shí)現(xiàn)理想化的數(shù)字抽象。
通過放寬傳統(tǒng)ASIC所需的約束,例如強(qiáng)制無狀態(tài)性、單向性、確定性和同步性,這些設(shè)備旨在作為物理過程的精確實(shí)現(xiàn)而運(yùn)行,從而在能源效率和計(jì)算吞吐量方面獲得顯著提升。這種方法能夠?qū)崿F(xiàn)新穎的協(xié)同設(shè)計(jì)策略,使算法需求與物理系統(tǒng)固有的計(jì)算原語相吻合。
基于物理的ASIC可以加速關(guān)鍵的AI應(yīng)用,例如擴(kuò)散模型、采樣、優(yōu)化和神經(jīng)網(wǎng)絡(luò)推理,以及材料和分子科學(xué)模擬等傳統(tǒng)計(jì)算負(fù)載。最終,這一愿景指向了一個異構(gòu)、高度專業(yè)化的計(jì)算平臺未來,它能夠克服當(dāng)前的擴(kuò)展瓶頸,并開啟計(jì)算能力和效率的新前沿。
一、引言:計(jì)算危機(jī)
在過去十年中,人工智能(AI)應(yīng)用的快速擴(kuò)展顯著增加了對計(jì)算基礎(chǔ)設(shè)施的需求,暴露了基礎(chǔ)硬件范式中的關(guān)鍵限制。支撐AI模型的基礎(chǔ)設(shè)施從未考慮到今天的規(guī)模、復(fù)雜性或能源需求。因此,當(dāng)前的計(jì)算堆棧導(dǎo)致了當(dāng)前硬件系統(tǒng)中固有的物理計(jì)算能力的嚴(yán)重低效利用。
傳統(tǒng)的擴(kuò)展正面臨多方面的極限:
1.AI的能源需求正在不可持續(xù)地增加,如圖1(a)所示。數(shù)據(jù)中心是AI操作的核心,2023年消耗了大約200太瓦時(TWh)的電力。預(yù)測表明,到2026年,這一數(shù)字可能會增至260太瓦時,占美國總電力需求的約6%。
圖 1. 預(yù)計(jì)的計(jì)算能耗與計(jì)算能力供需情況。雖然“計(jì)算危機(jī)”有多重面向,但兩個關(guān)鍵方面是:(a)計(jì)算能耗的不斷上升;(b)計(jì)算能力供需差距的不斷擴(kuò)大(此處以 AI 模型訓(xùn)練為例)。過去幾年中,這兩個問題在很大程度上都是由 AI 革命所驅(qū)動的。圖中(a)和(b)分別改編自參考文獻(xiàn) [3] 和 [4]。
2. 計(jì)算成本急劇上升,集中化了訪問。前沿AI模型的發(fā)展使得訓(xùn)練成本大幅增加,預(yù)計(jì)到2027年,最大規(guī)模的訓(xùn)練運(yùn)行成本將超過10億美元。這與圖1(b)所示的供需差距自然相關(guān)。
3. 隨著晶體管尺寸縮小到納米級,長期以來的擴(kuò)展定律——摩爾定律和丹納德定律——正在達(dá)到其極限。諸如隨機(jī)性、漏電流和可變性等微型化效應(yīng)使得在這些尺度下實(shí)現(xiàn)可靠操作變得困難。我們無法再像過去那樣按比例減少閾值電壓,從而導(dǎo)致更高的功率密度,進(jìn)而導(dǎo)致加熱,限制了時鐘速度和運(yùn)行時間。
這些限制不僅妨礙了性能的提升,還揭示了更深層次的低效:今天的通用架構(gòu)未能充分利用硬件本身的物理潛力。為管理復(fù)雜性而設(shè)計(jì)的抽象層如今成為了瓶頸,尤其是在能源效率和計(jì)算吞吐量方面。如果不改變計(jì)算范式,我們面臨創(chuàng)新停滯、能源成本上升,并且AI能力可能集中在少數(shù)大型公司和政府機(jī)構(gòu)手中的風(fēng)險。
基于物理的應(yīng)用特定集成電路(ASIC)通過利用物理現(xiàn)象進(jìn)行計(jì)算,而非壓制它們,提供了一種變革性的方法。通過將硬件設(shè)計(jì)與物理系統(tǒng)的內(nèi)在屬性對齊,這些ASIC可以提高效率、降低能耗,并使AI和計(jì)算資源的獲取更加普及。
二、什么是基于物理的ASIC?
A. 動機(jī)
如果我們想提高計(jì)算效率(例如,減少能耗或縮短時間),我們可以為理想化的通用硬件設(shè)計(jì)更高效的算法,創(chuàng)建更快或更高效的硬件(無論是通用的還是專用的),或者聯(lián)合設(shè)計(jì)算法和硬件,旨在最大化所獲得的有效計(jì)算。雖然在當(dāng)代計(jì)算機(jī)科學(xué)和工程的研究領(lǐng)域中有許多例外,但在過去五十年左右,明確致力于改善計(jì)算的努力主要集中在前兩條途徑上,即通用計(jì)算硬件和高度抽象的軟件開發(fā)策略,這種策略使得不斷擴(kuò)展的軟件應(yīng)用和現(xiàn)代數(shù)字經(jīng)濟(jì)得以實(shí)現(xiàn)。
然而,更多專用硬件,如GPU,仍然成為計(jì)算領(lǐng)域最近進(jìn)展的關(guān)鍵推動力,硬件的隱性算法偏好長期以來一直是算法成功的指導(dǎo)力量。
機(jī)器學(xué)習(xí)中最流行的算法恰好主要涉及矩陣乘法運(yùn)算,而GPU在這一操作上特別高效,這難道是巧合嗎?當(dāng)然不是:這些算法在軟件與硬件之間實(shí)現(xiàn)了出色的匹配,使得它們能夠很好地?cái)U(kuò)展,取得比那些未能有效利用GPU的算法更好的結(jié)果。這種普遍趨勢,即算法的共同優(yōu)化在無意識中受到現(xiàn)有硬件特性引導(dǎo),被稱為“硬件彩票[5]”。硬件彩票的突出性表明,軟件和硬件的協(xié)同設(shè)計(jì)是不可避免的,無論是有意識的還是無意識的。
基于物理的ASIC的思想本質(zhì)上是將這一主要無意的趨勢轉(zhuǎn)變?yōu)橥耆幸馇矣性瓌t的做法:它旨在故意將算法和硬件從可用、可擴(kuò)展的硬件基礎(chǔ)設(shè)施的最低物理層面開始進(jìn)行協(xié)同設(shè)計(jì)。類似于變換器(Transformers)中密集的矩陣乘法巧妙地適應(yīng)了GPU的偏好,我們是否可以類似地設(shè)計(jì)算法和電子芯片,利用硅電子電路物理學(xué)中更深層的偏好(進(jìn)而解鎖更大的可擴(kuò)展性)?
當(dāng)然,這不是免費(fèi)的午餐:它將需要開發(fā)新的算法和硬件,而這些算法和硬件與大多數(shù)現(xiàn)代計(jì)算機(jī)科學(xué)家設(shè)計(jì)的不同,必須考慮到彼此的細(xì)節(jié)。但另一方面,這條道路可能使我們能夠比今天更高效地利用現(xiàn)代計(jì)算硬件。效率能提高多少?這很難說,但我們可以通過考慮一個相關(guān)問題來得到一些線索,即抽象如何影響數(shù)字模擬電路的成本。例如,執(zhí)行簡單CMOS非門的物理設(shè)備在被抽象為二進(jìn)制邏輯門時,每個時鐘周期執(zhí)行一個二進(jìn)制操作,但如果我們改為模擬組成它的電路的瞬態(tài)(和模擬)動態(tài),典型的數(shù)值方法(例如,在SPICE中使用的)可能需要數(shù)百萬次浮動點(diǎn)操作。如果我們將每個晶體管細(xì)致地建模(正如在設(shè)計(jì)階段經(jīng)常做的那樣),我們必然要解決3+1維的偏微分方程系統(tǒng),要求數(shù)十億甚至數(shù)萬億次浮動點(diǎn)操作(僅僅對于一個時鐘周期)。顯然,我們抽象一個物理系統(tǒng)的物理層次可能會影響它等價于多少次數(shù)字邏輯門操作。然而,這只是挑戰(zhàn)的一部分:僅僅因?yàn)樵谀硞€抽象層次上對物理系統(tǒng)的模擬是昂貴的,并不一定意味著我們可以使用相同的物理系統(tǒng)和抽象來執(zhí)行其他有趣的計(jì)算。這就是基于物理的ASIC的核心挑戰(zhàn):設(shè)計(jì)抽象、算法和硬件架構(gòu),通過更好地尊重基礎(chǔ)硬件的物理規(guī)律,使我們能夠有效地、更加充分地利用今天高度可擴(kuò)展的電子電路所提供的物理計(jì)算能力。
B. 定義
寬泛地說,基于物理的ASIC是依賴于系統(tǒng)自然物理動態(tài)來執(zhí)行數(shù)據(jù)上的非平凡操作的ASIC。這個定義有些模糊;因?yàn)樗须娐范际亲裱锢矶傻模运杏?jì)算在某種意義上都是通過計(jì)算系統(tǒng)的自然演化來完成的。
然而,傳統(tǒng)的ASIC設(shè)計(jì)有意壓制或抽象掉某些物理效應(yīng),以實(shí)現(xiàn)理想化的、符號化的計(jì)算模型。通過這樣做,它依賴于一組近似,這些近似允許從簡單、理想化的組件中構(gòu)建復(fù)雜系統(tǒng)。
最重要的近似之一是:
1. 無狀態(tài)性:在傳統(tǒng)的ASIC中,通常存在一個明確的分離,即內(nèi)存和計(jì)算由不同位置的獨(dú)立組件處理。不負(fù)責(zé)存儲信息的組件被假定為其輸出僅依賴于當(dāng)前輸入,而不依賴于先前的歷史。例如,一個NOT門應(yīng)該反轉(zhuǎn)其輸入的當(dāng)前值,而不管過去的值如何。
2. 單向性:傳統(tǒng)ASIC的基本組件被設(shè)計(jì)成在單一方向上傳播信息;它們有指定的輸入和輸出端口。例如,一個NOT門應(yīng)該響應(yīng)輸入端的變化,但它的輸出不應(yīng)該影響輸入。正因?yàn)槿绱耍趥鹘y(tǒng)的ASIC中創(chuàng)建反饋回路需要顯式地將某個模塊的輸出連接到其輸入。
3. 決定性:在相同的輸入和初始條件下,電路預(yù)期每次都產(chǎn)生相同的輸出。
4. 同步:通常,傳統(tǒng)ASIC中不同部分的信號是根據(jù)一個集中的時鐘相互同步的。
這些屬性在嚴(yán)格意義上是無法在物理上實(shí)現(xiàn)的:實(shí)際組件會表現(xiàn)出記憶效應(yīng)、反饋、噪聲和熱波動。強(qiáng)制實(shí)現(xiàn)這些理想行為會帶來能量、延遲或復(fù)雜性的成本,并且隨著近似的精確度提高,這些成本也會增加。
基于物理的ASIC則被設(shè)計(jì)為在不依賴這些屬性(或至少不依賴其中某些屬性)的情況下運(yùn)作。與傳統(tǒng)ASIC不同,這些設(shè)備被設(shè)計(jì)成利用(或至少容忍)有狀態(tài)性、雙向性、非決定性和異步性,如圖2所示。因此,基于物理的ASIC上的計(jì)算不是對非物理過程的近似,而是物理過程的實(shí)現(xiàn)。
圖 2. 傳統(tǒng)ASIC 與基于物理的ASIC。 如圖所示,傳統(tǒng)ASIC將存儲與計(jì)算分離,假定計(jì)算組件是無狀態(tài)的。單個邏輯門以單向方式傳遞信息,具有專用的輸入和輸出端,要構(gòu)建反饋回路必須顯式地將輸出接回輸入。基于物理的ASIC則可能包含有狀態(tài)的計(jì)算組件,并且在耦合之間具有雙向的信息流動。
由于缺乏傳統(tǒng)ASIC中存在的簡化假設(shè),基于物理的ASIC的行為通常更加復(fù)雜,且更難以分析。然而,基于物理的ASIC中的電路組件執(zhí)行操作時也有更廣泛的可能性。因此,基于物理的ASIC通常能夠用更少的組件完成顯著更多的計(jì)算。例如,傳統(tǒng)ASIC中的標(biāo)量乘法可能需要幾十到幾百個晶體管,而在基于物理的ASIC中只需要少量組件。
C. 平臺
許多現(xiàn)有的非常規(guī)計(jì)算范式可以看作是基于物理的ASIC的例子。盡管這些不同方法之間存在很大多樣性,但基于物理的ASIC與其他基于物理的平臺(例如,用肥皂泡進(jìn)行計(jì)算[6])的區(qū)別在于它們的可擴(kuò)展性。可擴(kuò)展性和可制造性是這個激動人心的新領(lǐng)域的關(guān)鍵要素。現(xiàn)在我們給出這些可擴(kuò)展平臺的一些例子,其中一些已在圖3中示出。
圖 3. 基于物理的ASIC的常見構(gòu)建模塊。 雖然并非詳盡無遺,但圖中展示了幾種可用作基于物理的ASIC構(gòu)建模塊的基本物理結(jié)構(gòu)。對于每一種組件,其所遵循的物理定律都可映射為某種計(jì)算原語操作。
如前所述,基于物理的ASIC與傳統(tǒng)ASIC的不同之處在于它們放寬了通常應(yīng)當(dāng)大致滿足的某些要求,包括無狀態(tài)性、單向性、決定性和同步性。在基于物理的ASIC中,我們可以大致根據(jù)這些要求的子集來對設(shè)備進(jìn)行分類。
已經(jīng)提出了一些范式,其中ASIC中的電路組件故意被設(shè)計(jì)為有狀態(tài)的,有時依賴于較長時間內(nèi)的歷史。例如,使用憶阻器的電路就是一個典型的例子,其電阻依賴于通過它們的電荷量。其他組件在用于模擬電路時也可能表現(xiàn)出記憶效應(yīng),從而去除了無狀態(tài)性的假設(shè)。
雙向耦合在實(shí)現(xiàn)Ising機(jī)(包括數(shù)字和模擬)的ASIC中很常見,在設(shè)計(jì)用來解決線性和非線性代數(shù)及(可能是隨機(jī)的)微分方程問題的模擬設(shè)備中也是如此。物理自由度之間的相互作用也被用于基于非線性光子學(xué)的平臺和自調(diào)整電阻網(wǎng)絡(luò)。
由于抑制有狀態(tài)行為和雙向信息流需要耗散,我們可以預(yù)期,當(dāng)這些要求被放寬時,可能會實(shí)現(xiàn)更高的能效。如果把這個想法推向極致,可逆計(jì)算試圖通過避免任何信息擦除來顯著減少能量損耗。值得注意的是,量子計(jì)算作為可逆計(jì)算的一個子集,表現(xiàn)出交互的量子比特之間的信息雙向流動。
近年來,對非決定性ASIC(包括模擬和數(shù)字)的興趣也在不斷增長。在數(shù)字情況下,已有大量關(guān)于p比特的研究,這些比特是經(jīng)歷連續(xù)時間馬爾可夫過程(CTMC)的二進(jìn)制變量。磁隧道結(jié)(MTJ)在電壓中表現(xiàn)出雙穩(wěn)態(tài)的隨機(jī)行為,可用作模擬或數(shù)字隨機(jī)性的來源。類似地,熱力學(xué)計(jì)算機(jī)使用模擬電路采用連續(xù)變量的隨機(jī)動力學(xué)(即布朗運(yùn)動)。
在一些基于物理的ASIC技術(shù)中,包括p比特,采用了無中央時鐘的設(shè)計(jì),單個設(shè)備中的不同信號將異步變化。也有一些ASIC利用多同步時鐘設(shè)計(jì),其中并非使用單一的中央時鐘,而是多個本地時鐘,這些時鐘之間并不完全同步。
D. 性能優(yōu)勢的直覺
如前所述,傳統(tǒng)的ASIC會產(chǎn)生與確保無狀態(tài)性、單向性、決定性和同步性要求大致滿足相關(guān)的時間和能量成本。一般來說,這些成本通常是值得的,因?yàn)樗鼈冊试S計(jì)算系統(tǒng)以非常模塊化的方式設(shè)計(jì),可以用于各種用途。然而,對于特定類型的問題,通常存在一些算法或解決方法,這些方法不依賴于這些屬性。在這種情況下,設(shè)計(jì)一個ASIC來解決該特定類型的問題,并放寬與確保無狀態(tài)性、單向性和/或決定性相關(guān)的設(shè)計(jì)約束,可能會更為有利。
從實(shí)際角度來看,這可能表現(xiàn)為提高時鐘頻率,超過了可以依賴無狀態(tài)或決定性行為的范圍。同樣,降低供電電壓,也會產(chǎn)生非決定性行為,以換取更低的功耗。事實(shí)上,基于物理的ASIC的一個常見特點(diǎn)是,它們通常通過放寬上述約束來節(jié)省功率和能量成本。
有趣的是,我們還常常觀察到,當(dāng)系統(tǒng)的自然動態(tài)在計(jì)算中被利用時,許多操作可以融合成一個操作。也就是說,我們可以看到,在某種意義上,物理動態(tài)“自動”地執(zhí)行部分計(jì)算(例如,求解線性代數(shù)或優(yōu)化問題)。這為時間和能量節(jié)省的可能來源提供了一些直覺。
盡管在將各種基于物理的ASIC方法進(jìn)行擴(kuò)展方面仍然有很多工作要做,但已有跡象表明,在時間和能量成本上存在顯著優(yōu)勢的潛力。
三、設(shè)計(jì)策略
A. 自上而下 vs. 自下而上
設(shè)計(jì)基于物理的ASIC是具有挑戰(zhàn)性的。一種有原則的策略通常涉及考慮自上而下與自下而上視角之間的交集,如圖4所示。在自上而下的方法中,從一個具有廣泛興趣或重大影響的關(guān)鍵應(yīng)用A開始(例如,圖像或材料的生成AI)。然后將這個應(yīng)用映射到算法空間,即列出一組可能運(yùn)行該應(yīng)用的算法L(A)(例如,擴(kuò)散模型、變換器等)。
圖 4. 基于物理的ASIC設(shè)計(jì)。 自上而下方法給出可運(yùn)行目標(biāo)應(yīng)用 A 的一組算法 L(A)。自下而上方法給出可在某種物理結(jié)構(gòu) S 上高效運(yùn)行的一組算法 L(S)。基本設(shè)計(jì)原則是最大化這兩組算法之間的重疊。
或者,在自下而上的方法中,從基本的物理結(jié)構(gòu)S開始,如圖3中展示的某個結(jié)構(gòu)。然后確定可以使用這些結(jié)構(gòu)高效計(jì)算的數(shù)學(xué)原語P(S)。接著,從這些原語中形成算法,找到可以高效運(yùn)行的算法集合L(S)。目標(biāo)是最大化L(A)和L(S)這兩個集合之間的重疊。通常,這需要考慮多個不同的候選結(jié)構(gòu)S,然后選擇那個在算法空間中與目標(biāo)應(yīng)用A最佳匹配的結(jié)構(gòu)。
不同領(lǐng)域可能會從這種策略中受益。例如,在量子計(jì)算中,通常采用自下而上的視角,專注于物理結(jié)構(gòu)(例如離子、原子、超導(dǎo)電路等)。同時,將量子計(jì)算視為基于物理的ASIC的特例也是合理的。因此,在量子背景下使用上述框架可能是設(shè)計(jì)量子ASIC的一種有用視角,前提是要牢記希望與目標(biāo)應(yīng)用A相交的算法集合L(A)。
B. 性能指標(biāo)
我們可以通過使策略更具量化性來完善這一策略。即,我們必須澄清算法在某些硬件上“高效”運(yùn)行意味著什么。雖然有多種潛在的性能指標(biāo),但兩個關(guān)鍵指標(biāo)是運(yùn)行時間和能量消耗。對于給定的算法?,確定?是否屬于L(S)可以通過比較?在兩種硬件上的運(yùn)行時間和能量消耗來實(shí)現(xiàn):最先進(jìn)的(SOTA)數(shù)字硬件(通常是GPU)和由結(jié)構(gòu)S構(gòu)建的硬件。
為此,我們定義了以下比率:
將算法?納入集合L(S)的合理標(biāo)準(zhǔn)是,RT(?)或RE(?)中的任意一個大于1。另一方面,如果這兩個比率都小于1,則算法?不被認(rèn)為在硬件S上高效。
需要考慮的一個警告是,時間和能量可以相互交換。這就是為什么需要同時考慮這兩個比率,因?yàn)橥ǔ?梢酝ㄟ^犧牲一個比率來提高另一個比率。為了解決這個問題,可以考慮一個更嚴(yán)格的標(biāo)準(zhǔn),即當(dāng)這兩個比率都大于1時,算法?才被認(rèn)為在硬件S上高效。
C. 阿姆達(dá)爾法則
在實(shí)踐中,算法由多個步驟組成,算法中的一部分計(jì)算可以在基于物理的ASIC上高效運(yùn)行。例如,在卡爾曼濾波算法中,有矩陣求逆和矩陣-向量乘法(MVM),可能希望使用ASIC來處理矩陣求逆,而GPU用于處理矩陣-向量乘法。在這種情況下,阿姆達(dá)爾法則對使用ASIC所能獲得的性能提升設(shè)定了限制。設(shè)x為算法運(yùn)行時間T中可以在ASIC上加速的計(jì)算所占的比例。那么,(1 ? x)T是通過使用ASIC可以達(dá)到的最小運(yùn)行時間,因此最大加速比僅為1/(1 ? x)。對于能效的最大提升也可以進(jìn)行類似的推理。
D. 算法協(xié)同設(shè)計(jì)
由于阿姆達(dá)爾法則,需要仔細(xì)思考如何為給定的硬件范式設(shè)計(jì)算法。舉個例子,關(guān)于今天AI應(yīng)用中的SOTA算法,采取以下視角非常有趣。這些算法隱式地被協(xié)同設(shè)計(jì)用于特定的硬件平臺,即GPU。例如,變換器(Transformers)理想地與GPU匹配,因?yàn)樗鼈儓?zhí)行大量可并行化的矩陣運(yùn)算,而GPU專門為并行矩陣運(yùn)算而設(shè)計(jì)。從這個意義上講,GPU得益于一個龐大的研究者社區(qū),他們?yōu)镚PU平臺共同設(shè)計(jì)了算法。
同樣,基于物理的ASIC也將受益于學(xué)術(shù)界在算法協(xié)同設(shè)計(jì)方面的研究。對于給定的算法框架,有超參數(shù)允許將復(fù)雜度從一個子程序推送到另一個子程序(例如,從采樣到優(yōu)化,或從神經(jīng)網(wǎng)絡(luò)的復(fù)雜性到動態(tài)系統(tǒng)的時間演化)。關(guān)鍵在于通過某種方式推動復(fù)雜度的轉(zhuǎn)移,從而增加阿姆達(dá)爾法則中出現(xiàn)的比例x。因此,必須將算法?(h)視為僅在其超參數(shù)h的范圍內(nèi)定義。此外,僅僅因?yàn)槟承┧惴?(h)在硬件S上未表現(xiàn)出性能優(yōu)勢,并不排除通過調(diào)整復(fù)雜度來獲得修改后的算法?(h′),從而獲得性能優(yōu)勢的可能性。因此,值得將方程式(1)和(2)中的性能指標(biāo)替換為R?T(?) = maxh RT(?(h))和R?E(?) = maxh RE(?(h)),它們表示對所有協(xié)同設(shè)計(jì)算法?與硬件S的努力進(jìn)行最大化。
E. 物理機(jī)器學(xué)習(xí)
一種算法與硬件協(xié)同設(shè)計(jì)的方法是直接在硬件層面上進(jìn)行機(jī)器學(xué)習(xí)——我們稱之為“物理機(jī)器學(xué)習(xí)”(PML)。PML通常涉及一個監(jiān)督學(xué)習(xí)過程,其中通過直接優(yōu)化硬件的可調(diào)物理參數(shù)(例如,可調(diào)導(dǎo)電性)來學(xué)習(xí)給定硬件所執(zhí)行的計(jì)算,從而使得數(shù)據(jù)通過物理硬件的端到端轉(zhuǎn)換最佳匹配訓(xùn)練數(shù)據(jù)集。在數(shù)學(xué)上,硬件的輸入數(shù)據(jù)x?通過某些可編程參數(shù)的子集進(jìn)行編碼(例如,應(yīng)用于硬件某部分的電壓,如輸入電流源),經(jīng)過一段時間后,硬件物理自由度的(通常是不同的)子集被測量(例如,離開一組定義輸出線的電流),以產(chǎn)生輸出向量y?。物理機(jī)器學(xué)習(xí)的過程涉及使用優(yōu)化算法來設(shè)置硬件的可控參數(shù)θ?,影響從x?到y(tǒng)?的有效計(jì)算,即y? = fp(x?, θ?),其中fp表示硬件時間演化所導(dǎo)致的輸入和輸出之間的轉(zhuǎn)換。
例如,可調(diào)參數(shù)可以是施加在輸入和輸出電流之間晶體管上的電壓,這些電壓改變電流在硬件中的流動方式。在許多形式的PML中,可調(diào)參數(shù)可能以數(shù)字預(yù)處理或后處理的形式進(jìn)行編碼。例如,在物理水庫計(jì)算中——PML的開創(chuàng)性概念——物理轉(zhuǎn)化是(在最簡單的非遞歸情況下),y? = W (θ?)fp(x?)。其中,W (θ?)是一個線性矩陣,通過線性回歸學(xué)習(xí)得到。通過適當(dāng)優(yōu)化W的權(quán)重,所需的非線性函數(shù)可以通過“特征”(即輸入x?的函數(shù))的線性組合來近似,這些特征是由物理硬件自然計(jì)算出來的(在物理水庫計(jì)算中被描述為“水庫”)。其他形式的PML學(xué)習(xí)物理硬件的參數(shù),而不是(或除了)這種數(shù)字后處理,例如物理神經(jīng)網(wǎng)絡(luò)、變分量子算法和“材料中”計(jì)算。
一方面,PML為硬件和軟件的聯(lián)合優(yōu)化提供了一種潛在的優(yōu)雅解決方案,因?yàn)樗惴▽?shí)際上是直接從硬件本身提供的計(jì)算空間中學(xué)習(xí)的。然而,迄今為止,PML學(xué)習(xí)到的算法通常相當(dāng)簡單,要么是因?yàn)閮?yōu)化參數(shù)的過程非常困難,要么是因?yàn)槲锢碛布旧淼谋磉_(dá)能力有限。PML中的優(yōu)化之所以困難,部分原因是,與現(xiàn)代人工神經(jīng)網(wǎng)絡(luò)不同,后者經(jīng)過系統(tǒng)工程設(shè)計(jì),能夠在應(yīng)用隨機(jī)梯度下降法學(xué)習(xí)其參數(shù)時表現(xiàn)良好(例如,通過像殘差連接這樣的架構(gòu)創(chuàng)新),物理硬件學(xué)習(xí)的工程工作較少,因此許多硬件假設(shè)(即fp的具體形式)呈現(xiàn)出更加具有挑戰(zhàn)性的優(yōu)化景觀,表現(xiàn)出例如貧瘠的平坦區(qū)域,使得梯度下降法變得無效。此外,直接優(yōu)化物理硬件會遇到困難,因?yàn)橛布ǔEc任何理想化的仿真不同——這種“仿真到現(xiàn)實(shí)”的差距意味著,僅通過仿真硬件來執(zhí)行優(yōu)化往往會失敗。
由于這些挑戰(zhàn),PML子領(lǐng)域的一個重要開放問題是開發(fā)有效的學(xué)習(xí)算法,這些算法可以用在一個單獨(dú)的處理器中來高效配置θ?,或者——理想情況下——直接使用物理硬件來實(shí)現(xiàn)這一目的,即物理學(xué)習(xí)。
F. 物理學(xué)習(xí)
PML最強(qiáng)大的形式是同時在物理硬件中進(jìn)行推理(即物理計(jì)算y? = fp(x?, θ?))和學(xué)習(xí)(即確定參數(shù)θ?的最佳選擇)。與僅執(zhí)行推理的硬件相比,顯然設(shè)計(jì)可擴(kuò)展硬件(以及可擴(kuò)展學(xué)習(xí)算法)使得這兩個功能都能實(shí)現(xiàn)要更加困難。但克服這個困難無疑是值得的:解決物理驅(qū)動學(xué)習(xí)的挑戰(zhàn)可以實(shí)現(xiàn)令人矚目的可擴(kuò)展基于物理的ASIC,這些ASIC可以直接學(xué)習(xí)執(zhí)行所需的計(jì)算,甚至無需數(shù)字計(jì)算機(jī)的監(jiān)督。這將允許緊湊、高效的神經(jīng)網(wǎng)絡(luò)計(jì)算,具有比現(xiàn)代數(shù)字系統(tǒng)更多的可訓(xùn)練參數(shù)。
對于電子硬件中的物理驅(qū)動學(xué)習(xí),通常需要有局部規(guī)則來更新邊緣,就像大腦中的神經(jīng)元根據(jù)局部條件自我更新,而不需要知道其他所有神經(jīng)元的狀態(tài)一樣。這樣規(guī)則的一個重要類別已經(jīng)為電子、流體或機(jī)械網(wǎng)絡(luò)開發(fā)出來,這些網(wǎng)絡(luò)根據(jù)優(yōu)化原則進(jìn)行平衡。在實(shí)驗(yàn)室中的電子網(wǎng)絡(luò)上,每個邊緣上都已建立電路,實(shí)現(xiàn)局部學(xué)習(xí)規(guī)則以調(diào)整其電導(dǎo)。在訓(xùn)練完成后,后續(xù)的計(jì)算(推理)僅通過提供輸入電壓來物理地完成,讓系統(tǒng)平衡,并讀取輸出電壓。設(shè)計(jì)問題然后涉及硬件和可調(diào)邊緣的選擇、學(xué)習(xí)電路、網(wǎng)絡(luò)架構(gòu),以及——重要的是——如何在芯片上大規(guī)模實(shí)現(xiàn)。物理學(xué)習(xí)還可以在各種其他系統(tǒng)中完成。
四、應(yīng)用
圖5展示了基于物理的ASIC將影響的一些應(yīng)用。這些設(shè)備天生適合受物理世界啟發(fā)或基于物理世界的應(yīng)用。
圖 5. 基于物理的ASIC應(yīng)用。 部分應(yīng)用受物理啟發(fā)(如采樣和優(yōu)化)。其他應(yīng)用則基于物理原理(如科學(xué)模擬和模擬數(shù)據(jù)分析)。在數(shù)學(xué)領(lǐng)域的抽象應(yīng)用也同樣相關(guān)。
A. 物理啟發(fā)的應(yīng)用
許多算法受到物理啟發(fā)。這很可能是因?yàn)殚_發(fā)這些算法的人對物理有很強(qiáng)的直覺,并且歷史上物理學(xué)曾是早期的應(yīng)用重點(diǎn)。盡管現(xiàn)代應(yīng)用如AI和金融更加抽象,但它們在實(shí)踐中往往仍然使用物理啟發(fā)的算法。
1.人工神經(jīng)網(wǎng)絡(luò)
2024年諾貝爾物理學(xué)獎授予了Hopfield和Hinton,以表彰他們?yōu)槭谷斯ど窠?jīng)網(wǎng)絡(luò)(ANNs)機(jī)器學(xué)習(xí)奠定基礎(chǔ)的工作。盡管關(guān)于人工神經(jīng)網(wǎng)絡(luò)是否受到物理啟發(fā)或生物學(xué)啟發(fā)存在爭議,但早期的ANN,如Hopfield網(wǎng)絡(luò)和玻爾茲曼機(jī),確實(shí)源自自旋系統(tǒng)的統(tǒng)計(jì)物理學(xué)。
盡管用于主流機(jī)器學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)與大腦中的生物神經(jīng)網(wǎng)絡(luò)差異巨大,但它們?nèi)匀环浅_m合在嘈雜的模擬硬件上進(jìn)行計(jì)算。首先,現(xiàn)代的人工神經(jīng)網(wǎng)絡(luò)在很大程度上依賴于一組有限的操作,這些操作會重復(fù)多次,如矩陣-矩陣和矩陣-向量乘法。這意味著,基于物理的ASIC可以加速這一類別中的有限計(jì)算,從而在神經(jīng)網(wǎng)絡(luò)推理或訓(xùn)練中提供顯著優(yōu)勢。其次,雖然現(xiàn)代ANN通常在高精度數(shù)字計(jì)算機(jī)中實(shí)現(xiàn),但它們已被證明對噪聲具有極強(qiáng)的抗性——ANNs通常可以被訓(xùn)練以非常低的(甚至是二進(jìn)制的)精度權(quán)重和激活值進(jìn)行操作,并且?guī)缀鯖]有性能損失,同時訓(xùn)練中常常使用噪聲(例如,采用dropout形式)來提高泛化能力,并使學(xué)習(xí)到的神經(jīng)網(wǎng)絡(luò)對抗攻擊更加魯棒。最后,隨著更多計(jì)算資源的投入,ANNs表現(xiàn)出顯著的改進(jìn),例如通過增加可學(xué)習(xí)的參數(shù)數(shù)量(以及每次推理的計(jì)算量)、延長訓(xùn)練時間或通過其他方法提高計(jì)算利用率。這些特性的結(jié)合使得ANNs特別適合通過專用的嘈雜模擬硬件加速,而它們快速擴(kuò)展的應(yīng)用表明,進(jìn)行這種加速具有強(qiáng)大的商業(yè)驅(qū)動力。
2. 擴(kuò)散模型
最明顯的物理啟發(fā)算法之一是擴(kuò)散模型。關(guān)于這一主題的原始工作指出了與非平衡熱力學(xué)的深刻聯(lián)系。由于隨機(jī)過程的時間反轉(zhuǎn)在隨機(jī)熱力學(xué)中經(jīng)常被考慮,人們意識到相同的形式主義可以用來逆轉(zhuǎn)向數(shù)據(jù)添加噪聲的過程,從而形成生成模型。在過去幾年中,擴(kuò)散模型已經(jīng)成為一種生成圖像、視頻、分子結(jié)構(gòu)和材料的最先進(jìn)方法。硅中自然發(fā)生的隨機(jī)性使得基于物理的ASIC非常適合運(yùn)行擴(kuò)散模型。此外,擴(kuò)散模型允許我們放寬確定性操作的限制,以便通過基于物理的ASIC實(shí)現(xiàn)更高效的性能。
3. 采樣
更廣泛地說,從期望概率分布中進(jìn)行采樣的問題可以通過使用物理啟發(fā)的算法來解決。像氣體或磁自旋這樣的物理系統(tǒng)自然地向平衡演化,其中微觀狀態(tài)遵循玻爾茲曼分布,且一個狀態(tài)的可能性會被其能量指數(shù)級地抑制。現(xiàn)代的采樣方法模仿這一行為,從非物理領(lǐng)域(如機(jī)器學(xué)習(xí)或貝葉斯推斷)中的復(fù)雜分布中生成樣本。像馬爾可夫鏈蒙特卡洛(MCMC)及其變種的算法模擬了物理系統(tǒng)中粒子的隨機(jī)游走,并能夠在高維空間中高效地采樣。基于物理的ASIC有望使離散和連續(xù)變量的采樣更加高效,實(shí)際上是通過將采樣算法還原到其根源來實(shí)現(xiàn)。也就是說,這些ASIC使用實(shí)際的物理系統(tǒng),其動力學(xué)(例如,熱力學(xué)放松)實(shí)現(xiàn)了Langevin蒙特卡洛、貝葉斯推斷或其他采樣協(xié)議。使用Ising機(jī)的概率計(jì)算和使用隨機(jī)電路的熱力學(xué)計(jì)算都是有前景的采樣應(yīng)用方法。
4. 優(yōu)化
優(yōu)化也深受物理學(xué)啟發(fā),因?yàn)槲锢硐到y(tǒng)自然地執(zhí)行優(yōu)化。熱力學(xué)系統(tǒng)朝向最小化自由能的配置演化,推動了相變,如晶體形成和蛋白質(zhì)折疊。自由能最小化的原則與搜索成本或損失函數(shù)全局最小值的優(yōu)化算法相似,類似于物理系統(tǒng)穩(wěn)定到其最穩(wěn)定狀態(tài)的過程。例如,模擬退火明確模擬了金屬的冷卻過程,這一過程消除了原子級缺陷。一些基于物理的ASIC可以執(zhí)行這種退火算法,其中一個抽象的損失函數(shù)被編碼為物理能量函數(shù)。類似地,Langevin動力學(xué)可以視為Wasserstein梯度流。基于物理的ASIC在Langevin動力學(xué)下演化,實(shí)際上是在Wasserstein空間(即概率密度函數(shù)的度量空間)中執(zhí)行梯度下降,因此可以用于在概率分布上進(jìn)行優(yōu)化。組合優(yōu)化,涉及從離散可能性的集合中找到最佳解決方案,可以通過與Ising模型的關(guān)聯(lián)視為物理啟發(fā)。即,二次無約束二進(jìn)制優(yōu)化(QUBO)問題可以映射到Ising模型的能量函數(shù)。Ising機(jī)器利用這一深刻的聯(lián)系高效地解決QUBO問題,并且可以擴(kuò)展到混合變量優(yōu)化。最后,基爾霍夫的電子電路定律可以解釋為一個優(yōu)化問題,其中系統(tǒng)自然最小化能量耗散(受限于約束)。這一點(diǎn)已經(jīng)被用來通過電阻網(wǎng)絡(luò)解決優(yōu)化問題,電阻網(wǎng)絡(luò)作為一個基于物理的ASIC,既可以自我訓(xùn)練,又可以執(zhí)行所需的計(jì)算。
B. 基于物理的應(yīng)用
1. 科學(xué)模擬
基于物理的ASIC最直觀的應(yīng)用之一是模擬物理世界。設(shè)計(jì)新材料并預(yù)測其性能是一項(xiàng)令人興奮的任務(wù),但對當(dāng)前的計(jì)算硬件來說頗具挑戰(zhàn)。基于物理的ASIC可通過物理啟發(fā)的生成式AI(如擴(kuò)散模型)和通過動態(tài)模擬強(qiáng)化材料特性表征,加速材料發(fā)現(xiàn)。分子動力學(xué)(MD)模擬方法已廣泛應(yīng)用于工業(yè),例如在氨合成催化劑設(shè)計(jì)和環(huán)境保護(hù)中。費(fèi)曼曾指出,我們應(yīng)使用物理系統(tǒng)來模擬物理,而MD正是一個例子,基于物理的ASIC可加速分子和材料的動力學(xué)模擬。這包括加速Langevin動力學(xué)、傘形采樣以及躍遷路徑采樣等原語。我們還強(qiáng)調(diào)常被忽視的介觀模擬領(lǐng)域,在此量子效應(yīng)消失,經(jīng)典隨機(jī)熱力學(xué)成為合適框架。基于物理的ASIC將在介觀模擬中發(fā)揮關(guān)鍵作用(如納米結(jié)構(gòu)材料的自組裝和非牛頓流體的流變學(xué)),很可能作為復(fù)雜工程過程多尺度建模的一個組成部分。在更深層次上,介觀層面還存在未解的科學(xué)問題,如生命的起源。基于物理的ASIC可用于驗(yàn)證例如England的耗散驅(qū)動適應(yīng)理論和基于物理的自我復(fù)制出現(xiàn)等機(jī)制,以解釋地球上生命的起源。
2. 模擬數(shù)據(jù)分析
基于物理的神經(jīng)網(wǎng)絡(luò)在處理本質(zhì)上為模擬形式的數(shù)據(jù)方面展現(xiàn)了希望。例如,光學(xué)神經(jīng)網(wǎng)絡(luò)可自然地分析光學(xué)數(shù)據(jù),對音頻數(shù)據(jù)或模擬電信號同樣適用。基于物理的神經(jīng)網(wǎng)絡(luò)通過直接在模擬域執(zhí)行分析,避免了將模擬信號轉(zhuǎn)換到數(shù)字域的開銷。隨著AI變得更加多模態(tài)并更多地與物理世界(如機(jī)器人技術(shù))結(jié)合,這些應(yīng)用將變得尤為重要。
五、路線圖與挑戰(zhàn)
我們預(yù)計(jì)基于物理的ASIC的采用將分為三個階段。第一階段,各研究團(tuán)隊(duì)將利用概念驗(yàn)證硬件展示其基于物理的ASIC架構(gòu)在性能上優(yōu)于在CPU和GPU上運(yùn)行的最先進(jìn)方法。接下來,需要解決關(guān)鍵的可擴(kuò)展性問題,使基于物理的ASIC能夠處理與現(xiàn)有硬件解決方案相當(dāng)規(guī)模和復(fù)雜度的問題。最后,這些擴(kuò)展后的基于物理的ASIC需要集成到系統(tǒng)中,并設(shè)計(jì)軟件抽象,以便輕松運(yùn)行關(guān)鍵計(jì)算工作負(fù)載。
階段一:展示領(lǐng)域特定優(yōu)勢
基于物理的ASIC采用的最重要驅(qū)動力是其在運(yùn)行關(guān)鍵計(jì)算工作負(fù)載時的性能和能效。因此,任何基于物理的ASIC項(xiàng)目的首要目標(biāo)之一,應(yīng)當(dāng)是展示在某個關(guān)鍵工作負(fù)載上優(yōu)于傳統(tǒng)CPU或GPU方法的可行路徑。
關(guān)鍵應(yīng)用的加速
對于某些問題,規(guī)模相對較小的基于物理的ASIC原型能夠表現(xiàn)出優(yōu)于CPU或GPU求解器的性能。例如,對于具有1440個Ising自旋的問題,基于鎖存器的Ising機(jī)在最小化Ising哈密頓量方面,比CPU求解器快1000倍以上。然而,對于更大規(guī)模的問題,由于將數(shù)據(jù)加載到物理ASIC以及從中讀取的成本,這些原型往往無法達(dá)到同樣的加速效果。這凸顯了內(nèi)存帶寬和可擴(kuò)展性是原型系統(tǒng)的關(guān)鍵瓶頸。
另一種證明潛在加速的方法是展示關(guān)鍵的規(guī)模優(yōu)勢。例如,基于耦合振蕩器的模擬Ising機(jī)預(yù)計(jì)在約150個自旋或更大規(guī)模時就能超過GPU求解器的性能。同樣,與最先進(jìn)的數(shù)字方法相比,熱力學(xué)計(jì)算在線性代數(shù)和貝葉斯推斷任務(wù)上具有更優(yōu)的漸近復(fù)雜度,這些復(fù)雜度優(yōu)勢亦可延伸到神經(jīng)網(wǎng)絡(luò)訓(xùn)練等更高層次的應(yīng)用,而后者在GPU上計(jì)算成本極高。
盡管如此,過去摩爾定律的進(jìn)展主要來自于縮小規(guī)模前置因子,而并非改變漸近復(fù)雜度。因此,旨在優(yōu)化前置因子的傳統(tǒng)工程創(chuàng)新仍然至關(guān)重要。
能效
基于物理的ASIC由于可將某些應(yīng)用更自然地映射到物理硬件,因此在能效方面也有望遠(yuǎn)超GPU求解器。研究表明,光學(xué)神經(jīng)網(wǎng)絡(luò)在執(zhí)行每次標(biāo)量乘法時探測的光子數(shù)不到一個,這比基于數(shù)字電路的傳統(tǒng)方法具有根本性的能量優(yōu)勢。同樣,一種帶有全連通耦合振蕩器的模擬Ising機(jī)在解決組合優(yōu)化問題時,其能耗比在CPU上運(yùn)行的最先進(jìn)算法低1–2個數(shù)量級。此外,在由自調(diào)整電阻構(gòu)成的模擬電子網(wǎng)絡(luò)中進(jìn)行物理計(jì)算,相較于數(shù)字計(jì)算,能效節(jié)省潛力可達(dá)百萬倍。
階段二:構(gòu)建可擴(kuò)展物理基底
文獻(xiàn)中展示的大多數(shù)基于物理的ASIC規(guī)模相對較小,尤其與傳統(tǒng)數(shù)字硬件相比。這些工作對于證明基于物理的ASIC概念的可行性非常寶貴,但仍需額外工作,將這些設(shè)計(jì)擴(kuò)展到能夠解決具有工業(yè)意義的現(xiàn)實(shí)問題的程度。
基于tile的ASIC設(shè)計(jì)
例如,提出了“可現(xiàn)場編程的Ising陣列”,利用基于tile的層級結(jié)構(gòu)來實(shí)現(xiàn)更高的效率和可重構(gòu)性。每個tile包含密集的全連通模擬耦合,而tile間的連接則完全由數(shù)字通道組成且較稀疏。這限制了模擬耦合電路的規(guī)模,從而防止了寄生效應(yīng)和噪聲對其性能的顯著退化。基于tile的架構(gòu)以及其他層級架構(gòu)在物理實(shí)現(xiàn)方面也具有實(shí)際優(yōu)勢。tile設(shè)計(jì)可以獨(dú)立于其他tile進(jìn)行設(shè)計(jì)、綜合和布線,然后置于片上網(wǎng)絡(luò)(NoC)中與其他tile通信。當(dāng)每個tile包含模擬或混合信號組件時,這一點(diǎn)尤為重要;如果沒有層級架構(gòu),要在GPU規(guī)模和復(fù)雜度上設(shè)計(jì)并仿真混合信號芯片將極其困難。
可重構(gòu)交互項(xiàng)
許多基于物理的ASIC也難以支持密集型問題。它們通常只能支持固定的圖拓?fù)洌枰浖⑷我鈫栴}映射到該固定拓?fù)洹_@一過程稱為次要嵌入,其計(jì)算開銷高昂,并且可能在大規(guī)模或復(fù)雜問題上失敗。顯然,需要更好的硬件支持來應(yīng)對不同稀疏模式的圖結(jié)構(gòu)。
為此,提出了一種p比特計(jì)算架構(gòu),使用可重構(gòu)的主圖來支持不同稀疏模式的圖。這種方法保留了稀疏連接的可擴(kuò)展優(yōu)勢:每個p比特的鄰居數(shù)量保持不變,因此硬件利用率隨規(guī)模線性擴(kuò)展,且隨著p比特?cái)?shù)量增加,最大工作頻率保持大致恒定。
通過利用模塊化、可tile化的計(jì)算單元和可重構(gòu)耦合,基于物理的ASIC有望擴(kuò)大到與GPU相當(dāng)?shù)囊?guī)模,同時支持多種不同稀疏模式的問題。
階段三:集成到混合系統(tǒng)
一旦展示出大規(guī)模的基于物理的ASIC,就需要從硬件和軟件兩方面將其集成到實(shí)用的大規(guī)模系統(tǒng)中。
異構(gòu)硬件平臺
由于基于物理的ASIC專門用于解決某些類型的計(jì)算問題,我們預(yù)計(jì)它們將部署在所謂的異構(gòu)系統(tǒng)中,與傳統(tǒng)GPU和CPU協(xié)同工作。例如,曾提出一種超級計(jì)算系統(tǒng),結(jié)合了多臺網(wǎng)絡(luò)化的概率處理器、傳統(tǒng)GPU和量子處理器。這樣的系統(tǒng)能夠高效加速能量基模型(EBM),使用GPU處理大型矩陣?向量運(yùn)算(如嵌入計(jì)算和梯度計(jì)算),同時使用概率處理器模擬神經(jīng)元的隨機(jī)操作。
標(biāo)準(zhǔn)軟件抽象
為了使基于物理的ASIC獲得廣泛采納,它們需要對不熟悉底層物理過程的軟件工程師友好。實(shí)際上,這意味著基于物理的ASIC應(yīng)利用用戶已熟悉的標(biāo)準(zhǔn)軟件抽象,如PyTorch和JAX。例如,已經(jīng)為電學(xué)和光子Ising機(jī)開發(fā)了基于Python的編程模型。為了讓用戶在基于物理的ASIC上運(yùn)行更復(fù)雜的工作負(fù)載,可能需要一個編譯層。我們的愿景是,用戶只需在PyTorch或JAX中編寫一個程序,即可自動編譯并在由CPU、GPU和基于物理的ASIC組成的混合系統(tǒng)上運(yùn)行,使每種芯片都用于其最擅長的工作負(fù)載部分。
六、結(jié)論
A. 領(lǐng)域愿景
隨著傳統(tǒng)擴(kuò)展進(jìn)入平臺期,基于物理的ASIC不僅提供了一種可行的替代方案,更是計(jì)算方式的必要演進(jìn)。這個新興領(lǐng)域利用自然的物理過程,而不是對抗它們。標(biāo)準(zhǔn)計(jì)算為了滿足抽象出硅物理特性的假設(shè),消耗了大量能源。通過放寬這些假設(shè),我們的領(lǐng)域旨在解決當(dāng)今計(jì)算硬件中的不可持續(xù)能耗。此外,我們致力于加速那些制約AI工作負(fù)載的關(guān)鍵應(yīng)用:采樣、生成式AI、優(yōu)化、神經(jīng)網(wǎng)絡(luò)訓(xùn)練與推理,甚至其他物理系統(tǒng)的模擬。
未來的道路不會由單一架構(gòu)或通用解決方案定義。可以想象,高性能計(jì)算(HPC)平臺將由多個基于物理的ASIC組成,每個ASIC專注于不同角色。例如,多尺度物理建模的HPC平臺可以集成在原子級、微觀、介觀和宏觀四個層次上運(yùn)行的ASIC,每個層次的硬件都針對其物理范疇進(jìn)行優(yōu)化。同樣,面向模型的強(qiáng)化學(xué)習(xí)HPC平臺也可由異構(gòu)計(jì)算堆棧構(gòu)成,針對特定應(yīng)用進(jìn)行性能優(yōu)化,不同ASIC分別負(fù)責(zé)采樣、優(yōu)化和物理仿真等子程序。
能量和時間在物理學(xué)中具有基礎(chǔ)性作用,在計(jì)算中亦然。這并非巧合,因?yàn)槲锢頌樵u估計(jì)算性能提供了統(tǒng)一框架。例如,能量?時間權(quán)衡(更廣義的能量?時間?精度權(quán)衡)在基于物理的ASIC中自然而然地出現(xiàn),同樣也適用于理解標(biāo)準(zhǔn)數(shù)字計(jì)算的復(fù)雜性。這暗示了對計(jì)算復(fù)雜性進(jìn)行統(tǒng)一處理的可能性,這將是平等比較不同計(jì)算范式的關(guān)鍵。
基于物理的ASIC為超越傳統(tǒng)擴(kuò)展極限的計(jì)算提供了新途徑。在未來兩年內(nèi),我們預(yù)計(jì)會看到越來越多的實(shí)驗(yàn)證明基于物理的ASIC相較于標(biāo)準(zhǔn)硬件具備性能優(yōu)勢。初期的驗(yàn)證或?qū)⒄故驹谙嗤阅芩较碌木薮竽苄嵘罄m(xù)演示可能解鎖標(biāo)準(zhǔn)硬件無法實(shí)現(xiàn)的新功能。這些新功能或包括可擴(kuò)展的無近似貝葉斯推斷以支持可靠的AI預(yù)測、大規(guī)模高精度分子動力學(xué)模擬,或在邊緣設(shè)備中實(shí)現(xiàn)對模擬物理數(shù)據(jù)的快速分析。
B. 行動呼吁
實(shí)現(xiàn)這一愿景將受益于一個活躍、不斷壯大的熱情開發(fā)者社區(qū)。我們重點(diǎn)指出了以下幾個需要采取行動的關(guān)鍵領(lǐng)域:
識別一組GPU不擅長的應(yīng)用。 GPU擅長并行計(jì)算,但不一定擅長順序計(jì)算。例如,模擬物理動力學(xué)應(yīng)用在時間上是順序的,對GPU而言具有挑戰(zhàn)性。雖然許多物理模擬可以在子系統(tǒng)(如單個粒子)之間并行化,但僅靠并行處理所能獲得的性能優(yōu)勢是有限的;總體運(yùn)行時間始終受限于最長順序步驟鏈長度與單步延遲的乘積。因此,在高度并行的場景中,性能最終將受制于仿真步驟的時延,而非總計(jì)算吞吐量。
為基于物理的ASIC協(xié)同設(shè)計(jì)算法。 變換器已與GPU共同設(shè)計(jì)。我們的領(lǐng)域同樣需要算法與應(yīng)用社區(qū)的廣泛參與,開發(fā)新算法,并在已有算法中重新分配復(fù)雜度,以提升基于物理的ASIC的性能優(yōu)勢。
構(gòu)建基于物理的ASIC全棧。 這一新硬件需要編譯器和用戶界面,以獲得社區(qū)的廣泛采用。開源軟件可能是推廣應(yīng)用的關(guān)鍵要素。此外,為基于物理的ASIC開發(fā)模擬器將有助于普及這一領(lǐng)域。
以無需物理或電氣工程背景也能理解的方式闡釋我們的目標(biāo)與方法,降低與計(jì)算機(jī)科學(xué)家之間開展有意義交流的門檻。
C. 領(lǐng)域的緊迫性
最后,我們認(rèn)為,社會面臨的與計(jì)算相關(guān)的危機(jī)——從AI能源危機(jī)到計(jì)算成本危機(jī),再到關(guān)鍵擴(kuò)展定律的終結(jié)——賦予了我們這一領(lǐng)域緊迫性。多重危機(jī)可通過單一技術(shù)來應(yīng)對,這為我們提供了獨(dú)特的機(jī)遇。此外,這一技術(shù)也受到AI異常快速崛起的推動。顯然,AI已成為催生基于物理的ASIC這一新領(lǐng)域的經(jīng)濟(jì)驅(qū)動力,因此這兩個領(lǐng)域密切相關(guān)。隨著AI不斷向物理世界靠近,基于物理的ASIC未來有望為AI提供物理化身。
「致謝本文作者」
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4100期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.