99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當前處理器架構(gòu),還有哪些提升機會?

0
分享至

公眾號記得加星標??,第一時間看推送不會錯過。

來源:內(nèi)容來自semiengineering。

多年來,處理器一直專注于性能,而性能幾乎無需對其他任何因素負責。性能仍然重要,但現(xiàn)在它必須對功耗負責。

如果性能的小幅提升導致功耗不成比例地增加,設(shè)計人員可能需要放棄這些改進,轉(zhuǎn)而采用更具能效的方案。盡管當前的架構(gòu)在性能和功耗方面持續(xù)穩(wěn)步改進,但進一步的提升正變得越來越困難。

Cadence Tensilica 音頻/語音 DSP 產(chǎn)品營銷總監(jiān) Prakash Madhvapathy 表示:“每個人都在重新設(shè)計他們的微架構(gòu),看看如何改進它們以控制功耗?!?/p>

許多旨在提高計算吞吐量的處理器功能,例如亂序執(zhí)行,增加了復雜的電路,從而提高了功耗和電路面積。由于功耗成本,類似的改進在今天可能不會被接受。那么,我們當前的處理器架構(gòu)還有哪些機會呢?

高效實現(xiàn)還不夠好

許多提高效率的努力都涉及對現(xiàn)有架構(gòu)的更好設(shè)計,并且在這方面仍然可以取得一些進展。Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 表示:“在實現(xiàn)方面,有很多節(jié)能技術(shù)?!?/p>

一種非常基本的方法是利用工藝改進,以更少的功耗完成更多工作?!澳柖刹⑽聪觯盨winnen 說,“我們?nèi)栽讷@得更小的工藝技術(shù),這始終是降低功耗的首要方法。它很快就會耗盡,但還沒有完全耗盡?!?/p>

這也可以推動工藝決策?!爱斈氵x擇某個工藝節(jié)點時,你也需要考慮能效,”Madhvapathy 說,“22納米基本上是28納米,但能耗特性好得多?!彼赋?,12納米是另一個用于高效設(shè)計的流行節(jié)點。

3D-IC 提供了一個新的功耗點,介于單片芯片和 PCB 級組件之間?!?D-IC 的功耗將高于單片芯片,但 3D-IC 的功耗更低、速度更高,比通過傳統(tǒng) PCB 走線連接的多個芯片實現(xiàn)方案要好得多,”Swinnen 指出。

共封裝光學器件(CPO)使光學器件更接近硅片,這也可以降低功耗,但這已經(jīng)醞釀了很長時間?!癈PO 已經(jīng)存在很長時間了,但從經(jīng)濟上很難證明其技術(shù)復雜性是合理的,而且最終的權(quán)衡不一定有利,”Swinnen 解釋說,“這種情況似乎正在轉(zhuǎn)變。部分原因是技術(shù)變得更好,部分原因是高速數(shù)字通信的需求變得如此強烈,以至于人們愿意為此支付更多費用。”

并非所有技術(shù)都實用

有些實現(xiàn)技術(shù)聽起來很有趣,但也帶來了自己的挑戰(zhàn)。異步設(shè)計就是其中之一?!皬暮玫姆矫鎭碚f,每個寄存器都盡可能快地與下一個寄存器通信,”Swinnen 解釋道,“沒有中央時鐘,所以整個時鐘架構(gòu)消失了。你沒有松弛時間,即一個數(shù)據(jù)路徑等待另一個數(shù)據(jù)路徑。它已經(jīng)存在了幾十年,但除了在特定情況下,它未能突破,因為性能是不可預測的。猜測時序會是怎樣的,而且由于工藝變化,每個芯片都可能略有不同。”

最終它是否真的能節(jié)省功耗也尚不清楚。“自定時握手意味著觸發(fā)器必須復雜得多,”Swinnen 說,“當你把所有這些都算進去時,所有觸發(fā)器都消耗更多的電量。還有一個問題是:‘所有這些復雜性和不可預測性最終真的能為你節(jié)省多少電量嗎?’總而言之,它并沒有真正成為一種設(shè)計方法?!?/p>

還可以通過數(shù)據(jù)和時鐘門控來抑制雜散功耗或毛刺功耗以降低功耗?!斑@會增加面積,但對雜散功耗的影響可能相當大,”Madhvapathy 說。

這需要分析來確定主要貢獻者。Swinnen 指出:“它不僅可以測量毛刺功耗,還可以識別導致此毛刺的原因?!?/p>

最終,在實現(xiàn)層面上的影響是有限的。Swinnen 說:“在 RTL 層面你能走多遠是有限制的,這很諷刺,因為大部分的功耗節(jié)約機會都在 RTL 層面。”“最大的好處實際上是在架構(gòu)層面?!?/p>

昂貴的功能

人工智能 (AI) 計算已將設(shè)計團隊推向內(nèi)存墻,因此,鑒于業(yè)界對 AI 訓練和推理的關(guān)注,大量精力都集中在如何在不“燒毀房子”的情況下,將數(shù)萬億個參數(shù)在需要時放置在需要的位置。但處理器本身也會消耗能量,而其他工作負載將呈現(xiàn)出執(zhí)行功耗和數(shù)據(jù)移動功耗之間的不同平衡。

盡管時鐘頻率繼續(xù)逐漸攀升,但這些變化對性能提升的推動作用已不如從前。改進的真正目標一直是努力使處理器盡可能多地保持忙碌。三個架構(gòu)特性可以說明為實現(xiàn)這些增益所做的復雜改變——推測執(zhí)行(也稱為分支預測)、亂序執(zhí)行和有限并行性。

推測執(zhí)行的目的是避免在進入分支指令后必須等待結(jié)果才能決定遵循哪個分支的情況。等到那時再決定會延遲結(jié)果,直到系統(tǒng)從 DRAM 獲取分支結(jié)果所指示的指令為止。相反,它會推測性地遵循一個分支——希望能是最有可能的分支。通常,分支決策的完成會驗證該決策,但有時不會。此時,必須回溯推測性計算并重新啟動另一個分支(包括從 DRAM 獲取潛在指令)。

分支預測通常伴隨著亂序執(zhí)行,這是一種允許某些指令以與程序中出現(xiàn)順序不同的順序執(zhí)行的特性。其思想是,當一個指令可能因等待數(shù)據(jù)而停滯時,另一個后續(xù)指令現(xiàn)在已準備好。請注意,后一個指令不能依賴于前一個指令,但串行編程范式的主要限制之一是指令必須按順序排列,即使它們之間沒有依賴關(guān)系。因此,亂序執(zhí)行是一個復雜的系統(tǒng),可以提前啟動多個指令,確保遵守原始程序語義。

面積 vs. 性能

這些系統(tǒng)并不簡單,而且它們的成本可能與其效益不成比例,具體取決于它們的構(gòu)建方式。西門子 EDA 高級綜合部門項目總監(jiān) Russ Klein 表示:“例如,分支預測器會保留一份已執(zhí)行分支的列表。”“就像緩存一樣,該列表通常使用分支目標的最低 N 位作為哈希鍵,指向已執(zhí)行分支的列表。因此,N 可以是 4 或 16 或更多,列表中的條目數(shù)可以是 1 或 2 或 32。你可以存儲完整的目標分支地址,或者可能只存儲最低 12 或 16 位。一個更大、更詳細的已執(zhí)行分支內(nèi)存會帶來更好的性能,但顯然會占用更多空間(和功耗)?!?/p>

由此產(chǎn)生的效益也會相應變化。Klein 解釋說:“一個小型簡單的分支預測器可以使處理器提速 15%,而一個大型復雜的預測器可以使性能提升 30%。但它可能比小型簡單的預測器大 10 倍(或更多)。”“就面積而言,誰會在乎,但對于功耗來說,這確實是一個大問題?!?/p>

Cadence 通過重構(gòu)一些編解碼器來提高它們的性能,生成了分支較少的代碼。Madhvapathy 表示:“我們看到性能提升了大約 5% 到 15%。”“編解碼器中的分支數(shù)量少于 5%,在內(nèi)部執(zhí)行循環(huán)中幾乎沒有,我們使用了 ZOL(零開銷循環(huán))。”

更普遍地,該公司發(fā)現(xiàn)在典型程序中存在更多分支?!皩嶋H代碼中約有 20% 的指令是分支,”Madhvapathy 說,“這些都代表了推測執(zhí)行的機會。性能提升可達 30% 或更高,因為每周期平均執(zhí)行的指令數(shù)顯著增加——即使其中一半預測成功??傞_銷 [分支預測和亂序執(zhí)行] 可能在 20% 到 30% 之間?!?/p>

Klein 回憶起 Tilera 的創(chuàng)始人 Anant Agarwal 討論的“殺戮法則”。他說:“殺戮法則指出,如果你要將一個功能添加到你的 CPU 中,它會增加面積,如果增加的面積大于你獲得的性能提升,那么你就不要添加這個功能?!?/p>

并行計算是“簡單”的答案

并行性顯然是提高性能的另一種方法,但當前處理器中可用的并行性是有限的。當今主流處理器提供并行性的方式有兩種——通過實例化多個核心,以及通過核心內(nèi)的多個功能單元。

功能單元是過去簡單的算術(shù)邏輯單元 (ALU)。它執(zhí)行實際指令。一個給定的功能單元通常能夠執(zhí)行一些超出簡單數(shù)學的指令。它們還可能包括乘法器、除法器、地址生成,甚至分支。通過提供多個這樣的單元,當一個單元忙碌時,另一個單元可能可以處理不同的指令,這可能是亂序的。

不同的處理器有不同數(shù)量的功能單元,代碼分析有助于確定其中指令支持的組合和分布。這有助于在可能的情況下并行化指令執(zhí)行,但處理器開銷——例如指令獲取——是串行發(fā)生的。

真正并行化計算是提高性能的最佳機會之一,而且對于一個不那么復雜的處理器來說,它可能更省電。但這樣的解決方案并非新鮮事。多核處理器在十多年前就已經(jīng)商業(yè)化,但未能獲得成功。

很少有算法是完全可并行化的。那些可并行化的通常被稱為“令人尷尬的并行”。其他所有算法都混合了可并行化代碼和必須串行運行的段。阿姆達爾定律將這些串行部分確定為最終限制因素。有些程序可以高度并行化,有些則不能。但即使算法看起來不并行,也可能存在其他機會。

分形就是一個例子?!澳愕?f(x) 是 f(x-1),”Klein 解釋說,“每個像素都通過一個長的串行鏈單獨計算。但如果你正在處理一張圖像,你有 1024 x 1024,或者無論圖像大小是多少,因此你有很多并行機會 [通過同時計算多個像素]。”

如今,數(shù)據(jù)中心服務器的處理器擁有多達約 100 個核心。但與以前的多核處理器不同,它們不用于單個程序。它們允許為需要云計算的不同用戶執(zhí)行多個程序。

并行化的問題

即使它們可以并行化,問題是處理器必須并行編程。這通常意味著顯式管理代碼的并行性,例如通過調(diào)用 pThreads。這比典型的編程要麻煩得多,需要了解數(shù)據(jù)依賴性以確保滿足按順序執(zhí)行的語義。盡管已經(jīng)存在一些幫助此操作的工具,但沒有一個進入主流軟件開發(fā)領(lǐng)域。

此外,手動管理并行性可能需要針對不同處理器編寫不同的程序。如果所需的線程數(shù)多于給定處理器在硬件中可以管理的線程數(shù),程序可能會運行但可能不理想。轉(zhuǎn)而使用軟件并行性可能會由于上下文切換開銷而損害性能。

最大的問題是軟件開發(fā)者對顯式并行編程不屑一顧。人們強烈希望任何新事物都可以使用當前的編程方法進行編程?!败浖藛T已經(jīng)徹底拒絕了 100 核處理器的概念,除了我們開始看到它滲透進來的一個領(lǐng)域——GPU 和 TPU,”Klein 觀察到。

這就是為什么多核處理器在商業(yè)上失敗的原因。即便如此,并行化主要還是為了性能。降低功耗需要一個適度的核心和激進的降功耗策略,以便空閑的核心不會消耗能量。并行化還有助于恢復可能因使核心更高效而損失的整體性能。

“我的論點是,一個由大量非常簡單的 CPU 組成的陣列是可行之路,但這確實需要改變編程方法,”他說,“我對此發(fā)生的唯一希望是 AI 能夠創(chuàng)建并行編譯器,這是我們作為一個行業(yè)從未能夠做到的?!?/p>

我們今天處理通用處理器上出現(xiàn)瓶頸的算法的實用方法是采用加速器作為非阻塞卸載,這樣加速器可以有效地處理其任務,而 CPU 則做其他事情(或休眠)。

加速器可以寬泛也可以狹窄

各種類型的加速器已經(jīng)存在了幾十年。今天,人們對那些能夠加速訓練和推理的加速器投入了大量關(guān)注,因為它們需要非常特定的密集計算。但這類加速器并非新生事物。

“異構(gòu)計算結(jié)合了處理核心,以提供優(yōu)化的功耗和性能,”Expedera 營銷副總裁 Paul Karazuba 說,“這顯然包括 NPU。NPU 解決了所有 AI 處理,避免了效率較低的 CPU 和 GPU。然而,并非所有 NPU 都生而平等——不僅在方法上,而且在架構(gòu)和利用率上也是如此。”

這是因為加速器可能高度特定——甚至是定制的——而另一些則保持更通用。Karazuba 繼續(xù)說:“如果 AI 工作負載眾所周知且穩(wěn)定,定制 NPU 可以顯著提高功耗和成本效率?!薄叭绻阈枰`活性以支持多個模型或未來的 AI 趨勢,通用 NPU 更具適應性,并且更容易與現(xiàn)有軟件生態(tài)系統(tǒng)集成。”

定制加速器將使其更具體地適應其工作負載,這種努力應該會提高能效。

Karazuba 說:“提高處理器子系統(tǒng)效率(特別是 NPU)的一種方法是創(chuàng)建更側(cè)重于應用的 NPU,而不是采用更通用的 NPU。”“定制 NPU 通常使用專門的 MAC 陣列和執(zhí)行管道,這些管道可能針對特定數(shù)據(jù)類型和模型結(jié)構(gòu)進行調(diào)整。通用 NPU 包含可配置的計算單元,支持多種數(shù)據(jù)類型,并且通常處理更廣泛的層和運算符?!?/p>

舍棄給定任務不必要的功能可以產(chǎn)生顯著的效果。Expedera 在實際應用中通常會發(fā)現(xiàn),部署定制 NPU 后,處理器效率(以 TOPS/W 衡量)提高了約 3 到 4 倍,利用率(定義為實際吞吐量/理論最大吞吐量)提高了 2 倍以上。

當我們黔驢技窮時會發(fā)生什么?

顯然,在提高處理器和處理子系統(tǒng)的效率方面,仍有一些機會。但在不遠的將來,我們可能會面臨創(chuàng)意枯竭的風險。那時會發(fā)生什么?

這時,新的處理器架構(gòu)可能就會派上用場。然而,鑒于當前架構(gòu)所依賴的龐大生態(tài)系統(tǒng),這種改變并非易事。幸運的是,有一些新的架構(gòu)理念,以及放棄部分通用性的可能性。

https://semiengineering.com/can-todays-processor-architectures-be-made-more-efficient/

*免責聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個人觀點,半導體行業(yè)觀察轉(zhuǎn)載僅為了傳達一種不同的觀點,不代表半導體行業(yè)觀察對該觀點贊同或支持,如果有任何異議,歡迎聯(lián)系半導體行業(yè)觀察。

今天是《半導體行業(yè)觀察》為您分享的第4100期內(nèi)容,歡迎關(guān)注。

加星標??第一時間看推送,小號防走丟

求推薦

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
90分鐘戰(zhàn)報:申花2-2河南,馬納法世界波扳平,卡多索進球被吹

90分鐘戰(zhàn)報:申花2-2河南,馬納法世界波扳平,卡多索進球被吹

懂球帝
2025-07-23 21:04:54
煥然一新的紅魔?阿莫林的夢想11人,在姆貝烏莫之后還有三筆轉(zhuǎn)會

煥然一新的紅魔?阿莫林的夢想11人,在姆貝烏莫之后還有三筆轉(zhuǎn)會

夜白侃球
2025-07-23 20:11:29
沒了貴人撐腰,內(nèi)娛的殘酷,在景甜37歲生日這天,展現(xiàn)得淋漓盡致

沒了貴人撐腰,內(nèi)娛的殘酷,在景甜37歲生日這天,展現(xiàn)得淋漓盡致

洲洲影視娛評
2025-07-23 18:30:06
外媒放出消息,伊朗已備戰(zhàn),中俄伊三國會談!特朗普把大話說早了

外媒放出消息,伊朗已備戰(zhàn),中俄伊三國會談!特朗普把大話說早了

三毛看世界
2025-07-23 17:19:14
2600萬搶下女兒,長大繼承弱精前夫50億資產(chǎn)!賈靜雯的清醒,夠狠

2600萬搶下女兒,長大繼承弱精前夫50億資產(chǎn)!賈靜雯的清醒,夠狠

新語愛八卦
2025-07-22 16:31:56
30國都打不倒一個俄羅斯?最大的靠山出現(xiàn)了,連老美都垂涎三尺

30國都打不倒一個俄羅斯?最大的靠山出現(xiàn)了,連老美都垂涎三尺

史紀文譚
2025-07-21 16:10:50
女籃眾將發(fā)文告別!4朝元老有意宣退,王思雨晚上發(fā)文不甘心

女籃眾將發(fā)文告別!4朝元老有意宣退,王思雨晚上發(fā)文不甘心

趙昉是個熱血青年
2025-07-23 12:25:44
賈躍亭騙倒美國:新MPV被爆貼牌,1小時訂單破萬,增發(fā)融資7億

賈躍亭騙倒美國:新MPV被爆貼牌,1小時訂單破萬,增發(fā)融資7億

智能車參考
2025-07-23 08:36:44
特朗普回應“訪華計劃”

特朗普回應“訪華計劃”

環(huán)球時報新聞
2025-07-23 13:41:17
江蘇揚州市原市長潘國強調(diào)任福建寧德市委副書記

江蘇揚州市原市長潘國強調(diào)任福建寧德市委副書記

澎湃新聞
2025-07-23 11:52:26
廣東省基孔肯雅熱疫情防控工作會議在佛山召開:統(tǒng)一高效防蚊滅蚊

廣東省基孔肯雅熱疫情防控工作會議在佛山召開:統(tǒng)一高效防蚊滅蚊

澎湃新聞
2025-07-23 17:51:00
7號臺風“范斯高”向浙江沿??拷罡?-10級!寧波、臺州、溫州啟動海上防臺風應急響應

7號臺風“范斯高”向浙江沿??拷?,最高9-10級!寧波、臺州、溫州啟動海上防臺風應急響應

魯中晨報
2025-07-23 20:43:21
遺產(chǎn)風波沸沸揚揚,“一聲不吭”的宗馥莉,終于不再顧及所謂體面

遺產(chǎn)風波沸沸揚揚,“一聲不吭”的宗馥莉,終于不再顧及所謂體面

小丸子的娛樂圈
2025-07-21 12:23:40
2025養(yǎng)老金調(diào)整迎來最新消息,及時發(fā)放下,企退事退補發(fā)相差多少

2025養(yǎng)老金調(diào)整迎來最新消息,及時發(fā)放下,企退事退補發(fā)相差多少

興史興談
2025-07-23 14:48:04
金牌夢重燃!李夢韓旭王思雨壓陣,中國女籃迎來最豪華組合

金牌夢重燃!李夢韓旭王思雨壓陣,中國女籃迎來最豪華組合

慢歌輕步謠
2025-07-23 18:02:30
曾經(jīng)“日入百萬”的網(wǎng)紅郭有才,光芒散盡后,如今的他過得如何?

曾經(jīng)“日入百萬”的網(wǎng)紅郭有才,光芒散盡后,如今的他過得如何?

阿綏談史
2025-07-21 18:16:39
7月23日俄烏:以色列外長訪烏,澤連斯基引發(fā)巨大爭議

7月23日俄烏:以色列外長訪烏,澤連斯基引發(fā)巨大爭議

山河路口
2025-07-23 17:43:11
麗江反殺案回顧:退伍女兵唐雪為自衛(wèi)反殺1米9挑釁男,后來如何了

麗江反殺案回顧:退伍女兵唐雪為自衛(wèi)反殺1米9挑釁男,后來如何了

談史論天地
2025-07-22 18:00:03
90分鐘-申花2-2河南進加時 阿蘇埃連場破門卡多索讀秒絕殺被吹

90分鐘-申花2-2河南進加時 阿蘇埃連場破門卡多索讀秒絕殺被吹

直播吧
2025-07-23 21:04:28
戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

戶口博弈:男子拿到北京戶口就跳槽,戶口被公司直接遷到湖北宜昌

黑哥講現(xiàn)代史
2025-07-18 11:40:12
2025-07-23 21:47:00
半導體行業(yè)觀察 incentive-icons
半導體行業(yè)觀察
專注觀察全球半導體行業(yè)資訊
11332文章數(shù) 34610關(guān)注度
往期回顧 全部

數(shù)碼要聞

華碩ProArt AI專業(yè)創(chuàng)作本亮相BIRTV2025,彰顯移動創(chuàng)作全能風采

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 最新調(diào)查結(jié)論公布

頭條要聞

中國女子在馬爾代夫遭酒店管家性侵 最新調(diào)查結(jié)論公布

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

藝術(shù)
游戲
本地
數(shù)碼
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《無主之地4》制作團隊專訪:腳踏實地"/> 主站 商城 論壇 自運營 登錄 注冊 《無主之地4》制作團隊專訪:腳踏實地 廉頗 2025-07-23 返回...

本地新聞

這雙丑鞋“泰”辣眼,跪求內(nèi)娛不要抄作業(yè)

數(shù)碼要聞

華碩將推嬌蘭聯(lián)名 a 豆 14 Air 香氛版筆記本禮盒,附 75ml 香水

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 理塘县| 武山县| 东方市| 绩溪县| 闵行区| 绿春县| 左权县| 大邑县| 贵德县| 桂阳县| 隆子县| 宝清县| 蒙山县| 武定县| 桐城市| 井冈山市| 咸宁市| 荣成市| 绥宁县| 建始县| 方城县| 浦江县| 武清区| 昂仁县| 南陵县| 抚宁县| 桂平市| 永吉县| 师宗县| 新蔡县| 武安市| 海阳市| 灵丘县| 庆阳市| 兴国县| 巨野县| 尤溪县| 区。| 深水埗区| 阳春市| 清苑县|