99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

獨享MRDIMM有多強?至強6性能核處理器的內存二三事

0
分享至

至強6性能核處理器發布之初,我們發布了一篇技術解析(算力存力Buff都疊滿,至強6最強形態現身!),主要使用了HotChips等會議的資料。事后看來,我們當時對英特爾在發布會后提供的資料還沒有吃透,至少遺漏了兩個比較關鍵的細節,而且,這兩個細節與內存的關系都很大。

至強6性能核的核心規模

在之前的文章中,我們預計至強6性能核處理器每顆計算單元芯片中的內核數量為43,加上每個計算單元有兩組雙通道內存控制器各占一個網格,那么總共占用43+2=45個網格,可以由5×9的布局構成。但這個假設有一個問題,要構成128核的6980P,三顆芯片只屏蔽1個內核,這良率要求比較高啊。



至今還未在公開渠道看到至強6性能核處理器的Die shot或架構圖,但英特爾發布了晶圓照片作為宣傳素材。雖然晶圓照片并不能提供每顆芯片的清晰信息,但隱約能感覺到,網格構成更像是5×10,而不是5×9或6×8。另外,左上角和左下角疑似內存控制器的區域面積比預想的要大得多,每一側占了三個網格。如果接受了兩組內存控制器共占用6個網格的設定,那么每個芯片中就是50-6=44個內核,在構成6980P的時候分別屏蔽一到兩個核即可,感覺就合理多了。



在獲得相對可信的內核數量后,新的疑惑就是:為什么至強6性能核的內存控制器這么占地——這個區域有其他未知功能?還是因為增加了MRDIMM (Multiplexed Rank DIMM)的支持?畢竟在此之前,英特爾的雙通道DDR5、三通道DDR4內存控制器只占一個網格,甚至,連信號規模更大、帶寬更高的HBM控制器(至強CPU Max處理器)也是一個網格。至強CPU Max處理器的HBM2e是工作在3,200MT/s,那么每個控制器帶寬是410GB/s,整顆CPU有超過2TB/s的HBM帶寬。

雖然對疑似內存控制器區域所占芯片面積的疑惑未解,還需要進一步解惑,但我們至少可以確定,英特爾在這一代至強的內存控制器上是下了大本錢的。至少在相當一段時間內,它是可以“獨占”MRDIMM的優勢了。

至強6性能核的NUMA與集群模式

談服務器的內存就繞不過NUMA(Non-UniformMemoryAccess,非統一內存訪問)。因為隨著CPU內核數量的增加,各內核的內存訪問請求沖突會迅速增加。NUMA是一個有效的解決方案,將內核分為若干組,分別擁有相對獨立的緩存、內存空間。規模縮小后,沖突就會減少。一般來說,NUMA劃分的原則是讓物理上臨近某內存控制器的內核為一個子集。這個子集被英特爾稱為SUB-NUMA Clustering,簡稱SNC。同一SNC的內核綁定了末級緩存(LLC)和本地內存,訪問時的時延最小。

譬如,在第三代至強可擴展處理器中,一個CPU內可劃分兩個SNC域,每個SNC對應一組三通道DDR4內存控制器。如果關閉NUMA,那么整個CPU的內存將對稱訪問。



而第四代至強可擴展處理器使用了4顆芯粒的封裝,可以被劃分為2個或4個SNC域。如果希望每個內核可以訪問所有的緩存代理和內存,可以將第四代至強可擴展處理器設置為Hemisphere Mode或者Quadrant Mode,默認是后者。第五代至強可擴展處理器是2顆芯粒,可以劃分為兩個SNC域。





在至強6性能核中,可以將每個計算單元芯片作為一個SNC,每個域擁有4個內存通道,這被稱為SNC3 Mode。如果要通過其他芯粒的緩存代理訪問所有內存,那就是HEX Mode。



根據英特爾提供的數據,幾種不同模式的內存訪問時延差異較大,與內核、內存控制器之間的“距離”直接相關。至強6性能核的內核規模、內存控制器數量增加之后,相應的訪問時延也會上升。例如,根據我們前面的觀察,至強6性能核內每個計算單元芯片中,內核與內存控制器的最遠距離為10列,而第四代/第五代至強可擴展處理器無NUMA的為8列。這反映在英特爾的數據上,就是至強6900P在SNC3 Mode的時延略高于上一代至強處理器的Quad Mode。如果至強6900P設為HEX Mode,那么內核與內存控制器的最遠距離將達到13甚至15列,時延增加會比較明顯。

整體而言,由于SNC3 Mode時延低,其將成為至強6服務器的默認模式。這種模式主要是適合虛擬化/容器化這類常見云應用,以及并行化程度高的計算(如編解碼)等。當然,HEX Mode可以直接訪問更大規模的內存,這對于大型數據庫,尤其是以OLTP為代表的應用來說更為有利。Oracle和SQL通常建議關閉NUMA以獲得更佳的性能。Apache Cassandra 5.0這類引入向量搜索的數據庫也能從HEX Mode顯著獲益。部分科學計算也更適合HEX Mode,譬如通過偏微分方程建模的PETSs、分子動力學軟件NAMD等。

HEX Mode的另一個典型場景是配合CXL內存使用。譬如英特爾在今年12月11日發布的一篇利用CXL內存優化系統內存帶寬的論文中,使用了至強6900P搭配12條64GB DDR5 6400以及8個128GB CXL內存模塊,其中至強6900P本地的768GB DDR5內存在HEX Mode下配置為NUMA0,所有的1TB CXL內存配置為 UMA1,采用優化交錯配置(Interleaving Strategy)。測試表明,在內存帶寬敏感的應用中,使用CXL內存擴展可以提升20%~30%的性能。



MRDIMM領跑者

對于至強6性能核處理器而言,提升內存帶寬最直接的方法莫過于MRDIMM。這也是這款處理器相比其他同類產品比較獨占的一項能力,近期看不到任何其他CPU廠商有明確支持MRDIMM的時間表,更不要說推出實際產品了。相對而言,內存廠商對MRDIMM的支持比較積極,美光、SK海力士、威剛都推出了相應的產品,包括高尺寸(Tall formfactor,TFF)。第一代DDR5 MRDIMM的目標速率為8,800 MT/s,未來會逐步提升至12,800 MT/s、17,600 MT/s。

MRDIMM增加了多路復用數據緩沖器(MDB),改進了寄存時鐘驅動器(MRCD)。MDB布置在內存金手指附近,與主機側的CPU內存控制器通訊。MDB主機側的運行速度是DRAM側的雙倍,DRAM側的數據接口是主機側的雙倍。MRCD可以生成4個獨立的芯片選擇信號(標準的RCD是兩個,對應兩個Rank)。MDB可通過兩個數據接口將兩個Rank分別讀入緩沖區,再從緩沖區一次性傳輸到CPU的內存控制器,由此實現了帶寬翻倍。



由于MRCD可以支持4個Rank,也意味著可以支持雙倍的內存顆粒。已經展示的MRDIMM普遍引入更高的板型(TFF),單條容量也由此倍增。由于至強6900P插座尺寸大增,導致雙路機型的內存槽數量從上一代的32條減少到24條。要能夠繼續擴展內存容量,增加內存條的面積(增加高度)確實是最簡單直接的手段。通過使用256GB的MRDIMM,雙路至強6900P機型可以獲得6TB內存容量。除了更大的內存帶寬,更高的內存容量也非常有利于AI訓練、大型數據庫等應用的需求,進一步強化至強6900P在AI機頭領域的優勢。

與DDR5 6,400MT/s相比,MRDIMM 8,800MT/s的實際運行頻率略低(4,400MT/s),導致輕量級的應用不能從內存帶寬的增加當中明顯獲益。其實類似的問題在內存代際轉換之初均會存在,能夠充分利用更大內存帶寬的主要還是計算密集的應用,譬如加密、科學計算、信號處理、AI訓練和推理等。從目前的測試看,對MRDIMM受益最大的應用主要包括HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d這些科學計算類的應用,以及大語言模型推理。

內存帶寬與大模型推理

上一節有提到,并非所有應用都能充分利用MRDIMM的內存帶寬收益。就本節重點要談的推理應用而言,根據目前所見的測試數據,卷積神經網絡為代表的傳統推理任務在MRDIMM中獲得的收益就比較小,不到10%的水平。而在大語言模型推理當中,MRDIMM的帶寬優勢將得到充分的發揮,性能提升在30%以上,因為大模型是確定性的渴求顯存/內存容量和帶寬的應用場景。在這里就得提一下英特爾至強6性能核處理器發布會資料中的另一個細節:在多種工作負載的性能對比中,AI部分的提升幅度最為明顯,而且僅用了96核的型號(至強6972P)。



也就是說,至強6972P使用了至強8592+的1.5倍內核,獲得了至少2.4倍的大語言模型推理性能。其中,右側的是Llama3 8B,int8精度,那么模型將占用約8GB的內存空間。以目前雙路24通道MRDIMM 8,800MT/s約1,690GB/s的總內存帶寬而言,可以算出來每秒token數理論上限是211。而雙路8592+是16通道DDR5 5,600MT/s,內存總帶寬為717GB/s,token理論上限是接近90。二者的理論上限正好相差大約2.4倍。在這個例子當中,內存帶寬的增長幅度明顯大于CPU內核數量的增長。也就是說,在假設算力不是瓶頸的情況下,內存或顯存容量決定了模型的規模上限,而帶寬決定了token輸出的上限。

一般來說,在控制模型參數量并進行低精度量化(int8甚至int5、int4)之后,大語言模型推理時的算力瓶頸已經不太突出,決定并發數量和token響應速度的,主要還是內存的容量和帶寬。通過MRDIMM,以及CXL內存擴展帶寬將是提升推理性能最有效的方式。這也是目前CPU推理依舊受到重視的原因,除了可獲得性、資源彈性外,在內存容量及帶寬的擴展上要比VRAM便宜的多。

結語

隨著掌握更多的信息,至強6性能核處理器在內存帶寬上的優勢和潛力顯得愈發清晰了。MDRIMM不但能夠大幅提升內存帶寬,還能使可部署的內存容量翻倍,顯著利好傳統的重負荷領域,如科學計算、大型數據庫、商業分析等,對于新興的向量數據庫也大有裨益。CXL還能夠進一步起到錦上添花的作用。

過去幾年,增長迅猛的大模型推理需求,讓至強可擴展處理器(從第四代開始)利用GPU缺貨的契機證明了在AMX的加持下,純CPU推理也有不錯的性能,而且易于采購和部署。隨著應用深入,部分互聯網企業還挖掘了CPU推理的資源彈性,與傳統業務同構的硬件更易于進行峰谷調度。至強6性能核處理器在核數、內存帶寬均大幅提升的加持下,推理性能激增,進一步提升了推理的性價比。在解決了“能或不能”的問題之后,推理成本是大語言模型落地后最關鍵的挑戰。或許在這方面,至強6性能核處理器配MRDIMM的組合,將會帶來一些新的解題思路。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東北大學遇難學生家屬發聲,其中一位學生姐姐透露弟弟去世后模樣

東北大學遇難學生家屬發聲,其中一位學生姐姐透露弟弟去世后模樣

振華觀史
2025-07-25 16:34:19
汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權

汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權

云間娛樂
2025-07-25 15:34:44
陜西這件事,每個字都寫滿了諷刺

陜西這件事,每個字都寫滿了諷刺

清書先生
2025-07-25 18:11:26
中南大學職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

中南大學職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

娜烏和西卡
2025-07-25 10:26:46
九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

籃球資訊達人
2025-07-25 19:24:20
DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

前瞻網
2025-07-25 09:17:51
細節披露:6名大學生溺亡事故獲救老師照片公布,重傷截肢消息不實

細節披露:6名大學生溺亡事故獲救老師照片公布,重傷截肢消息不實

上觀新聞
2025-07-25 10:02:38
觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

派大星紀錄片
2025-07-25 10:26:14
中國銀行業協會原黨委委員、秘書長黃潤中被開除黨籍

中國銀行業協會原黨委委員、秘書長黃潤中被開除黨籍

澎湃新聞
2025-07-25 19:34:26
女子面試被打后續:多處骨折,更多受害者發聲,打人只是冰山一角

女子面試被打后續:多處骨折,更多受害者發聲,打人只是冰山一角

削桐作琴
2025-07-25 12:48:07
面試被打后續:警方出手,更多受害者站出來,老板身份越扒越可怕

面試被打后續:警方出手,更多受害者站出來,老板身份越扒越可怕

通鑒史智
2025-07-25 18:29:27
澤連斯基做出讓步,烏克蘭人值得擁有最好的

澤連斯基做出讓步,烏克蘭人值得擁有最好的

山河路口
2025-07-25 12:56:51
2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網欺負人

2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網欺負人

鬼魅突破上籃
2025-07-26 01:20:00
PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

汽扯扒談
2025-07-25 11:52:18
懂車帝測試各方反應:有人曬,有人不想說話,有人沉默是今晚的康橋

懂車帝測試各方反應:有人曬,有人不想說話,有人沉默是今晚的康橋

三言科技
2025-07-25 19:01:41
偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

林輕吟
2025-07-25 19:47:47
請給北京日報帶個話,死了的學生情緒更穩定

請給北京日報帶個話,死了的學生情緒更穩定

李宇琛
2025-07-25 20:50:23
洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

南宮一二
2025-07-25 16:50:07
女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

極目新聞
2025-07-25 16:46:56
獨女身份坐實,宗馥莉王炸證據公開!

獨女身份坐實,宗馥莉王炸證據公開!

品牌頭版
2025-07-25 17:55:51
2025-07-26 01:55:00
DT Value
DT Value
關注數據價值,企業數字化變革
965文章數 1158關注度
往期回顧 全部

數碼要聞

蘋果iOS 26公測版正式發布:視覺交互優化,修復多項問題

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

親子
健康
旅游
藝術
公開課

親子要聞

小宸哥歷險記之門外有人:不要給陌生人開門

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 潼南县| 会泽县| 马边| 东光县| 湘乡市| 嘉黎县| 汉阴县| 山西省| 铁岭市| 大理市| 甘肃省| 三亚市| 元谋县| 龙岩市| 景德镇市| 抚松县| 南陵县| 大田县| 秦皇岛市| 尉犁县| 博爱县| 紫云| 理塘县| 永康市| 夏邑县| 伊川县| 宜良县| 遂川县| 板桥市| 桓仁| 隆安县| 韩城市| 临猗县| 石首市| 湖北省| 丹东市| 桓台县| 惠安县| 湖北省| 巩留县| 万全县|