PCIe 5.0服務器平臺在2023年進入市場,到目前已經演進了兩代,正逐步成為主流。Solidigm在推出PCIe 5.0 SSD的進度上相對競品有所落后,但也把握住了后發優勢,其首款PCIe 5.0 SSD——D7-PS1010/1030的標稱性能一步到位跑滿了x4接口的帶寬。
在AI大熱的當下,高性能的SSD最受AI數據管道的青睞,譬如作為GPU服務器的數據緩存盤,尤其是檢查點創建需要高讀寫性能以減少訓練時間的損失。大數據、商業分析等場景也奉行時間就是金錢。
高性能SSD還常在存儲陣列中作為高性能層,為對象層加速。一個非常值得注意的例子是Solidigm的CSAL(Cloud Storage Acceleration Layer)中的寫緩沖。CSAL以前是建議使用傲騰或SLC SSD作為持久化寫緩沖,在D7-PS1010/1030發布之后,也將其作為緩沖盤的選擇之一。
新一代的TLC SSD到底有沒有能力接棒傲騰老大哥,在這次測試當中可以讓大家有一些參考。
EDSFF:更適合的外形
從外觀看,E3.S比U.2明顯更薄。E3.S規劃了兩種厚度,1T和2T,分別對應厚度7.5mm和16.8mm。而U.2接口的NVMe SSD通常厚度為15mm,托架也以此規格設計,即使使用7mm厚度的SATA盤也大多只能安裝在這樣的托架之內。
E3.S的寬度(高度)為76mm,而U.2為69.9mm。前者在豎插時更接近2U服務器的高度(88.9mm),空間利用率更高。另外,許多傳統服務器前窗為了兼顧3.5盤的長度(深度),背板位置比較深,這也導致2.5英寸托架通常還要做的比盤體更長一些,譬如下圖左側的U.2盤與托架組合的樣子。
EDSFF設計的初衷就是盡量消除硬盤歷史包袱的影響,更貼近現代服務器的規格。由于不需要彌合高度、深度差異,E3.S的托架結構可以明顯簡化,減少了材料的消耗,也更符合環保減排的大勢。E3.S托架與盤體結合也更為簡單,配合托架前部預制的定位銷,只需要安裝兩顆螺絲即可固定。
信號方面的包袱也可以甩掉,E3.S的接口不需要如U.2那樣兼容SATA、SAS等傳統協議,不需要那么多金手指,外觀尺寸由此明顯縮小。另外,由于EDSFF接口直接與PCB一體,不需單獨安裝、焊接接插件,還有利于消除焊點處的信號反射和干擾,提高信號質量。
相應的,服務器高速背板的接插件體積也可以縮小,帶來更好的通風效果。以此次的測試平臺H3C UniServer R4900 G6 Ultra為例,可以同時配置U.2和E3.S的硬盤籠。每組硬盤籠占前窗三分之一的寬度,其中U.2硬盤籠可以安裝8塊SSD;E3.S 1T則是12塊,而且硬盤的兩側還可以留下額外的進風口。H3C還規劃了罕見的E3.S 2T籠選件,支持8個設備,可謂新銳又百變了。
從背板角度看,E3.S熱插拔背板面積明顯小于U.2背板。后者只在接口附近有少量鏤空,而前者上下的豁口面積大得多,帶來更大的通風量,對SSD和服務器內部散熱都更為有利。姑且不論EDSFF接插件在信號質量上的優勢和發展潛力,單是看安裝密度和散熱條件,這種為SSD量身定做的新外形規格優勢確實非常明顯。
從內部拆解看,U.2的D7-PS1010有充裕的厚度,可以使用傳統的圓柱形的電解電容。而E3.S薄盤有厚度限制,需要使用貼片式的電解電容,成本會略高一些。原則上,E3.S的SSD可以布置更大的PCB面積以容納更多的元件,但在D7-PS1010身上還沒有體現這一點。畢竟它的最大容量點只規劃到15.36TB,并不需要使用太多顆粒。
目前的D7-PS1010的PCB是每面8個NAND顆粒的設計,最高容量點會用滿兩面共16顆NAND顆粒。3.84和7.68TB都只用了單面8個焊盤位置,只是每片顆粒封裝的die數量有別。D7-PS1010/1030使用的是SK海力士的176層TLC NAND,主控和DRAM也來自SK海力士。
四角性能:翻倍有余
我們以H3C UniServer R4900 G6 Ultra服務器為基礎構建了Solidigm D7-PS1010的測試平臺。該服務器可廣泛應用于通用計算場景,同時對高性能計算、人工智能、云桌面等場景重點優化,適用于互聯網、運營商、企業,政府等各行業典型應用,具有計算性能高、存儲容量大、功耗低、擴展性強和可靠性高等特點,易于管理和部署。
具體配置為:
處理器:雙路英特爾至強白金8562Y處理器(2.80GHz/60MB L3/32C/64T/250W)
內 存:16×32GB 1R×4 DDR5 5600
系 統:CentOS Stream release 9(內核6.11.3-1.el9.elrepo.x86_64)
在FIO v3.35測試當中,Solidigm D7-PS1010 7.68TB的順序讀可以達到14.8GB/s,順序寫10.7GB/s,比官方的標稱值還要高一些。4KB隨機讀達到325萬IOPS,隨機寫39.7萬IOPS。3.84TB的讀性能相仿,寫性能略低,順序寫為8.6GB/s,隨機寫為32.4萬IOPS。
從四角性能初步看,D7-PS1010相對上一代產品(PCIe 4.0)確實提升巨大,基準項目大致實現了倍增,隨機讀IOPS甚至接近3倍。如果要實現同樣的目標性能,新一代的SSD完全可以“一個頂倆”。后面我們會利用更接近真實應用的測試做進一步的驗證。
混合讀寫:上限猛增
在我們非常重視的混合隨機讀寫方面,D7-PS1010 7.68TB在7讀3寫的設置下,讀IOPS超過65萬,寫也超過28萬。
在這里我們可以與PCIe 4.0時代的經典——Solidigm D7-P5520做一下對比。P5520不但是業內部署量和兼容性拔尖的SSD,還樹立了混合讀寫QoS的標桿。
得益于基礎性能的大幅度提升,相應的,D7-PS1010的混合讀寫IOPS是P5520的兩倍以上。
PS1010的平均時延也明顯改進:在隊列深度達到32時只有100微秒;隊列128時,不超過200微秒;即使隊列達到512,也才600微秒。
不論是P99,還是P99.95,PS1010的平均讀時延相對P5520全面領先。
P5520的P99.99讀時延是上一個時代的神話,中等隊列可以控制在1毫秒之內。PS1010在中等隊列沒有簡單地重演神話,它在中小隊列時的P99.99時延與P5520接近,但在中等隊列的時延差距加大,但在大隊列(64以上)的讀時延增長相對平緩,即使在512隊列深度之下,P99.99讀時延也只有2.25毫秒而已。
數據庫:超高負荷
Aerospike是一個典型的分布式數據庫應用,可滿足TB級數據量、萬級以上高并發請求,可以對SSD構成很重的混合讀寫壓力。其ACT(Aerospike Certification Tool:Aerospike認證工具 )測試中是采用2:1的混合讀寫配置,負荷采用倍數形式體現。其中1x代表2000個讀事務請求和1000個寫入。每個操作以1.5KB對象為單位,對于沒有整形/壓縮的SSD而言,相當于一次默認頁面大小的隨機訪問。
我們使用ACT v6.5進行測試,D7-PS1010 7.68TB可以完成持續24小時350x壓力的驗證。這意味著以每秒對數據庫發出70萬條讀請求和35萬條寫請求,也就是每秒百萬級以上的2:1混合隨機讀寫。
從8萬多秒(24小時)的log看,D7-PS1010在跑350x壓力時的波動還是挺劇烈的,有點兒極限操作的味道了。但即使在這樣高的壓力下,PS1010的平均響應時間大于1毫秒但小于2毫秒的請求占比僅為3.13%,時延超過8毫秒的請求僅為萬分之七,沒有大于16毫秒的請求。說明可以保證良好的響應能力,以提供穩定的業務支持。
如果覺得350x太狠了,實際應用當中也可以控制一下負載。譬如將ACT壓力換為300x,D7-PS1010的表現會立刻平穩得如同一條直線,大于1毫秒的請求只有千分之五,大于2毫秒的只有萬分之五,大于4毫秒的只有萬分之一。
350x的設置讓我們讓2:1混合讀寫突破百萬級。這是什么概念?PCIe 4.0時代主流SSD在發展到中后期,隨機讀性能才逐步達到了百萬級,遑論混合讀寫了。以D7-P5520 7.68TB為例,它發布之初驗證的是150x的ACT測試。這意味著到了D7-PS1010這一代,已經可以處理兩倍以上的數據庫負載,前面說的“一個頂倆”確實真的可行。
除了縱比,我們也可以橫比:目前Areospike官網已經測試過的“PCIe/NVMe-Based Flash”中,還沒有出現常規的標準耐用度(1DWPD)的SSD能達到這個負荷。TPS能夠超過D7-PS1010的兩款SSD,要么是大容量、中等耐用度(3DWPD)的,要么就是計算型存儲可以壓縮數據。
說到這里,那要讓D7-PS1010的戰斗力再上一個臺階,那就不妨打打容量或者DWPD的主意。
彩蛋時間:用20%容量換200%性能
Solidigm D7-PS1010是標準耐用度,即1DWPD的SSD。如果我們想要沖擊更高的負荷,換PS1030上場就是了,它是中等耐用度,3DWPD的SSD。
熟悉Solidigm產品線,或者看過我們以往測試的讀者,應該知道Solidigm提供了一個強大的管理工具:Solidigm Storage Tool(SST)。使用SST的命令行界面,我們可以調整Solidigm SSD的保留空間。
譬如我們用SST 2.0對Solidigm D7-PS1010 7.68TB進行調整,設置MaximumLBA=80%,額外增加20%的保留空間,可用容量降到6.14TB,近似于D7-PS1030的規格。
模擬的“D7-PS1030”的順序讀寫和隨機讀性能與PS1010基本一致,隨機寫性能大幅度提升,從后者的約40萬IOPS猛增至90萬IOPS。這種變化符合我們的經驗,更多的保留空間可以提升SSD的隨機寫性能和耐用度。由于保留的空間更多,這個模擬的“D7-PS1030”的實測性能還略高于D7-PS1030的官方標稱值。
增有余的隨機寫性能對混合讀寫測試也帶來了顯著的影響。在FIO的7:3混合讀寫測試中,“D7-PS1030”的表現明顯改善,譬如隨機讀從PS1010的65萬IOPS提升至超過120萬,近乎翻倍。
“D7-PS1030”在7:3混合讀寫當中的總IOPS已經超過了170萬。這是一個里程碑式的成績。單看數字,可能大家對我們測得的這個混合讀寫性能沒啥直觀的概念。但如果我告訴你:末代的傲騰的7:3混合讀寫是180萬IOPS——是不是很容易理解了?隨著NAND介質、控制器的發展,優秀的數據中心/企業級TLC SSD已經可以告慰先烈了。
讀時延也明顯改善,在512隊列深度時,“D7-PS1030”的平均時延大概是PS1010的三分之一,P99和P99.99也始終保持優勢。
在Areospike中,“D7-PS1030”可以很輕松的完成24小時500x的測試,延遲表現極其穩定,大于1毫秒的事務僅有0.26%,遠遠低于5%的要求;大于2毫秒的僅有0.02%;沒有延遲大于4毫秒的訪問。從ACT 500x的log可見,這24小時的表現波動幅度確實輕微,只有零星的離散點。
500x已經在常規SSD中一騎絕塵,我們還進一步嘗試了更高的負荷:1小時的550x壓力下,大于1毫秒的僅為0.60%;560x下,大于1毫秒的也僅為0.76%,大于2毫秒的僅為0.03%。不過在我們沒能完成持續24小時560x負荷的測試,在第六小時中斷了。前五小時中每小時的平均時延均在0.75%到0.76%之間。如此微小的波動卻不一定能夠確保完成24小時ACT測試,也從側面說明Areospike的壓力確實夠分量。
值得一提的是,500x的負荷也是可以和傲騰扳手腕的,這個水平已經超過了PCIe 3.0時代的3D Xpoint技術SSD,并接近PCIe 4.0時代的產品。回想文章開頭我們提到的CSAL,再結合目前模擬D7-PS1030的測試數據,我們確實可以相信新一代高性能TLC SSD的隨機寫性能已經不再是寫緩沖的瓶頸,而且,TLC SSD的大容量和讀性能的優勢還有機會拉高整體表現。
結語:好馬急需好鞍
服務器處理器正在進入百核時代。算力密度的激增之下,存儲性能也應該有相應的增長。Solidigm D7-PS1010的性能相對上一代產品翻倍,完全跟上了“核”戰的節奏。
對于大企業、云服務商等,新一代SSD可以在更小的空間內,提供雙倍以上的性能,僅付出不到30%的功耗增長,很有利于提高部署密度、降低TCO。
至于目前大火的人工智能等應用,PS1010的領先性能尤其受到重視,畢竟GPU時間成本昂貴,不論數據投喂還是Checkpoint存儲,千金難買寸光陰。這也是這兩年人工智能成為存儲市場最重要業務增長點的根本原因。
模擬PS1030的性能讓我們對TLC SSD的發展頗感振奮。傲騰和SLC這些技術為代表的SCM產品不但成本高,還面臨市場規模小、迭代緩慢的問題,其性能優勢正在被逐步趕上。TLC SSD已經坐穩存儲陣列的性能層,隨著CXL技術的加持,TLC NAND還有能力出現在內存語義SSD當中,成為內存池的一部分。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.