當(dāng)新星DeepSeek以“黑馬”的姿態(tài)席卷全網(wǎng)時,這場技術(shù)風(fēng)暴遠(yuǎn)不止于社交媒體——它正以驚人的能量激活人工智能全產(chǎn)業(yè)鏈,從算法迭代到硬件革新,從應(yīng)用場景到商業(yè)模式,無不經(jīng)歷著顛覆性重構(gòu)。而這場革命的底層邏輯中,算力與存力的雙重引擎正成為最核心的戰(zhàn)場。
DeepSeek開源周第五天提出了Fire-Flyer File System,在文件系統(tǒng)層面對AI訓(xùn)練的特定場景進(jìn)行了優(yōu)化,可以大幅度提升SSD帶寬利用率。優(yōu)化的結(jié)果表明,SSD帶寬利用率的提升,大幅縮短了DeepSeek模型訓(xùn)練時間。
“這印證了AI時代,需要更強(qiáng)的存力來提升AI訓(xùn)練效率”。在MemoryS 2025存儲峰會上,平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒這樣表示。而在會上平頭哥展示的代表先進(jìn)AI存力的鎮(zhèn)岳510主控芯片得到了廣泛關(guān)注。
平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒
率先實現(xiàn)隨機(jī)寫破百萬
時間回到2024年末,網(wǎng)絡(luò)上出現(xiàn)了一款企業(yè)級SSD(憶恒創(chuàng)源PBlzae7 7A40)的測試,最吸睛的是高達(dá)百萬級IOPS的穩(wěn)態(tài)4KB隨機(jī)寫入成績——這恐怕是常規(guī)(非計算存儲)TLC SSD的最強(qiáng)隨機(jī)寫入性能了,相較之下,絕大多數(shù)SSD的隨機(jī)寫IOPS不超過50萬。
當(dāng)然,對于TLC SSD能夠達(dá)到百萬級隨機(jī)寫這個事情,我們認(rèn)為是遲早的事情,能夠在PCIe 5.0時代看到這個突破還是蠻驚喜的。畢竟這些年SSD的性能就是這樣一步一步發(fā)展上來的。增加主控通道和CE的數(shù)量、增加NAND介質(zhì)的Plane數(shù)量(主流TLC NAND Die的Plane已經(jīng)從2個發(fā)展到4個,部分較新的型號達(dá)到6個,甚至8個。針對SCM的SLC/MLC NAND Die還會設(shè)計更多的Plane。)都可以增加并行操作的規(guī)模,從而提高峰值性能。
細(xì)看測試數(shù)據(jù)之后,真正讓我們感到驚奇的其實是淺隊列的隨機(jī)寫性能,僅僅在隊列為1的情況下,就超過了20萬IOPS!這意味著隨機(jī)寫的時延不到5μs!通常PCIe 5.0 SSD的隨機(jī)寫時延在8μs左右,拉開性能差距的主要是隨著隊列深度增加,性能逐步達(dá)到峰值的高低有別。這個前所未有的低時延表現(xiàn)就不由得讓我們對SSD主控充滿了好奇:這是一款什么樣的主控?它到底是如何壓縮寫時延的?
PBlzae7 7A40的主控其實還真是個市場上的新面孔:鎮(zhèn)岳510,來自平頭哥半導(dǎo)體。
出道即登峰
鎮(zhèn)岳510的首次亮相是在2023云棲大會上,該款芯片為云計算場景做了深度定制。 發(fā)布時鎮(zhèn)岳510的一大亮點便時率先實現(xiàn)了4μs超低時延,比業(yè)界主流降低30%以上。 不過當(dāng)初業(yè)內(nèi)對這個數(shù)值確實關(guān)注度不高,直到搭載鎮(zhèn)岳510的商業(yè)化SSD出現(xiàn),大家才對“4μs”這個指標(biāo)有了直觀且震撼的感受。
在這里我們先簡要復(fù)述一下鎮(zhèn)岳510的基本規(guī)格信息。鎮(zhèn)岳510采用平頭哥自研的芯片架構(gòu),支持PCIe 5.0 x4單端口,內(nèi)置玄鐵R910RISC-V多核CPU系統(tǒng),最高頻率1.6GHz,關(guān)鍵數(shù)據(jù)通路與命令通路大量采用定制硬件模塊加速。鎮(zhèn)岳510支持DDR ECC,最大DRAM容量32GB,速率支持DDR4-3200MT/s、DDR5-5200MT/s。NAND介質(zhì)方面,支持16通道,支持1xx層/2xx層 TLC/QLC,支持ONFI 4.2和Toggle 5.0接口。協(xié)議方面,支持NVMe 1.4b、ZNS、CMB、Multi-Namespace等。
鎮(zhèn)岳510標(biāo)稱的順序讀帶寬14GB/s,順序?qū)?0GB/s,隨機(jī)讀340萬IOPS,隨機(jī)寫250萬IOPS。QD1讀時延小于67μs,QD1寫時延小于4μs。
硬件加速實現(xiàn)超低時延
現(xiàn)在回顧鎮(zhèn)岳510的規(guī)格,它實現(xiàn)4μs超低時延的秘密就是“大量采用定制硬件模塊加速”。
其實,SSD的隨機(jī)寫時延并不包括NAND內(nèi)部的編程時間(典型值約500μs量級),而是在SSD主控收到寫入數(shù)據(jù),分配寫入地址并依此改寫FTL表后,便向主機(jī)返回寫入完成的狀態(tài)。從主機(jī)發(fā)出指令,到狀態(tài)返回,其中的時間主要是主機(jī)、內(nèi)存、SSD主控通過PCIe多次交互的過程,寫入介質(zhì)的時間被隱藏在后臺。
在寫入操作中,從指令到FTL改表之間,需要進(jìn)行幾個操作:命令準(zhǔn)備(主機(jī)-內(nèi)存)、命令獲取(主機(jī)-內(nèi)存;主機(jī)-PCIe-SSD主控)、命令解析(SSD主控)、地址解析(SSD主控)、數(shù)據(jù)獲取(SSD主控-PCIe-內(nèi)存)、FTL改表(SSD主控)。
在以上過程中,命令準(zhǔn)備、命令獲取、數(shù)據(jù)獲取這幾步,其中主機(jī)的內(nèi)存、PCIe多次交互,每次時延在100ns到500ns之間。SSD主控能夠影響的是命令獲取、命令解析、地址解析、FTL改表,以及狀態(tài)返回。
上述幾個指令步驟,以及隊列管理、緩存管理等工作,大部分SSD主控是通過Firmware編程處理,控制主控硬件執(zhí)行。在鎮(zhèn)岳510中,這些工作全部交由專用的硬件加速器實現(xiàn),不再需要Firmware參與,除非在某個環(huán)節(jié)檢測到異常。Firmware和通用核可以處理更復(fù)雜的問題,當(dāng)異常出現(xiàn)時,可以由Firmware介入。如此一來,正常場景下的操作都直接在硬件加速器中完成,避免了Firmware主導(dǎo)帶來的軟硬件交互開銷,時延和功耗都會明顯降低。
優(yōu)秀的算法創(chuàng)新
除了命令解析、地址解析等操作,平頭哥團(tuán)隊為鎮(zhèn)岳510開發(fā)的創(chuàng)新算法和加速器還有不少。
譬如針對數(shù)據(jù)糾錯,SSD主控普遍采用了LDPC(Low Density Parity Check Code)算法,糾錯性能強(qiáng),而且由于逼近香農(nóng)極限,可以傳輸更多的有效數(shù)據(jù)。但是LDPC的計算復(fù)雜度較高,對硬件實現(xiàn)帶來了較高的挑戰(zhàn)。平頭哥通過對校驗矩陣H的構(gòu)造方法進(jìn)行全新設(shè)計,將BF+NMS算法做流水線整合,既保留了BF的高速率,還保留了NMS算法的高糾錯能力,同時最大化消除了LDPC算法中的譯碼環(huán)。鎮(zhèn)岳510的校驗矩陣設(shè)計還做了特殊的處理,使得用一套矩陣可以兼容多種碼率,這意味著一套矩陣可適配不同的NAND介質(zhì),利用SSD的開發(fā)。
鎮(zhèn)岳510集成了自研的介質(zhì)電壓預(yù)測算法,可以在不同工況下預(yù)測閃存電壓漂移。這使得盡可能少的嘗試即可獲得適宜的讀取電壓,有利于降低時延、改善QoS,也進(jìn)一步降低LDPC解碼器的輸入誤碼率,
改良的LDPC算法和電壓預(yù)測算法也都是在專用硬件加速器中完成。這些算法,配合盤內(nèi)RAID,鎮(zhèn)岳510的UBER(Uncorrectable Bit Error Rate)指標(biāo)可以達(dá)到10-18,相當(dāng)于百億億筆數(shù)據(jù)才可能有一筆數(shù)據(jù)出錯。這一數(shù)字相對業(yè)內(nèi)標(biāo)桿提高了整整一個數(shù)量級,更好的保障了企業(yè)級SSD的數(shù)據(jù)可靠性需求。
阿里云的規(guī)模部署驗證
鎮(zhèn)岳510于2023年量產(chǎn),現(xiàn)已在阿里云上規(guī)模上線部署。 在性能、能效、穩(wěn)定性等方面都獲得了驗證。
性能:基于鎮(zhèn)岳510的SSD順序讀帶寬可以達(dá)到14GB/s,順序?qū)憥?0GB/s以上,隨機(jī)讀IOPS可以達(dá)到340萬以上。高性能可以大幅提升阿里云EBS(彈性塊存儲)業(yè)務(wù)的帶寬、IOPS,提供更好的服務(wù)能力。
能效:基于鎮(zhèn)岳510的SSD功耗處于主流水平,得以實現(xiàn)42萬IOPS/W的高能效,有利于節(jié)省運(yùn)營成本。
服務(wù)水平:根據(jù)我們的經(jīng)驗,較高的隨機(jī)寫IOPS、較低的寫時延,對混合讀寫的測試表現(xiàn)有利。來自阿里云EBS的實測數(shù)據(jù)也驗證了這一點:鎮(zhèn)岳510的99.99%長尾時延相比友商SSD降低了92%。在分布式系統(tǒng)中,長尾時延直接影響集群服務(wù)的平穩(wěn),過高的時延會帶來明顯的波動。為了控制長尾時延,通常只能降低該系統(tǒng)的負(fù)載。鎮(zhèn)岳510大幅降低長尾時延帶來的直接效益就是允許增加系統(tǒng)負(fù)載,可以提供更好的用戶體驗,提升SLA(Service Level Agreement,服務(wù)級別協(xié)議)。
鎮(zhèn)岳510提升QoS的手段可不僅僅是靠讀寫性能高,還有很多的細(xì)節(jié)。譬如底層的IO優(yōu)先級調(diào)度就很好地體現(xiàn)了來自云服務(wù)廠商的業(yè)務(wù)理解。NVMe規(guī)范中定義調(diào)度機(jī)制是按隊列調(diào)度,同一隊列優(yōu)先級相同。鎮(zhèn)岳510實現(xiàn)了基于IO粒度的優(yōu)先級調(diào)整,可以更為靈活地為IO獨(dú)立設(shè)置優(yōu)先級標(biāo)簽,更好地保障延遲敏感型IO的SLA。
鎮(zhèn)岳510還支持ZNS協(xié)議,讓數(shù)據(jù)排布根據(jù)業(yè)務(wù)優(yōu)化,減少寫入放大和垃圾回收時的數(shù)據(jù)移動。ZNS的Zone分區(qū)狀態(tài)由玄鐵R910通用核負(fù)責(zé)維護(hù)。
來自AI、金融行業(yè)的嚴(yán)苛要求
CFMS 2025中,我們看到憶恒創(chuàng)源、得瑞領(lǐng)新、佰維正在基于鎮(zhèn)岳510開發(fā)企業(yè)級SSD解決方案,相關(guān)產(chǎn)品陸續(xù)上市。這也代表著鎮(zhèn)岳510的產(chǎn)業(yè)化之路進(jìn)入了第二個階段:從阿里云走向外部,以滿足廣大企業(yè)級/數(shù)據(jù)中心用戶的需求。從本文開篇提到的測試成績看,鎮(zhèn)岳510與外部合作伙伴的第一款產(chǎn)品表現(xiàn)相當(dāng)驚艷,無愧于PCIe 5.0 SSD當(dāng)中的佼佼者,尤其適合當(dāng)前對于高性能、高可靠性SSD有迫切需求的領(lǐng)域,如AI、金融等。
以AI工作流為例,在數(shù)據(jù)準(zhǔn)備階段,大量數(shù)據(jù)需要被清洗、格式化,對SSD的讀、寫性能均衡。數(shù)據(jù)準(zhǔn)備階段可以占到整個預(yù)訓(xùn)練階段三分之一的時間,是一個大量消耗通用算力和反復(fù)讀寫存儲集群的過程。鎮(zhèn)岳510的寫性能優(yōu)勢在這個階段可以體現(xiàn)出價值。
在訓(xùn)練階段,需要頻繁讀取已經(jīng)處理好的數(shù)據(jù)。這個階段的數(shù)據(jù)量其實并不大,通常完全加載到節(jié)點內(nèi)部的SSD中。使用鎮(zhèn)岳510主控的SSD可以提供高達(dá)14GB/s的順序讀,以及400萬IOPS以上的隨機(jī)讀性能——盡可能高的讀性能有利于節(jié)約GPU時間。
檢查點的創(chuàng)建與恢復(fù)會導(dǎo)致昂貴的GPU時間陷入空閑,因此希望盡可能快速地完成檢查點操作。隨著集群規(guī)模越來越龐大,訓(xùn)練故障愈發(fā)頻繁,檢查點創(chuàng)建的時間間隔不斷縮短,已經(jīng)從早期的數(shù)小時調(diào)整至15分鐘之內(nèi)。檢查點的創(chuàng)建可先從GPU顯存復(fù)制到DRAM或本地SSD緩存盤,再異步寫入存儲集群。如果寫入SSD緩存盤,順序?qū)懶阅茉礁咴胶茫藭r鎮(zhèn)岳510提供的10GB/s以上的順序?qū)懶阅芸梢杂行p少GPU的等待時間。
在大模型的部署階段,微調(diào)和RAG是訪問強(qiáng)度比較高的環(huán)節(jié)。微調(diào)的需要與數(shù)據(jù)準(zhǔn)備、訓(xùn)練階段是類似的,只是規(guī)模會小一些。RAG通常需要配合向量數(shù)據(jù)庫,在嵌入后,向量數(shù)據(jù)庫的容量會增加到原始數(shù)據(jù)的數(shù)倍甚至十倍以上。鎮(zhèn)岳510超高的隨機(jī)訪問性能,可以幫助壓縮首Token的生成時間。
在行業(yè)應(yīng)用場景中,比如對于金融行業(yè)而言,對存儲系統(tǒng)的要求不僅是性能高,還有嚴(yán)苛的可靠性要求。
金融行業(yè)的數(shù)據(jù)庫規(guī)模遠(yuǎn)大于AI訓(xùn)練集群,通常使用分布式數(shù)據(jù)庫,要求具有高可用性和強(qiáng)大并發(fā)處理能力。鎮(zhèn)岳510提供的超高讀寫帶寬、超高的隨機(jī)讀寫性能均有利于提高分布式數(shù)據(jù)庫的并發(fā)事務(wù)吞吐量。尤其值得一提的是,前面曾經(jīng)提到過的長尾時延指標(biāo)在分布式系統(tǒng)中尤其重要,否則任何交易數(shù)據(jù)因為落盤時間意外過長,都有可能導(dǎo)致集群出現(xiàn)抖動,嚴(yán)重的可能導(dǎo)致后續(xù)業(yè)務(wù)的擁塞。
上一段是從性能,或者說“硬實力”的角度去看鎮(zhèn)岳510如何滿足金融行業(yè)高并發(fā)、高可用性的需求。其實鎮(zhèn)岳510還有諸多“軟實力”進(jìn)一步為高可用性目標(biāo)保駕護(hù)航。譬如,鎮(zhèn)岳510可以IO為單位,按照存儲語義校驗,支持在線校驗、支持后臺巡檢。后臺巡檢不需要將數(shù)據(jù)讀出到服務(wù)器,可以減少CPU算力、內(nèi)存帶寬、PCIe帶寬的浪費(fèi),更重要的是,巡檢可以預(yù)防SSD數(shù)據(jù)出現(xiàn)靜默錯誤。對于強(qiáng)調(diào)高可用性的存儲系統(tǒng)而言,即使單盤故障不會導(dǎo)致數(shù)據(jù)丟失,但重建依舊會影響集群性能。
結(jié)語
鎮(zhèn)岳510 作為一款要完全跑通產(chǎn)業(yè)化、商業(yè)化的產(chǎn)品,用一年多的時間,在阿里云內(nèi)部獲得了規(guī)模化的、充分的驗證,證明除了云服務(wù)、AI外,其頂尖性能對高性能企業(yè)存儲(AI、OLTP等)也有很大的吸引力。
在CFMS 2025中,我們很高興地看到鎮(zhèn)岳510合作伙伴正在不斷壯大,與會者對于這一全新方案展現(xiàn)出來的技術(shù)實力充滿熱情與期許。不論是AI訓(xùn)練與落地的熱潮,亦或是主控+介質(zhì)的合作共贏,我們期待鎮(zhèn)岳510的頂級性能不負(fù)時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.