我們已經(jīng)進(jìn)入生成式AI時(shí)代,大模型的訓(xùn)練和推理需要海量的數(shù)據(jù)、巨大的算力和精準(zhǔn)的算法,同樣也需要堅(jiān)實(shí)的存儲。英偉達(dá)的H100顯卡成本構(gòu)成中,竟然有超過60%是HBM存儲的成本,由此可見存儲的重要性。
而在電子工業(yè)出版社的新書《第四支柱:中國存力崛起錄》中,也提到:由于數(shù)據(jù)已從單一的生產(chǎn)資料轉(zhuǎn)變?yōu)榧婢呱a(chǎn)資料與生產(chǎn)工具兩種角色。存儲作為數(shù)據(jù)載體,得以充分凸顯重要性,已經(jīng)成為與算力同等重要的基礎(chǔ)設(shè)施,如果存力的發(fā)展滯后于算力,那么傳統(tǒng)計(jì)算架構(gòu)將失去競爭力。因此,存(儲)力可以被稱為生成式AI的“第四支柱”。
如果我們將企業(yè)級存儲系統(tǒng)的核心進(jìn)行拆分,可以大致分為介質(zhì)和文件系統(tǒng),兩者共同協(xié)作實(shí)現(xiàn)企業(yè)級存儲的功能。如今,中國力量正在全面崛起,像長江存儲等企業(yè)已經(jīng)在介質(zhì)上取得了重大突破。而在文件系統(tǒng)方面,曙光、華為同樣做到了全球領(lǐng)先。
下面,老冀就給大家分析一下,他們是如何做到的。
起于計(jì)算機(jī) 興于互聯(lián)網(wǎng)
自打有計(jì)算機(jī)的那一天,就有了存儲系統(tǒng),這是由計(jì)算機(jī)的馮?諾依曼結(jié)構(gòu)所決定的。
早期的計(jì)算機(jī)是大型機(jī),其存儲主要采取DAS方式,也就是直接連接存儲。到了20 世紀(jì) 70 年代,集中式存儲系統(tǒng)開始被廣泛使用。
當(dāng)時(shí)如日中天的 SUN 公司發(fā)明了真正的NAS(Network Attached Storage,網(wǎng)絡(luò)連接存儲)存儲系統(tǒng),該系統(tǒng)通過標(biāo)準(zhǔn)的以太網(wǎng)協(xié)議實(shí)現(xiàn)了存儲資源的共享。NAS 存儲系統(tǒng)最大的特點(diǎn)是基于文件系統(tǒng)(NFS 文件系統(tǒng))的共享,在存儲系統(tǒng)端構(gòu)建文件系統(tǒng),客戶端可以通過協(xié)議(RPC)映射到本地。由此,存儲文件系統(tǒng)走進(jìn)了存儲舞臺的中央。
2000年左右,隨著全球互聯(lián)網(wǎng)的大發(fā)展,原有的集中式存儲已經(jīng)越來越難以滿足互聯(lián)網(wǎng)巨頭們的需求。
2003年,谷歌發(fā)布了大數(shù)據(jù)“三駕馬車”:GFS、MapReduce、BigTable。其中,GFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。它運(yùn)行于廉價(jià)的普通硬件上,卻能提供企業(yè)級存儲才有的容錯(cuò)、備份等功能。有了這樣的文件系統(tǒng),相當(dāng)于有了一個(gè)無處不在的電腦,能夠?qū)Υ鎯υ诓煌胤健⒉煌橘|(zhì)、不同系統(tǒng)上的數(shù)據(jù)進(jìn)行靈活調(diào)度。
GFS的發(fā)布,讓存儲文件系統(tǒng)進(jìn)入了寒武紀(jì)大爆炸時(shí)代,由此誕生了大量優(yōu)秀的存儲文件系統(tǒng),也讓中國存儲力量看到了機(jī)會。
五年砥礪 艱難啟航
在國內(nèi)存儲廠商里,堅(jiān)持全棧自研的廠商屈指可數(shù),而中科曙光就是其中之一。2004年,曙光決定進(jìn)入存儲市場,并且將研發(fā)重點(diǎn)放在了存儲文件系統(tǒng),因?yàn)檫@是整個(gè)存儲系統(tǒng)的大腦。
曙光堅(jiān)定選擇全棧自研,而不是基于開源軟件做二次開發(fā),原因也很簡單。曙光是一家技術(shù)型公司,而且現(xiàn)有的開源軟件并不能滿足曙光客戶的需求。例如,曙光當(dāng)時(shí)采用的Lustre文件系統(tǒng),程序缺陷比較多,特別是有一些程序缺陷解不開、繞不過,無法滿足要求。
可是,從頭開發(fā)一個(gè)全新的存儲文件系統(tǒng),難度不比開發(fā)一個(gè)操作系統(tǒng)或者數(shù)據(jù)庫更低。業(yè)界公認(rèn),一個(gè)文件系統(tǒng)從第一版本發(fā)布到穩(wěn)定下來的周期至少是5年。Sun公司的文件系統(tǒng)ZFS,由業(yè)界傳奇大神Jeff Bownic帶隊(duì),開發(fā)人員從最初的5人一直增加到后來的70人,從2001開始發(fā)布到2006第一版本年進(jìn)入Solaris,開發(fā)歷時(shí)接近5年,直到10年之后才被認(rèn)為真正穩(wěn)定了下來。
2009年,在跟蹤技術(shù)5年之后,曙光終于決定立項(xiàng)。曙光總裁歷軍給研發(fā)團(tuán)隊(duì)提出了要求:一定要自研,如果三五年做不成,那就十年。他還批準(zhǔn)了存儲人才的招聘計(jì)劃,計(jì)劃引進(jìn)20%的研發(fā)人才,而承諾今后幾年投入數(shù)以億計(jì)的資金。
幸好之前有了一定的積累。當(dāng)時(shí),中科院計(jì)算所已經(jīng)開發(fā)出了實(shí)習(xí)系統(tǒng)LionFS,曙光研發(fā)團(tuán)隊(duì)在此基礎(chǔ)上進(jìn)行開發(fā)。不過,工作量仍然很大,在總量近百萬行的代碼中,至少有40% 要被修改或重寫,這樣才能達(dá)到讓存儲文件系統(tǒng)正常運(yùn)轉(zhuǎn)的程度。
首先要解決系統(tǒng)能用的問題,尤其是適配曙光超級計(jì)算機(jī)的難題。為此,研發(fā)團(tuán)隊(duì)把重點(diǎn)放在了支持 POSIX 高性能文件協(xié)議上面,并在當(dāng)年成功發(fā)布了商用系統(tǒng)ParaStor 1.0,完成了對剛剛發(fā)布的“曙光星云”高性能計(jì)算機(jī)的適配。
再接再厲 打開局面
ParaStor 1.0的發(fā)布,對于曙光來說只是解決了“能用”的問題,而要讓一個(gè)存儲文件系統(tǒng)“好用”,還要解決兩大技術(shù)問題:糾刪碼、分布式鎖。
我們知道,任何一個(gè)分布式系統(tǒng),都滿足CAP定理:分布式系統(tǒng)無法同時(shí)確保一致性(Consistency)、可用性(Availability)和分區(qū)容忍性(Partition Tolerance)。
而為了確保這“三性”,糾刪碼和分布式鎖這兩項(xiàng)技術(shù)應(yīng)運(yùn)而生。
糾刪碼(Erasure Code) 本身是一種編碼容錯(cuò)技術(shù),最早應(yīng)用于通信行業(yè),用于解決部分?jǐn)?shù)據(jù)在傳輸中數(shù)據(jù)位丟失的問題。它的基本原理是把傳輸?shù)男盘柗侄危尤胍欢ǖ男r?yàn)機(jī)制后,再讓各段間發(fā)生一定的聯(lián)系。這樣,即使在傳輸過程中丟失掉部分信號,接收端仍然能通過算法把完整的信息計(jì)算出來。它可以提高 50%以上的存儲利用率,并且可以保證數(shù)據(jù)的可靠性。
分布式鎖則是在一些沖突場景下,把一些資源、進(jìn)程甚至代碼“鎖”起來,更好地實(shí)現(xiàn)數(shù)據(jù)一致性、高并發(fā)、高性能等。
從技術(shù)的角度上看,隨著糾刪碼和分布式鎖兩大功能的實(shí)現(xiàn),以及早期ParaStor中那些比較幼稚、原始的代碼被優(yōu)化或重寫,ParaStor這一系統(tǒng)開始逐漸完善。
2013 年,ParaStor 2.0發(fā)布,它增強(qiáng)了數(shù)據(jù)保護(hù)機(jī)制,從而使這一版的文件系統(tǒng)具備了可為用戶構(gòu)建數(shù)據(jù)全生命周期管理的一體化方案的能力。
ParaStor 2.0的另一個(gè)特性,就是對云和大數(shù)據(jù)的良好支持,這使其在云計(jì)算興起的時(shí)代,駛?cè)肓丝燔嚨馈?/strong>
當(dāng)時(shí)的ParaStor打出了“分布式并行文件系統(tǒng)”的旗幟,這主要得益于ParaStor以超級計(jì)算業(yè)務(wù)起家,起點(diǎn)比國內(nèi)部分企業(yè)高——其存儲容量遠(yuǎn)遠(yuǎn)超過了業(yè)界通行的最大容量,先進(jìn)的并行存儲架構(gòu)也使其具有超強(qiáng)的橫向擴(kuò)展能力。
另外,在產(chǎn)品特色上,ParaStor并行文件系統(tǒng)的獨(dú)特設(shè)計(jì)為用戶數(shù)據(jù)創(chuàng)造了一個(gè)集中化的共享虛擬存儲池,提供了全局單一的命名空間。此外,ParaStor系列產(chǎn)品還有專門開發(fā)的并行存儲統(tǒng)一監(jiān)控管理平臺,直觀易懂的圖形界面方便用戶管理和監(jiān)控系統(tǒng)的軟硬件資源。
正因?yàn)楫a(chǎn)品準(zhǔn)備好了,從2013年開始,曙光存儲拿下了重大的標(biāo)桿項(xiàng)目,為“央視國際”(中央電視臺官方網(wǎng)站)打造6PB 存儲資源池。同年,曙光存儲還在全國多地中標(biāo)氣象局、環(huán)保局的項(xiàng)目。此后,曙光存儲的產(chǎn)品又先后在多個(gè)行業(yè)成功落地。
硬撼國際巨頭 后來居上
如今,ParaStor已經(jīng)足夠強(qiáng)大,能夠與全球最優(yōu)秀的存儲文件系統(tǒng)一較高下了。在這里,老冀就拿目前在企業(yè)市場得到廣泛應(yīng)用的“藍(lán)色巨人”IBM的GPFS文件系統(tǒng)做個(gè)對比。
相比GPFS而言,ParaStor能更好地滿足用戶在以下三個(gè)方面的要求:
1.AI的要求
GPFS更適合IBM的小機(jī)時(shí)代,在單節(jié)點(diǎn)I/O 密集的負(fù)載中,處理器的使用可能會占用較多的處理器時(shí)間,進(jìn)而影響到系統(tǒng)的性能。可以說,GPFS已經(jīng)很難支撐AI時(shí)代下的大算力需求。
ParaStor的單節(jié)點(diǎn)帶寬則高達(dá)150GB/s,能夠?yàn)橛脩籼峁└玫氖褂皿w驗(yàn),還有多集群統(tǒng)一管理、單集群多協(xié)議的支持、SysQos、回收站等更加貼心的功能,更適用AI等最新應(yīng)用。
2.信創(chuàng)的要求
近些年,信創(chuàng)產(chǎn)業(yè)得到大力發(fā)展,用戶更強(qiáng)調(diào)全鏈條安全可控和國產(chǎn)產(chǎn)品技術(shù)的全棧支持。作為國際大廠的IBM,很難滿足這方面的要求。例如,在某數(shù)據(jù)中心項(xiàng)目中,GPFS不滿足國產(chǎn)化需求,不兼容國產(chǎn)芯片和操作系統(tǒng),用戶也無法協(xié)調(diào)IBM原廠研發(fā)深度支持,無法獲得文檔、接口等。
而以ParaStor為代表的國產(chǎn)存儲產(chǎn)品,一方面自身能夠滿足國產(chǎn)化政策要求,另一方面對國產(chǎn)芯片、操作系統(tǒng)、硬件的適配性也更高。
3.維護(hù)的要求
近年來,IBM對GPFS的研發(fā)投入日漸減少,2024年8月更是直接關(guān)閉包括存儲在內(nèi)的中國研發(fā)部門,這也意味著采用GPFS的中國用戶將面臨產(chǎn)品更新不及時(shí)、售后支持力度減弱等窘境。
以曙光為代表的國產(chǎn)存儲廠商,則擁有強(qiáng)大的研發(fā)團(tuán)隊(duì),并憑借多年純自主研發(fā)的積累,能夠做到積極響應(yīng)客戶需求,高效完成定制化需求,周期短、質(zhì)量高。
“三心”為基 筑成功之路
從國產(chǎn)存儲文件系統(tǒng)的成功,老冀看到了以曙光存儲為代表的國產(chǎn)存儲力量的“三心”:
1.決心
從一開始,曙光就知道自主研發(fā)存儲文件系統(tǒng)這件事非常難,甚至比研發(fā)操作系統(tǒng)都難。但是,作為一家有理想、有追求的科技公司,曙光仍然下定決心,一定要做全棧自研,而且將這種決心從上到下,傳遞到了參與的每一名員工。這一點(diǎn),特別值得我們贊賞!
2.匠心
決心全棧自研之后的曙光,一開始各方面的資源都比較有限,必須找到關(guān)鍵突破口,實(shí)施重點(diǎn)爆破。這個(gè)時(shí)候,曙光研發(fā)人員秉持匠心,刻苦鉆研國際前沿技術(shù),無論是首先支持 POSIX 高性能文件協(xié)議、然后加入糾刪碼和分布式鎖這兩項(xiàng)關(guān)鍵功能,再到對云、大數(shù)據(jù)和AI的良好支持,均是在關(guān)鍵時(shí)間點(diǎn)拿出了殺手锏。如果沒有研發(fā)人員的匠心和持續(xù)改進(jìn),也就不可能有如此精準(zhǔn)的產(chǎn)品和市場節(jié)奏。
3.恒心
最后,曙光意識到了這是一場爭奪全球技術(shù)桂冠的馬拉松比賽,如果沒有一顆恒心,保持持久的耐力,同樣也是不可能跑到終點(diǎn)的。為此,從2004年進(jìn)入存儲市場開始,曙光在存儲文件系統(tǒng)上持續(xù)投入,不僅保證充足的研發(fā)經(jīng)費(fèi),還持續(xù)加大人員的投入,一直堅(jiān)持到了今天。
正是因?yàn)槭锕馔瑫r(shí)具備了決心、匠心、恒心,才得以在存儲文件系統(tǒng)如此高難度的領(lǐng)域打開了局面,實(shí)現(xiàn)了對國際巨頭的超越。曙光在存儲文件系統(tǒng)上的成功,值得所有中國企業(yè)學(xué)習(xí)和品味。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.