編者按:
近日,益企研究院聯(lián)手希捷發(fā)布了,該白皮書(shū)深入剖析了 AI 技術(shù)發(fā)展給數(shù)據(jù)存儲(chǔ)帶來(lái)的機(jī)遇與挑戰(zhàn),為各行業(yè)在 AI 浪潮下的存儲(chǔ)決策提供了重要參考。
益企研究院將在近期摘取該白皮書(shū)的部分內(nèi)容,以分享白皮書(shū)中的更多關(guān)于AI時(shí)代的存儲(chǔ)洞察。
本期是系列連載的第一部分,作者為希捷科技市場(chǎng)營(yíng)銷(xiāo)高級(jí)副總裁Jason Feist。
自2022年底通用大模型技術(shù)取得突破以來(lái),人工智能領(lǐng)域進(jìn)入發(fā)展快車(chē)道。
2024 年2月發(fā)布的多模態(tài)生成式模型,標(biāo)志著基礎(chǔ)大模型正從單一數(shù)據(jù)處理向多維度信息整合演進(jìn)。這類(lèi)系統(tǒng)通過(guò)融合文本、圖像、音頻等多模態(tài)數(shù)據(jù),實(shí)現(xiàn)更接近人類(lèi)認(rèn) 知的復(fù)雜信息處理能力,在醫(yī)療、交通、工業(yè)制造和氣象預(yù)測(cè)等領(lǐng)域展現(xiàn)出顯著應(yīng)用 價(jià)值。近期,得到廣泛采用的開(kāi)源大模型通過(guò)系統(tǒng)性?xún)?yōu)化,在保持高性能的同時(shí)大幅 降低訓(xùn)練成本,引發(fā)行業(yè)廣泛關(guān)注。而另一技術(shù)方案則通過(guò)大規(guī)模算力集群的部署,驗(yàn)證了算法效率與算力規(guī)模協(xié)同發(fā)展的重要性,為行業(yè)提供了多樣化的技術(shù)路徑參考。
從 2018 年始,希捷參與了益企研究院發(fā)起的數(shù)字中國(guó)萬(wàn)里行活動(dòng)。幾年來(lái),數(shù)字中國(guó)萬(wàn)里行團(tuán)隊(duì)足跡遍布 “東數(shù)西算” 八大樞紐節(jié)點(diǎn),考察了云計(jì)算、自動(dòng)駕駛、高教、金 融、制造等相關(guān)行業(yè)上百個(gè)數(shù)據(jù)中心,見(jiàn)證了云計(jì)算、人工智能高速發(fā)展下的技術(shù)應(yīng)用趨勢(shì)和架構(gòu)演進(jìn)。
Jason Feist 希捷科技市場(chǎng)營(yíng)銷(xiāo)高級(jí)副總裁
2024 年,希捷科技再次聯(lián)合益企研究院,針對(duì)不同行業(yè)場(chǎng)景深入調(diào)研和解讀。我們 發(fā)現(xiàn)算力和存力的緊密結(jié)合,正推動(dòng)著數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展。
基于本次調(diào)研,我們認(rèn)為以下三個(gè)方面值得在更大的范圍內(nèi)進(jìn)行探討。
首先,隨著數(shù)據(jù)的爆炸式增長(zhǎng),生成式AI應(yīng)用走向普及,更豐富的內(nèi)容、更頻繁的復(fù)制以及更持久的數(shù)據(jù)留存,帶來(lái)了更多的數(shù)據(jù)創(chuàng)建和存儲(chǔ)需求。
根據(jù)市場(chǎng)研究機(jī)構(gòu) IDC 的預(yù)測(cè), 到 2028 年, 全球預(yù)計(jì)將產(chǎn)生 394ZB 數(shù)據(jù)。而現(xiàn)代 數(shù)據(jù)中心存儲(chǔ)的所有數(shù)據(jù)中,有 80% ~ 90% 是非結(jié)構(gòu)化數(shù)據(jù),包括文本文件、圖像、視 頻和電子郵件等,它們無(wú)法規(guī)則地納入到傳統(tǒng)數(shù)據(jù)庫(kù)中。在 AI 賦能業(yè)務(wù)的過(guò)程中,企業(yè)利用數(shù)據(jù)的能力提升,帶動(dòng)數(shù)據(jù)存儲(chǔ)、管理、使用的需求增長(zhǎng)。用戶(hù)越來(lái)越關(guān)注數(shù) 據(jù)存儲(chǔ)容量、數(shù)據(jù)訪問(wèn)速度、設(shè)備與系統(tǒng)的能效等方面。
IDC:全球生成的數(shù)據(jù)中,只有不到 5% 會(huì)被保存下來(lái)。預(yù)計(jì)到 2028 年,存儲(chǔ)在云端 的數(shù)據(jù)約 10ZB(具體構(gòu)成如上圖, HDD 占比約 80%,是 SSD 的 6 倍多) ,企業(yè)端約 6ZB,消費(fèi)端約 4ZB
更重要的是,高質(zhì)量數(shù)據(jù)是構(gòu)建可信人工智能的支柱。數(shù)據(jù)的準(zhǔn)確性、完整性、 一致 性和時(shí)效性直接影響著 AI 模型的訓(xùn)練效果和決策的可靠性。不準(zhǔn)確的數(shù)據(jù)可能導(dǎo)致 模型產(chǎn)生錯(cuò)誤的預(yù)測(cè)和判斷。反之, 良好的數(shù)據(jù)管理,跟蹤模型歷史和數(shù)據(jù)脈絡(luò)不僅可以幫助企業(yè)實(shí)現(xiàn)精準(zhǔn)決策,還確保企業(yè)遵守人工智能法規(guī)。同時(shí)可以避免企業(yè)依賴(lài)于單一來(lái)源或者商業(yè)利益驅(qū)動(dòng)下的專(zhuān)有數(shù)據(jù),使 AI 模型更加全面準(zhǔn)確地反映現(xiàn)實(shí)世 界情況,確保推理的可確定性。
其次,AI工作負(fù)載在不同階段需要不同特點(diǎn)和類(lèi)型的算力、存力支撐。
在大型數(shù)據(jù)中心部署中,AI 相關(guān)數(shù)據(jù)在使用和創(chuàng)建的無(wú)限循環(huán)中流動(dòng)。工作流程的 每個(gè)階段都需要不同組合的內(nèi)存和存儲(chǔ)設(shè)備。
AI 數(shù)據(jù)從源數(shù)據(jù)到訓(xùn)練模型、創(chuàng)建內(nèi)容、存儲(chǔ)內(nèi)容、保留數(shù)據(jù)、重復(fù)利用數(shù)據(jù)的無(wú)限循環(huán)
AI 相關(guān)數(shù)據(jù)周而復(fù)始的無(wú)限循環(huán)從定義、查找和準(zhǔn)備數(shù)據(jù)開(kāi)始。通過(guò)網(wǎng)絡(luò)訪問(wèn)的存 儲(chǔ)便于共享和擴(kuò)展,其中硬盤(pán)(HDD)能夠長(zhǎng)期保存原始數(shù)據(jù)并提供數(shù)據(jù)保護(hù),固態(tài)盤(pán)(SSD)則充當(dāng)可即時(shí)訪問(wèn)的數(shù)據(jù)層。在模型的訓(xùn)練過(guò)程中,先要快速地從存儲(chǔ) 中加載數(shù)據(jù)到 HBM(高帶寬內(nèi)存)、DRAM 以及本地固態(tài)盤(pán)以供后續(xù)的計(jì)算密集型操作使用。網(wǎng)絡(luò)硬盤(pán)和固態(tài)盤(pán)存儲(chǔ)檢查點(diǎn),以保護(hù)和優(yōu)化模型訓(xùn)練。推理過(guò)程中的內(nèi) 容創(chuàng)建主要依靠 HBM、DRAM 和本地固態(tài)盤(pán)或硬盤(pán)完成。隨后, 內(nèi)容被存儲(chǔ)起來(lái),以 便不斷進(jìn)行優(yōu)化。硬盤(pán)用于存儲(chǔ)并保護(hù)內(nèi)容的副本。在這一系列步驟之后,數(shù)據(jù)被妥善保存下來(lái),成為構(gòu)建可信賴(lài) AI 的基礎(chǔ)。最后,數(shù)據(jù)會(huì)被重新利用,為 AI 模型提供 反饋信息。網(wǎng)絡(luò)硬盤(pán)和固態(tài)盤(pán)在不同的地理位置存儲(chǔ) AI 數(shù)據(jù)。
對(duì)模型訓(xùn)練來(lái)說(shuō),為了能夠快速恢復(fù)訓(xùn)練,需要頻繁創(chuàng)建檢查點(diǎn)。大容量、高性能的 AI 存儲(chǔ)系統(tǒng)能夠顯著節(jié)省訓(xùn)練所需的時(shí)間,并確保 AI 集群計(jì)算能力的高可用性。
數(shù)據(jù)的持續(xù)生成帶來(lái)更多存儲(chǔ)需求,而后者反過(guò)來(lái)又推動(dòng)了數(shù)據(jù)生成和人工智能的進(jìn) 化,形成了一種良性循環(huán)。
在大型數(shù)據(jù)中心部署中,大多數(shù) AI 相關(guān)的數(shù)據(jù)最終都存儲(chǔ)在大容量對(duì)象存儲(chǔ)中
隨著人工智能基礎(chǔ)設(shè)施的更新,AI 工作負(fù)載在性能、容量和能耗方面對(duì)數(shù)據(jù)中心和邊緣計(jì)算的存儲(chǔ)提出了嚴(yán)峻挑戰(zhàn)。數(shù)據(jù)的處理和存儲(chǔ)在整個(gè) AI 業(yè)務(wù)流程和生態(tài)系統(tǒng)中扮演著重要角色,而存儲(chǔ)與計(jì)算共同構(gòu)成了 AI 落地的關(guān)鍵基礎(chǔ)設(shè)施。
最后,在AI相關(guān)的數(shù)據(jù)中心,對(duì)存儲(chǔ)容量要求大幅增長(zhǎng),不同的存儲(chǔ)介質(zhì)在性能和可擴(kuò)展性方面各具優(yōu)勢(shì)。
希捷的熱輔助磁記錄技術(shù)突破了硬盤(pán)面密度的增長(zhǎng)瓶頸,有效提升了硬盤(pán)容量、性能和能效。
基于魔彩盒 3+(Mozaic 3+)技術(shù)的希捷銀河新一代企業(yè)級(jí)硬盤(pán),已經(jīng)在超大規(guī)模數(shù)據(jù)中心部署。以希捷為代表的機(jī)械硬盤(pán)廠商與服務(wù)器廠商、最終用戶(hù)緊密協(xié)作, 不斷擴(kuò)展存儲(chǔ)能力,構(gòu)建高可靠、高價(jià)值存儲(chǔ)方案與服務(wù), 以保證整體解決方案的性能 和穩(wěn)定性,有效地激活數(shù)據(jù)價(jià)值。
結(jié)論
AI 時(shí)代,存儲(chǔ)比以往任何時(shí)候都更為重要,因?yàn)樗沃詈诵牡馁Y產(chǎn)——數(shù)據(jù)。
在 AI 迅速發(fā)展的當(dāng)下,數(shù)據(jù)成為了推動(dòng)人工智能進(jìn)步的關(guān)鍵要素。存儲(chǔ)作為數(shù)據(jù)的載體,其重要性不言而喻。為了充分抓住 AI 帶來(lái)的機(jī)遇,企業(yè)需要進(jìn)行長(zhǎng)期的、戰(zhàn)略性的存儲(chǔ)容量和性能規(guī)劃。只有這樣,才能滿(mǎn)足 AI 對(duì)海量數(shù)據(jù)的存儲(chǔ)需求,為人工智能的發(fā)展提供堅(jiān)實(shí)的基礎(chǔ)。
AI 生態(tài)系統(tǒng)的重構(gòu)對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多種組件提出了更高的要求。存儲(chǔ)作為人工智能大模型的關(guān)鍵基座, 不僅提供了數(shù)據(jù)存儲(chǔ)和管理的基礎(chǔ)支撐,還推動(dòng)了生態(tài)互通。大模型縮放定律面臨著算力、存力、能效等方面的挑戰(zhàn),計(jì)算與存儲(chǔ)高度融合,才 能不斷加速 AI 應(yīng)用落地的步伐。
欲更好地理解該白皮書(shū),您也可以訪問(wèn)益企研究院視頻號(hào),觀看“《AI時(shí)代的存儲(chǔ)基石》白皮書(shū)發(fā)布與解讀”直播視頻回放。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.