搶算力,已經(jīng)成為當(dāng)下科技公司、以及希望應(yīng)用AI的諸多公司的頭等大事。大算力,大力出奇跡。但實(shí)際上,只搶算力,是不夠的。
雖然高端顯卡產(chǎn)能還是緊俏,但算力逐步普及的同時(shí),要想發(fā)揮算力的效果,還要搶存力。
關(guān)于存算的關(guān)系,最容易想起來的就是做飯了。好的算力,就是好的大廚,廚藝高超、同時(shí)掌七八個(gè)勺也沒問題;而內(nèi)存就是炒鍋,廚子再厲害,只有一個(gè)炒鍋,也只能一道道做菜。
當(dāng)然,實(shí)際的存儲(chǔ),要比炒鍋復(fù)雜多了。但就像人離不開炒菜,人類的發(fā)展也離不開存儲(chǔ)。存儲(chǔ),不僅是數(shù)據(jù)倉庫,也是生產(chǎn)力。而存力的升級(jí),正為大模型進(jìn)化帶來加速,也成為企業(yè)之間競(jìng)爭(zhēng)的重要要素。
存儲(chǔ),也是生產(chǎn)力
存儲(chǔ),一直是人類發(fā)展的重要加速器。
比如在文本領(lǐng)域,原始社會(huì)時(shí),部落就學(xué)會(huì)在石壁作畫來記錄、存儲(chǔ)信息,使得零散瑣碎的經(jīng)驗(yàn),逐漸成為代代流傳的知識(shí)。
隨后,文字的出現(xiàn),是人類文明“算法”的提升;活字印刷術(shù)、算盤等等工具出現(xiàn),可以稱為“算力”的飛躍;而從甲骨、毛皮、竹簡(jiǎn)再到紙張,這就是“存力”的升級(jí)。紙張的出現(xiàn),大幅加速了知識(shí)傳播,作為知識(shí)的載體,相當(dāng)于為人類整體增加了智力光環(huán),生產(chǎn)力大幅提升。
比如在聲音領(lǐng)域。黑膠唱片,提升了對(duì)聲音記錄的精準(zhǔn)度,也通過便捷的存儲(chǔ)、讀取,讓音樂走向大眾。隨后也有了磁帶、CD光盤等等存儲(chǔ)方式。在視覺領(lǐng)域,從記錄在紙張上的圖畫,到膠片、光盤,存儲(chǔ)技術(shù)提升,不僅改善了畫面的豐富度,也帶來了全新的展現(xiàn)方式,比如電影的出現(xiàn)。
而今,所有的存儲(chǔ)都走向了數(shù)字化,技術(shù)進(jìn)步更在加速。存量在指數(shù)級(jí)增長,一張光盤,可以存下一個(gè)圖書館的所有書籍。越大的內(nèi)存、緩存,也為CPU高效發(fā)揮提供保障。當(dāng)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)成為趨勢(shì)時(shí),分布式存儲(chǔ)、云存儲(chǔ)也應(yīng)運(yùn)而生,存儲(chǔ)不僅更加便捷,也為企業(yè)節(jié)省成本。
在人類發(fā)展的不同時(shí)期,都有不同的存儲(chǔ)技術(shù)出現(xiàn),成為重要的生產(chǎn)力。既和當(dāng)時(shí)的算力相匹配,也時(shí)常引領(lǐng)著算力發(fā)展,成為算力、算法提升的基礎(chǔ)。
而在當(dāng)下,算力的大力出奇跡,讓AI呈現(xiàn)出了涌現(xiàn),數(shù)學(xué)家、程序員、科學(xué)家、設(shè)計(jì)師、研發(fā)人員等等都開始用AI來高效輔助工作。毫無意外,AI依然會(huì)逐漸普及,深入社會(huì)各個(gè)層面,解鎖新的生產(chǎn)力。而存力升級(jí),也將會(huì)加速AI的發(fā)展。
AI發(fā)展,存力越來越重要
隨著算力性能提升、產(chǎn)能逐漸釋放,對(duì)于AI而言,存力升級(jí)越來越重要。
首先,量是不夠的。 我國算力在提升,但存力卻依然相對(duì)滯后。而且,在大模型時(shí)代,文本只是TB級(jí),但多模態(tài)則是PB級(jí)要求,量級(jí)顯著提升。從單模態(tài)走向多模態(tài),存儲(chǔ)需求量大幅增加。
其次,質(zhì)是有要求的。 就像不是所有的顯卡才算得上高端,被搶購;也不是所有的存儲(chǔ),都能被稱為“存力”。生產(chǎn)力,必須順應(yīng)新趨勢(shì)、解決新挑戰(zhàn),“過五關(guān)斬六將”。而大模型的發(fā)展則為存儲(chǔ)帶來了諸多變化和要求。
比如,通用大模型的數(shù)據(jù)樣本是多模態(tài)的,包含多種類型的數(shù)據(jù),包括文本、圖像、音頻、視頻等等,對(duì)存儲(chǔ)提出不同要求。
這些數(shù)據(jù)來源不一,協(xié)議也多樣,同時(shí)有很強(qiáng)的異構(gòu)性,具有不同的結(jié)構(gòu)和特征。就像文本是序列數(shù)據(jù),而圖像則是矩陣數(shù)據(jù),沒有顯著的序列特征。而文本的分析、圖像的分類,也呈現(xiàn)了差異化、多樣性。
粗糙打個(gè)比方,就相當(dāng)于倉庫里既要放需要冷凍的海鮮,又要放需要適溫的蔬菜,還要放需要保持熱度的雞湯,這比只做個(gè)大冰庫要麻煩多了。
再比如,大模型的生成式依靠海量數(shù)據(jù)加速訓(xùn)練,規(guī)模大、訓(xùn)練時(shí)間長,而且DL網(wǎng)絡(luò)層多、連接多。每層都需要存儲(chǔ)權(quán)重、偏置闡述,激活函數(shù)、輸入輸出數(shù)據(jù)、模型結(jié)構(gòu)等等也需要存儲(chǔ),這就對(duì)存儲(chǔ)帶寬和I/O性能提出了更高要求。這也是HBM存儲(chǔ)產(chǎn)品被大量采購的原因。
這個(gè)道理也簡(jiǎn)單,洗車場(chǎng)再大,入口如果只有一個(gè)窄門,那也是無濟(jì)于事,浪費(fèi)資源。數(shù)據(jù)加載要又快又大又好。
另外,由于數(shù)據(jù)量持續(xù)更新,因此對(duì)存儲(chǔ)集群的可靠穩(wěn)定性、安全性,也都要求更高。在數(shù)據(jù)流通方面,也要能夠做到數(shù)據(jù)流動(dòng)和統(tǒng)一管理,不能是“一潭死水”,而是“數(shù)據(jù)活水”。
同時(shí),在節(jié)能減排的大趨勢(shì)下,能耗也是一個(gè)“緊箍咒”。存儲(chǔ)系統(tǒng),在數(shù)據(jù)中心能耗中占比為35%,不能存力升級(jí)了、能耗卻超標(biāo)了。
總結(jié)而言,存儲(chǔ)面臨的狀況就是:數(shù)據(jù)量更大、類型更復(fù)雜、性能高標(biāo)準(zhǔn)、穩(wěn)定嚴(yán)要求;干的越來越多,但“吃”的卻不能增加。
這得虧是存儲(chǔ),要換成人早撂挑子了。但顯而易見的是,對(duì)企業(yè)而言,存儲(chǔ)不升級(jí),算力空閑置,AI受影響,競(jìng)爭(zhēng)有劣勢(shì)。那么,越來越重要的存力,該怎么升級(jí)呢?
一體化,讓生產(chǎn)力一直高效
沒有撂挑子的研發(fā)工程師們,還真的把存儲(chǔ)的要求,給解決了。中科曙光提出了 “六個(gè)一”的存力一體化方案,正為AI發(fā)展按下加速鍵。
9月1日,“數(shù)字中國萬里行-西部(重慶)科學(xué)城先進(jìn)數(shù)據(jù)中心暨曙光存儲(chǔ)一體化存力方案發(fā)布”活動(dòng)正式舉辦。活動(dòng)上,武漢光電國家研究中心吳非教授、中國計(jì)算機(jī)行業(yè)協(xié)會(huì)信息存儲(chǔ)與安全專委會(huì)秘書長陽小珊、中國 E 企研究院創(chuàng)始人張廣彬、中科曙光存儲(chǔ)事業(yè)部副總經(jīng)理張新鳳共同發(fā)布曙光存儲(chǔ)一體化存力方案。
發(fā)布現(xiàn)場(chǎng)
當(dāng)下存儲(chǔ)面臨的是GPU、CPU、TPU、AI等異構(gòu)、復(fù)雜的業(yè)務(wù)場(chǎng)景,即使AI計(jì)算也要面對(duì)多模態(tài)數(shù)據(jù)樣本,非常需要有統(tǒng)一的支撐能力。中科曙光就提出異構(gòu)融合方案,通過支持全類別存儲(chǔ)協(xié)議,實(shí)現(xiàn)多協(xié)議數(shù)據(jù)在多場(chǎng)景下的智能適配融合,為不同計(jì)算場(chǎng)景的AI提供支持。
面對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、連接多的痛點(diǎn),曙光存儲(chǔ)發(fā)布了業(yè)內(nèi)首創(chuàng)的XDS加速技術(shù),可實(shí)現(xiàn)智能芯片以直接數(shù)據(jù)訪問的方式,提高訓(xùn)練過程中數(shù)據(jù)集的加載及處理速度。
同時(shí),無論AI的訓(xùn)練、還是推理,都需要存儲(chǔ)集群有穩(wěn)定、持續(xù)的服務(wù)。中科曙光提出了數(shù)據(jù)安全一體化理念,基于近20年的積累,形成了硬件、軟件、技術(shù)、生態(tài)等四個(gè)層面的安全體系,以及通過“部件、節(jié)點(diǎn)、系統(tǒng)、方案”的四級(jí)機(jī)制來保障可靠性。同時(shí),也提供智能化技術(shù)更細(xì)膩管理存儲(chǔ)資源。
大模型冠名“大”,不只是參數(shù)規(guī)模、算力需求提升,能耗也會(huì)相應(yīng)增加了,因此,在節(jié)能減排的大趨勢(shì)下,綠色一體化也是AI企業(yè)、數(shù)據(jù)中心的核心要求。對(duì)此,2022年,中科曙光就發(fā)布了當(dāng)前也是業(yè)界首款液冷存儲(chǔ),存儲(chǔ)節(jié)點(diǎn)PUE值下降到1.2以下;而針對(duì)不同數(shù)據(jù)中心的實(shí)際狀況,也提供了不同的改造方案。
這“六個(gè)一”總結(jié)起來就是,“多場(chǎng)景”、“跨區(qū)域”、“全周期”、“多維度”、“一棧式”與“全鏈條”。這六個(gè)一,是中科曙光多年的經(jīng)驗(yàn)積累、對(duì)客戶需求的關(guān)切、對(duì)產(chǎn)業(yè)趨勢(shì)的把握,將當(dāng)前面臨的挑戰(zhàn),實(shí)現(xiàn)了一一對(duì)應(yīng)的方案。一體化的存力產(chǎn)品,可謂是買的越多、省的越多。
某AI科技公司就采用了中科曙光的一體化存力,用于大模型訓(xùn)練。分布式全閃存儲(chǔ)節(jié)點(diǎn),提供PB級(jí)高性能存儲(chǔ)資源池,450GB/s+帶寬,500萬+ IOPS。極致性能,讓大模型進(jìn)化更快。
西部(重慶)科學(xué)城先進(jìn)數(shù)據(jù)中心,作為全國一體化大數(shù)據(jù)中心首個(gè)落成的重要樞紐節(jié)點(diǎn),也是中科曙光存力一體化方案良好實(shí)踐之一。在自動(dòng)駕駛等領(lǐng)域,一體化方案也正逐漸普及。
增效、降本、安全,讓存儲(chǔ)走向存力,存力,變成促進(jìn)AI發(fā)展的生產(chǎn)力。
尾聲
科技的發(fā)展,并不是一條線,而是一個(gè)森林式的生態(tài),需要每個(gè)角落、每個(gè)維度,同時(shí),每個(gè)角度、每個(gè)維度也都會(huì)跟隨著進(jìn)化。
就像AI發(fā)展,要算法、數(shù)據(jù)、算力。算法的改良,為AI指明方向;而超大算力的大力出奇跡,才有了涌現(xiàn);但出奇跡的算力要發(fā)揮最佳效用,也需要存力跟上腳步、甚至提前準(zhǔn)備;存力的發(fā)展,又會(huì)帶來封力,也就是封裝領(lǐng)域的升級(jí)要求。
因此,在科技生態(tài)里,每個(gè)角落都值得探索,做好每個(gè)角落的事情,都是機(jī)遇。
作者:遠(yuǎn)川科技組
視覺設(shè)計(jì):疏睿
責(zé)任編輯:李墨天
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.