凌晨三點(diǎn),老林死死地盯著屏幕上的進(jìn)度條,指節(jié)捏得發(fā)白。
旁邊的項(xiàng)目組助理小陳,帶著哭腔說↓
老林是一家汽車電池設(shè)計(jì)公司的項(xiàng)目負(fù)責(zé)人,正在設(shè)計(jì)一款新能源汽車的電池管理系統(tǒng)。
也就是BMS,被稱為汽車電池組的“大腦”。
這個(gè)BMS電池大腦可不簡單,它負(fù)責(zé)監(jiān)控和管理數(shù)百個(gè)電池單元的狀態(tài)。
要時(shí)刻盯著它們的電壓、電流、溫度,還得確保電池不“發(fā)脾氣”——?jiǎng)e高溫炸了、低溫蔫了,充電要快、壽命要長…
為了不設(shè)計(jì)出一個(gè)昂貴的“廢物”,BMS設(shè)計(jì)有個(gè)重要環(huán)節(jié)就是用EDA工程軟件做仿真(Electronic Design Automation電子設(shè)計(jì)自動(dòng)化),從而模擬現(xiàn)實(shí)場景。
比如:30分鐘能不能快充到80%?夏天車廂50°C會(huì)不會(huì)過熱?冬天-20°C還能不能啟動(dòng)?5年后電池的可用率多少?
既然是工程仿真“算”,那就不是一般的“算”!
此時(shí)監(jiān)控面板上顯示,“多線程利用率只有40%!內(nèi)存占用突破90%!”
小陳看得已經(jīng)有點(diǎn)破防了…
這仿真活兒對(duì)計(jì)算要求高到離譜:算力得猛!內(nèi)存得大!精度得準(zhǔn)!傳輸?shù)每欤∧土Φ脧?qiáng)!
仿真數(shù)據(jù)量呈指數(shù)級(jí)暴漲,算力集群在高負(fù)荷下有點(diǎn)潰不成軍…
老林低估了這次項(xiàng)目的計(jì)算量,感覺自己要被這“慢”字活活憋死。
“不找點(diǎn)招,這活沒法干了!”,老林徹底紅溫了。
01、慢,問題出在了哪里?
第二天一大早,老林黑著眼圈、胡子拉碴地去找公司IT部門的硬件架構(gòu)師老高,開門見山:“你給我多加幾臺(tái)機(jī)器吧!”
“加機(jī)器?”,老高苦笑,“不是機(jī)器數(shù)量的問題,是平臺(tái)本身跟不上。”
老高拍了拍老林的肩膀:”別急,我看了你昨晚的集群日志,有個(gè)大致的判斷。”
困境1:海量數(shù)據(jù),計(jì)算量爆炸,導(dǎo)致仿真時(shí)間過長
一個(gè)電池組包含數(shù)百個(gè)單體,每個(gè)單體都需要獨(dú)立建模、協(xié)同仿真。
仿真過程中,電壓、電流、溫度、化學(xué)反應(yīng)全都得算,涉及一大堆偏微分方程,計(jì)算量大得離譜。
困境2:內(nèi)存帶寬和 I/O 傳輸瓶頸,數(shù)據(jù)吞吐效率奇低
我看了,你加載的一個(gè)仿真數(shù)據(jù)集快TB級(jí)了,需要頻繁在內(nèi)存、處理器、存儲(chǔ)之間傳輸,如果內(nèi)存帶寬不足、I/O 速率跟不上,仿真過程就可能直接卡死。
困境3:需要高強(qiáng)度、高精度計(jì)算,老系統(tǒng)有點(diǎn)吃力了
你模擬一個(gè)電池的充放電周期可能持續(xù)幾周,期間電池狀態(tài)瞬息萬變,電壓差0.01伏、溫度差1°C都可能影響結(jié)果。
誤差小到發(fā)絲級(jí)才行,如果算力供給不穩(wěn)定,算得不準(zhǔn),仿真就失去價(jià)值。
總之,原來的處理器有點(diǎn)Out了,存在計(jì)算性能“瓶頸”、內(nèi)存帶寬“窒息”、PCIe通道“便秘”等問題。
說干就干,接下來,老高帶領(lǐng)大家考察了市面上幾款主流的服務(wù)器CPU。
其中AMD EPYC 9575F表現(xiàn)出色。
02、換芯之后,項(xiàng)目進(jìn)度像火箭
搭載AMD EPYC 9575F的新計(jì)算集群一上線,畫風(fēng)變了!
“感覺咋樣啊?”,老高拍了拍老林。
“太爽了,這個(gè)芯真牛!”,老林忍不住感嘆。
老高指著監(jiān)控界面上的參數(shù),眼神里透著幾分得意:
“它采用先進(jìn)4nm工藝,每顆 CPU擁有 64 核心、128線程,超高主頻,最高5GHz頻率。”
在CPU-Z基準(zhǔn)測(cè)試?yán)铮瑔尉€程跑分784.2,說明單核性能極為優(yōu)秀;多線程跑分 112,682.2,展現(xiàn)出驚人的并行計(jì)算能力。
而且,我們這次用的是雙路液冷服務(wù)器,采用兩顆EPYC 9575F,總共128核心、256線程,最高加速時(shí)鐘頻率可達(dá)5GHz,火力全開,性能爆表!
老林咂咂嘴:“難怪這么快,之前跑個(gè)兩小時(shí)都算快的,現(xiàn)在10分鐘搞定!”
“可是……”,老林突然皺起了眉頭,“跑這么猛,散熱能扛得住嗎?不會(huì)又是之前那種‘火爐機(jī)房’吧?”
老高神秘一笑,指了指監(jiān)控屏幕上的溫度數(shù)據(jù):
“放心吧,搭載EPYC 9575F的雙路液冷服務(wù)器,即便是400W功耗拉滿,依然穩(wěn)定在 75°C 左右,激發(fā)了其最大潛能,并超級(jí)穩(wěn)定。”
03、終于不卡了,滿血計(jì)算
老林點(diǎn)點(diǎn)頭,接著又問,“我剛才發(fā)現(xiàn),原來那種卡頓的現(xiàn)象完全消失了,怎么回事?”
“這正是EPYC 9575F第二個(gè)優(yōu)勢(shì),它是一款能充分利用高帶寬的CPU。”老高笑著說。
“你要知道,很多高核心CPU在極限計(jì)算時(shí),內(nèi)存帶寬跟不上,導(dǎo)致CPU資源被浪費(fèi)。
老林若有所悟:“所以,以前CPU算得快,但數(shù)據(jù)過不來,整個(gè)計(jì)算流程就像在塞車?”
“沒錯(cuò),但EPYC9575F支持12通道DDR5內(nèi)存,每個(gè)通道的傳輸速度高達(dá)6400MT/s,確保所有 64 核心、128 線程都能滿血運(yùn)作,計(jì)算任務(wù)幾乎無延遲!”
老高解釋道。
04、出色的I/O性能
老林繼續(xù)打破砂鍋問到底:“我還注意到,我剛才從存儲(chǔ)拉取仿真訓(xùn)練數(shù)據(jù),幾乎是秒加載,這怎么做到的?”
“你問到點(diǎn)子上了!第三個(gè)優(yōu)勢(shì),正是出色的I/O性能。”老高點(diǎn)點(diǎn)頭。
“9575F提供了多達(dá)128條PCIe Gen5通道,不管是 NVMe 存儲(chǔ)、RDMA 網(wǎng)絡(luò),還是 AI 訓(xùn)練加速卡,全能帶著一起嗨!”
05、彩蛋,AI計(jì)算集群機(jī)頭
“另外,我還埋了一個(gè)彩蛋,將AMD EPYC 9575F作為整個(gè)AI集群的「機(jī)頭」,負(fù)責(zé)協(xié)調(diào)集群中的所有計(jì)算節(jié)點(diǎn)。”
“AI計(jì)算集群不僅需要強(qiáng)大的計(jì)算能力,還需要一個(gè)大腦來調(diào)度和管理所有計(jì)算節(jié)點(diǎn)。
而擔(dān)任這個(gè)‘大腦’的服務(wù)器 CPU,就被稱為「機(jī)頭」”。
老高指了指機(jī)柜最上面那臺(tái)服務(wù)器,嘴角帶著一抹得意。
“9575F作為「機(jī)頭」,負(fù)責(zé)精準(zhǔn)調(diào)度AI加速卡和計(jì)算資源,確保每個(gè)節(jié)點(diǎn)都能高效運(yùn)作,提高整體效率。”
“就是說,EPYC 9575F負(fù)責(zé)分配任務(wù)、調(diào)度數(shù)據(jù),讓整個(gè)系統(tǒng)跑得更順暢?”,老林若有所悟。
“完全正確!”老高點(diǎn)點(diǎn)頭。
“就像指揮官指揮士兵,EPYC 9575F讓AI加速卡能全速運(yùn)轉(zhuǎn)。在一項(xiàng)推理測(cè)試中,1000 個(gè)節(jié)點(diǎn)的AI集群,每秒能多發(fā)出 70 萬個(gè)Tokens,顯著提升AI推理效率。”
一番切磋下來,老林兩眼放光。
“這下可好了,像我常用的 Ansys Fluent、Battery、Mechanical這些工程仿真軟件,體驗(yàn)都能上個(gè)臺(tái)階!”
“沒錯(cuò),現(xiàn)在就我知道,很多咱們的同行,都在陸續(xù)換芯呢!”老高哈哈大笑。
至此,困擾老林多日的難題終于一掃而盡。
老林帶著他的團(tuán)隊(duì),投入到新的仿真項(xiàng)目戰(zhàn)斗中,這一次,胸有成竹,所向披靡!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.