今天,被一張網(wǎng)傳圖給笑岔氣了。
這張圖太能代表大模型用戶最近幾天的心情了。
我本將心向明月,奈何明月宕機(jī)了
不知不覺當(dāng)中,各種大模型成了我們工作中不可分割的一部分,職場(chǎng)牛馬也終于體會(huì)了一把當(dāng)主子的感覺。
可是,你越離不開大模型牛馬,它就越愛玩失蹤。
不只是如今萬千寵愛于一身的DeepSeek,過去一年里,前代“網(wǎng)紅大模型”ChatGPT,可算是崩了又不崩。
有時(shí)是因?yàn)樵L客太多崩,有時(shí)是因?yàn)橄到y(tǒng)bug崩,有時(shí)是因?yàn)榕渲缅e(cuò)誤崩,甚至因?yàn)闄C(jī)房停電崩。
這么說吧,每次崩,都讓深度依賴它的小伙伴們抓狂。
道理很簡(jiǎn)單,我對(duì)你那么上頭,你卻那么讓我下頭,這可還行?
DeepSeek也好,GPT也好,我們希望這些大模型要死扛住厚望,提供高可用的服務(wù)。
要想大模型不宕機(jī)、不作妖,我們首先就要搞清楚“供養(yǎng)”大模型的都是啥。
AI大模型其實(shí)是典型的云上原生業(yè)務(wù),穩(wěn)健的大模型離不開既有彈性又有韌性的云服務(wù)。
云服務(wù)需要為“大模型牛馬”提供牛棚、飼料以及整個(gè)成長(zhǎng)周期的呵護(hù)。
?要想“牛棚牢固”,就需要「AI基礎(chǔ)設(shè)施」高可用:
從可用區(qū)的架構(gòu)搭建,到基礎(chǔ)設(shè)施硬件的RAS設(shè)計(jì),從GPU實(shí)例、容器服務(wù),到存儲(chǔ)服務(wù)、網(wǎng)絡(luò)傳輸服務(wù)…,不能有任何一塊短板。
?要想“飼料充足”,就需要「AI數(shù)據(jù)處理」高可用:
數(shù)據(jù)采集、清洗、供給的鏈條不能斷鏈。
否則,訓(xùn)練時(shí)吃不飽,大模型會(huì)發(fā)育不良,智商不夠。推理時(shí)斷了炊,大模型也會(huì)大腦短路,反應(yīng)遲鈍。
那優(yōu)質(zhì)“飼料”的供給如何保證呢?
這依賴于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理服務(wù)的高可用設(shè)計(jì)與故障快速恢復(fù)。
數(shù)據(jù)庫(kù)、數(shù)據(jù)湖、數(shù)倉(cāng)、數(shù)據(jù)治理服務(wù)等等,凡是負(fù)責(zé)“飼料”采存、清洗、存儲(chǔ)、供應(yīng)的設(shè)施,都要穩(wěn)如泰山。
?要想“牛馬茁壯成長(zhǎng)”,就需要AI訓(xùn)推&應(yīng)用開發(fā)高可用:
這個(gè)環(huán)節(jié),需要圍繞訓(xùn)練、模型推理部署、AI應(yīng)用開發(fā)、AI應(yīng)用服務(wù)的整個(gè)生命周期,保障訓(xùn)推平臺(tái)、MaaS平臺(tái)、開發(fā)平臺(tái)、API網(wǎng)關(guān)的可靠性和安全性。
讓大模型開發(fā)者和AI應(yīng)用的使用者,享受持續(xù)的服務(wù)和卓越的體驗(yàn)。
這么說吧,從基礎(chǔ)設(shè)施到數(shù)據(jù)供給再到訓(xùn)推和AI應(yīng)用開發(fā),就像三腳架的三個(gè)支點(diǎn),缺一不可。
必須全棧高可用,三個(gè)都穩(wěn),則大模型穩(wěn)。任何一個(gè)支點(diǎn)有短板,則大模型危。
那么,這樣的全棧高可用方案,怎么才能獲得呢?
我們以阿里云為例,來看看他們是怎么干的↓
最近,阿里云推出了全棧AI負(fù)載高可用架構(gòu),給業(yè)界展示了生成式AI時(shí)代的云到底應(yīng)該如何架構(gòu)。
??
接下來,我們來看在每個(gè)層面,阿里云具體都有哪些高可用的保障。
01、「AI基礎(chǔ)設(shè)施高可用」
部署過算力集群的老司機(jī)都知道,甭管是哪家的GPU,故障率都很高,很多訓(xùn)練中斷,都是因?yàn)镚PU作妖。
而阿里云磐久服務(wù)器基于AI算法,可以對(duì)GPU的故障進(jìn)行精準(zhǔn)預(yù)測(cè),從而提前預(yù)判故障,及時(shí)進(jìn)行物理節(jié)點(diǎn)自動(dòng)化切換。
同時(shí),磐久服務(wù)器有CIPU2.0加持,這是阿里云自研的一種云基礎(chǔ)設(shè)施處理器,除了具備性能加速能力外,還可以提供全方位安全能力增強(qiáng),讓整機(jī)穩(wěn)定性提升20%。
單機(jī)穩(wěn)定是集群穩(wěn)定的基礎(chǔ),阿里云還通過集群健康檢測(cè)、故障感知和自愈、HPN7.0集群網(wǎng)絡(luò)的冗余設(shè)計(jì)等手段,進(jìn)一步提升訓(xùn)練業(yè)務(wù)的穩(wěn)定性和計(jì)算資源的使用效率。
最終,由磐久服務(wù)器、HPN7.0高性能網(wǎng)絡(luò)組成的靈駿智算集群,在大規(guī)模訓(xùn)練作業(yè)中有效訓(xùn)練時(shí)長(zhǎng)占比高于99%,披星戴月“肝出”大模型。
這份“披星戴月”的戰(zhàn)斗力,還需要算、存、網(wǎng)的集體加持↓
在存儲(chǔ)服務(wù)上,阿里云推出了Regional ESSD,這是一種多可用區(qū)級(jí)的ESSD,基于飛天盤古同城冗余架構(gòu),支持多重掛載,容忍可用區(qū)級(jí)別故障。
即便單個(gè)IDC故障,仍然可以保證數(shù)據(jù)不丟失、保障數(shù)據(jù)一致性。
除了Regional ESSD,阿里云存儲(chǔ)服務(wù)還有同城冗余和數(shù)據(jù)保護(hù)能力↓
比如OSS對(duì)象存儲(chǔ)也支持同城多機(jī)房容災(zāi),滿足RTPO=0的苛刻要求,Tablestore表存儲(chǔ)同城冗余。
提供數(shù)據(jù)災(zāi)備和合規(guī)管理,并支持備份點(diǎn)病毒檢測(cè),快速識(shí)別干凈數(shù)據(jù)完成恢復(fù)。
在網(wǎng)絡(luò)服務(wù)上,阿里云HPN高性能網(wǎng)絡(luò)已經(jīng)進(jìn)化到8.0,提供400G/800G低延遲無阻塞多路徑網(wǎng)絡(luò)連接。
還有一個(gè)“近水樓臺(tái)”的獨(dú)特功能,用戶可以通過Privatelink私網(wǎng)通道高速訪問通義大模型家族,既高效又安全。
當(dāng)然,在基礎(chǔ)設(shè)施層面,還有多Region和多AZ的云架構(gòu),阿里云作為一線大云,這屬于彈性和韌性方面的標(biāo)配,我們就不多說了。
02、「AI數(shù)據(jù)處理高可用」
在數(shù)據(jù)處理這一層,底座有阿里云對(duì)象存儲(chǔ)OSS,作為PB級(jí)、EB級(jí)超大規(guī)模數(shù)據(jù)統(tǒng)一承載,并與多種計(jì)算引擎、AI框架進(jìn)行深度集成。
提供多副本冗余、同城容災(zāi)、大文件端點(diǎn)續(xù)傳、批量和多線程數(shù)據(jù)操作等融合手段,來保障數(shù)據(jù)服務(wù)的高可靠。
在穩(wěn)固的數(shù)據(jù)底座之上,阿里云構(gòu)建了大數(shù)據(jù)、搜索、AI一體化解決方案:OpenLake。
OpenLake基于開放的數(shù)據(jù)湖倉(cāng)格式,支持大數(shù)據(jù)、搜索和AI多引擎對(duì)接,實(shí)現(xiàn)引擎平權(quán)協(xié)同計(jì)算。并且OpenLake支持多級(jí)容災(zāi)體系,能夠讓“飼料”供應(yīng)鏈穩(wěn)健運(yùn)轉(zhuǎn)。
同時(shí),阿里云通過DMS+DTS(數(shù)據(jù)管理服務(wù)+數(shù)據(jù)傳輸服務(wù)),構(gòu)建了針對(duì)AI場(chǎng)景的數(shù)據(jù)庫(kù)多AZ、跨Region高可用與容災(zāi)方案。
無論傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),還是針對(duì)AI訓(xùn)推的向量數(shù)據(jù)庫(kù),都可以通過DTS的實(shí)時(shí)雙向同步、就近讀寫、負(fù)載均衡,實(shí)現(xiàn)跨Region的強(qiáng)一致性,保證AI數(shù)據(jù)服務(wù)高可用。
03、「AI訓(xùn)推&應(yīng)用構(gòu)建高可用」
在這一層級(jí),阿里云有兩大高可用平臺(tái):一個(gè)是用于模型訓(xùn)推的PAI,另一個(gè)是用于MaaS服務(wù)和應(yīng)用開發(fā)的百煉。
訓(xùn)練環(huán)節(jié),PAI提供彈性容錯(cuò)引擎AI Master,可以自動(dòng)發(fā)現(xiàn)并修復(fù)出錯(cuò)的任務(wù),并且可以各種底層監(jiān)控,發(fā)現(xiàn)問題節(jié)點(diǎn),就啟動(dòng)自愈。
故障任務(wù)分鐘級(jí)恢復(fù),大幅提升訓(xùn)練效率。
推理環(huán)節(jié),PAI-EAS(模型在線服務(wù)平臺(tái))可以分鐘級(jí)彈性自動(dòng)擴(kuò)縮,每分鐘可以擴(kuò)展10000Pod,再高的突發(fā)推理負(fù)載也不怕。
同時(shí),PAI-EAS在承載各種實(shí)時(shí)推理、近實(shí)時(shí)推理任務(wù)時(shí),可以感知每個(gè)推理請(qǐng)求的執(zhí)行進(jìn)度,進(jìn)行智能任務(wù)調(diào)度,提升擴(kuò)縮容效率,保障服務(wù)體驗(yàn)。
模型托管服務(wù)和開發(fā)環(huán)節(jié),百煉MaaS平臺(tái)核心模型服務(wù)API達(dá)到99.99% 的SLA,并對(duì)實(shí)時(shí)AI語(yǔ)音交互、實(shí)時(shí)AI搜索這種高性能場(chǎng)景,提供超低延遲API響應(yīng)。
此外,阿里云所講的「全?!?,不只是三大支點(diǎn)(基礎(chǔ)設(shè)施、數(shù)據(jù)處理、訓(xùn)推&應(yīng)用構(gòu)建)高可用,還提供AI開發(fā)的全鏈路可觀測(cè)。
通過實(shí)時(shí)的監(jiān)控和分析,來進(jìn)行健康性檢查和開發(fā)體驗(yàn)持續(xù)優(yōu)化。
現(xiàn)在,從牛棚搭建到飼料供給,從育種呵護(hù)到監(jiān)管防疫,方方面面全部到位。
AI和大模型牛馬的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性都有了保障。
不止如此,在全棧AI高可用的基礎(chǔ)上,阿里云與用戶攜手,共同努力打造AI原生的智能化、自動(dòng)化、可持續(xù)的云上IT治理體系,推出「阿里云卓越架構(gòu)」。
這套架構(gòu),是阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗(yàn),總結(jié)出來的方法論和架構(gòu)設(shè)計(jì)原則,從安全、穩(wěn)定、效率、成本、性能五個(gè)層面,來提升系統(tǒng)整體韌性和運(yùn)營(yíng)效率。
合理借鑒這些方法論和實(shí)踐經(jīng)驗(yàn),無論傳統(tǒng)云上生產(chǎn)業(yè)務(wù),還是AI大模型“新貴”業(yè)務(wù),都可以更安全、更穩(wěn)定、更高效、更有性價(jià)比的用好云。
宕機(jī)不可怕,就怕沒規(guī)劃
這些導(dǎo)致宕機(jī)的“雪花”,就是貫穿大模型全生命周期的每個(gè)環(huán)節(jié)、每個(gè)細(xì)節(jié),涉及云服務(wù)商、模型服務(wù)商/開發(fā)者、AI用戶等不同角色。
云服務(wù)商要“搭好臺(tái)”,確保全棧服務(wù)的高可用;大模型服務(wù)商、開發(fā)者要“唱好戲”,采用先進(jìn)的設(shè)計(jì)、選擇合適的服務(wù)、搭建正確的架構(gòu)↓
當(dāng)每片“雪花”都落對(duì)了地方
大模型服務(wù)就能夠高效穩(wěn)健運(yùn)轉(zhuǎn)
打工人的各種大模型“牛馬”
才能扛起生產(chǎn)級(jí)的硬活兒
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.