Operationalizing AI/ML in Future Networks:
A Bird’s Eye View from the System Perspective
在未來網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化:系統(tǒng)視角的鳥瞰圖
https://arxiv.org/pdf/2303.04073
摘要
在過去十年中,以機(jī)器學(xué)習(xí)(ML)為代表的現(xiàn)代人工智能(AI)技術(shù)獲得了前所未有的發(fā)展勢頭。隨著這股“AI夏季”的浪潮,網(wǎng)絡(luò)研究界也逐步引入AI/ML算法來解決與網(wǎng)絡(luò)運維相關(guān)的問題。然而,與其他領(lǐng)域相比,大多數(shù)基于機(jī)器學(xué)習(xí)的解決方案尚未實現(xiàn)大規(guī)模部署,主要原因是其在生產(chǎn)環(huán)境中的成熟度尚顯不足。本文聚焦于在實際網(wǎng)絡(luò)中開發(fā)和運營基于ML的解決方案時所面臨的實際問題。具體而言,我們列舉了阻礙AI/ML在真實網(wǎng)絡(luò)中集成的關(guān)鍵因素,并回顧現(xiàn)有解決方案以揭示被忽視的重要考量。此外,我們強(qiáng)調(diào)了一個有前景的方向——即機(jī)器學(xué)習(xí)運維(MLOps),它有助于彌合當(dāng)前差距。我們認(rèn)為本文突出了在實現(xiàn)和維護(hù)基于ML的解決方案過程中涉及的系統(tǒng)性考慮,從而推動其在未來網(wǎng)絡(luò)中的全面采用。
關(guān)鍵詞 :面向網(wǎng)絡(luò)的AI/ML,網(wǎng)絡(luò)系統(tǒng)
引言
過去十年見證了現(xiàn)代電信行業(yè)在“網(wǎng)絡(luò)軟化”技術(shù)(如軟件定義網(wǎng)絡(luò)SDN和網(wǎng)絡(luò)功能虛擬化NFV)推動下的深刻變革。通過將傳統(tǒng)的硬件中心化網(wǎng)絡(luò)組件轉(zhuǎn)化為基于軟件的流程,SDN/NFV帶來了前所未有的靈活性、可擴(kuò)展性和效率 [1]–[3]。盡管如此,隨著電信基礎(chǔ)設(shè)施的迅速擴(kuò)張,現(xiàn)代網(wǎng)絡(luò)的規(guī)模和動態(tài)性持續(xù)增長,網(wǎng)絡(luò)管理仍然是一個艱巨的任務(wù) [4]。
與此同時,人工智能/機(jī)器學(xué)習(xí)取得了顯著進(jìn)展,并在各個商業(yè)領(lǐng)域引起了戰(zhàn)略性的關(guān)注。根據(jù)Gartner和MIT Sloan管理學(xué)院的報告,AI已帶來每年3.9萬億美元的商業(yè)價值,并被83%的CEO視為戰(zhàn)略優(yōu)先事項 [5]。受這些成功案例的啟發(fā),網(wǎng)絡(luò)研究人員正廣泛探索AI/ML在各類任務(wù)中的應(yīng)用 [2],[6]。這些基于機(jī)器學(xué)習(xí)的解決方案(包括應(yīng)用程序、功能和服務(wù))在許多方面展現(xiàn)出優(yōu)于傳統(tǒng)固定策略方法的潛力 [4]。
盡管興趣濃厚,但現(xiàn)代網(wǎng)絡(luò)的快速發(fā)展使得構(gòu)建和管理用于AI部署的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)變得幾乎不可能,而這類數(shù)據(jù)是AI在真實系統(tǒng)中成功落地的關(guān)鍵。根據(jù)最近一份報告 [7],88%的電信行業(yè)中AI/ML概念驗證項目未能進(jìn)入實際部署階段。主要原因在于缺乏足夠的“系統(tǒng)思維” [8]。
根據(jù)我們的觀察,現(xiàn)有的基于AI/ML的解決方案與真實網(wǎng)絡(luò)部署之間存在兩個根本性差異:(i) 單維度設(shè)計 :機(jī)器學(xué)習(xí)解決方案主要目標(biāo)是在特定性能指標(biāo)(尤其是準(zhǔn)確率)上超越先前方法,而往往忽略其他網(wǎng)絡(luò)/系統(tǒng)關(guān)鍵需求。例如,隨著網(wǎng)絡(luò)操作日益復(fù)雜且相互關(guān)聯(lián),優(yōu)化問題變得更加多指標(biāo)、多維度 [9];(ii) 系統(tǒng)差異性 :這些解決方案大多在受控環(huán)境中進(jìn)行演示,在面對真實網(wǎng)絡(luò)中更高的規(guī)模、復(fù)雜性和動態(tài)性時,難以低成本地適配。例如,鑒于基于ML的解決方案依賴數(shù)據(jù)驅(qū)動特性,在數(shù)據(jù)稀疏或環(huán)境漂移的情況下保障性能表現(xiàn)是一項重大挑戰(zhàn) [10]。這種“現(xiàn)實差距”嚴(yán)重阻礙了AI/ML在真實網(wǎng)絡(luò)中的整合與部署。
為了使AI/ML真正成為現(xiàn)代網(wǎng)絡(luò)不可或缺的一部分,需要輕量級的技術(shù)手段,能夠及時識別并觸發(fā)模型更新,確保部署的模型無論環(huán)境如何演變始終適用于其任務(wù)。基于上述前提,本文旨在闡明將AI/ML融入未來網(wǎng)絡(luò)生態(tài)所面臨的實際挑戰(zhàn)。具體來說,我們首先介紹面向網(wǎng)絡(luò)的AI/ML研究現(xiàn)狀及其與真實網(wǎng)絡(luò)之間的差距。隨后,我們列舉在生產(chǎn)級網(wǎng)絡(luò)中實現(xiàn)AI/ML所需的實際考量。接著,我們展望一個具有前景的方向——MLOps,該方向借鑒敏捷開發(fā)理念,融合軟件開發(fā)(Dev)與IT運維(Ops),旨在縮短系統(tǒng)開發(fā)周期,實現(xiàn)高質(zhì)量的持續(xù)交付 [11]。最后,我們介紹了兩個在網(wǎng)絡(luò)軟化背景下的示例用例:持續(xù)性能預(yù)測與異常檢測,并展示了其中一些前述技術(shù)的應(yīng)用實例。
在網(wǎng)絡(luò)中落地AI
在本節(jié)中,我們簡要回顧AI/ML的當(dāng)前狀態(tài),并詳細(xì)闡述阻礙其在網(wǎng)絡(luò)運營中廣泛采用的實際障礙。
當(dāng)前狀態(tài)
近年來,AI/ML在運營網(wǎng)絡(luò)中引發(fā)了極大的關(guān)注,這得益于以下幾點:(i) 理論研究中的創(chuàng)新性突破;(ii) 在計算機(jī)視覺和自然語言處理(NLP)等其他領(lǐng)域的成功應(yīng)用;以及 (iii) 具備硬件加速支持的優(yōu)化開發(fā)工具包的出現(xiàn)。與傳統(tǒng)的固定策略方法相比,AI/ML算法在大規(guī)模、多維數(shù)據(jù)上展現(xiàn)出卓越的模式匹配、增量學(xué)習(xí)和自動化能力 [6]。
標(biāo)準(zhǔn)化組織(如 ETSI、3GPP)預(yù)計 AI/ML 技術(shù)將在未來網(wǎng)絡(luò)的自動化中發(fā)揮關(guān)鍵作用。2024 年 2 月,ETSI 發(fā)布了一項標(biāo)準(zhǔn)(ETSI TR104032 [12]),強(qiáng)調(diào)了在整個 AI 模型生命周期中通過模型追蹤記錄(如 MLOps 框架)記錄關(guān)鍵細(xì)節(jié)的必要性。此外,3GPP 的一項標(biāo)準(zhǔn)(Rel-17 [13])也強(qiáng)調(diào)了管理工具和服務(wù)在推動 AI/ML 技術(shù)融入 5G 網(wǎng)絡(luò)方面的重要性。
在工業(yè)界,運營商級平臺正在積極開發(fā)中,以增強(qiáng) AI/ML 賦能的網(wǎng)絡(luò)服務(wù):諾基亞的 AVA 生態(tài)系統(tǒng)為電信運營商提供云原生的 AI/ML 和分析服務(wù),旨在實現(xiàn)網(wǎng)絡(luò)運維自動化、提升服務(wù)保障和用戶使用體驗并降低成本 [7];華為的 ADN 生態(tài)系統(tǒng)則通過專門支持 AI 運維的功能實現(xiàn)網(wǎng)絡(luò)自動化 [4],其架構(gòu)分為三個層級,即設(shè)備端 AI、在線邊緣/云 AI 和離線云 AI,從而支持具備不同時空特性的網(wǎng)絡(luò)與 AI 運維操作。在學(xué)術(shù)界,研究人員廣泛開發(fā)了各類機(jī)器學(xué)習(xí)算法,用于解決范圍廣泛的“網(wǎng)絡(luò)”問題,例如流量分類 [10]、資源調(diào)度 [6]、異常檢測 [1]、負(fù)載均衡 [2]、用戶體驗質(zhì)量(QoE)管理 [14] 等。隨著 AI/ML 領(lǐng)域(例如生成式 AI)的快速拓展,其在電信網(wǎng)絡(luò)中的應(yīng)用將持續(xù)豐富。
然而,在概念驗證與 AI/ML 項目的成功實時部署之間仍存在一定距離。我們將在以下章節(jié)中詳細(xì)討論這些具體困難。
挑戰(zhàn)與障礙
術(shù)語“ML系統(tǒng)”(機(jī)器學(xué)習(xí)系統(tǒng))常常與它所采用的算法聯(lián)系在一起,例如邏輯回歸或各種神經(jīng)網(wǎng)絡(luò)。然而,在實際生產(chǎn)環(huán)境中,這些算法僅代表完整ML系統(tǒng)的一小部分。如圖1所示,現(xiàn)實世界中的ML系統(tǒng)涵蓋了最初業(yè)務(wù)目標(biāo)、接口設(shè)計、整個數(shù)據(jù)堆棧,以及模型開發(fā)、監(jiān)控和更新的方法論。
生產(chǎn)環(huán)境中的機(jī)器學(xué)習(xí)并不等同于研究環(huán)境中的機(jī)器學(xué)習(xí),因為后者通常在測試數(shù)據(jù)集上達(dá)成優(yōu)化目標(biāo)后,很少考慮部署與維護(hù)問題 [4]。根據(jù)我們的研究,將AI落地到網(wǎng)絡(luò)中面臨的主要挑戰(zhàn)可總結(jié)如下:
數(shù)據(jù)復(fù)雜性:網(wǎng)絡(luò)數(shù)據(jù)具有更加多樣的格式,例如原始數(shù)據(jù)包、流級統(tǒng)計信息、配置文件、系統(tǒng)日志和事件告警。這些數(shù)據(jù)可能包含類別型、時間序列型、空間型,甚至是圖結(jié)構(gòu)語義信息。這種高多樣性、高速度和大體量的多模態(tài)數(shù)據(jù)在建模和處理上極具挑戰(zhàn)性 [14],更不用說由于數(shù)據(jù)和系統(tǒng)演進(jìn)所帶來的自然分布漂移問題。
多維需求特性:研究人員往往聚焦于單一目標(biāo),最常見的目標(biāo)是模型性能——即開發(fā)出在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異的模型。但在實際網(wǎng)絡(luò)中,關(guān)鍵性能指標(biāo)(KPI)的優(yōu)化不能孤立進(jìn)行。例如,一些預(yù)測準(zhǔn)確率很高的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,卻難以適配資源受限的網(wǎng)絡(luò)設(shè)備 [3]。此外,較高的推理延遲可能使模型無法滿足實時性要求,尤其是在服務(wù)延遲以微秒為單位衡量的高速網(wǎng)絡(luò)中 [14]。
本質(zhì)上,ML系統(tǒng)中的學(xué)習(xí)復(fù)雜度與運行時復(fù)雜度都應(yīng)同等重視:前者涉及訓(xùn)練模型所需的計算與資源成本,而后者則指部署和管理已訓(xùn)練模型的成本。
隱藏的技術(shù)債務(wù):這一術(shù)語由Sculley等人提出 [8],指的是非專家在實際部署基于ML的系統(tǒng)時所承擔(dān)的大量運營成本。在網(wǎng)絡(luò)系統(tǒng)中也存在類似的問題。由于現(xiàn)有解決方案大多是在模擬或受控環(huán)境中開發(fā)的,實際部署與維護(hù)問題通常被忽視。
而在真實系統(tǒng)中,ML模型必須作為數(shù)據(jù)處理流水線的一部分進(jìn)行部署。由于開發(fā)工具包和部署目標(biāo)各異,將其集成到真實網(wǎng)絡(luò)中可能會既繁瑣又容易出錯。此外,網(wǎng)絡(luò)設(shè)備可能來自不同廠商,具有定制化的配置、優(yōu)化和執(zhí)行流程,因此在其上部署AI/ML可能導(dǎo)致復(fù)雜的手動調(diào)優(yōu)、定制化和可行性測試。
更重要的是,ML-based 解決方案并不是一次性完成的過程,它們需要不斷升級,以滿足業(yè)務(wù)需求,并在電信行業(yè)快速演進(jìn)的過程中持續(xù)創(chuàng)造長期價值。
在生產(chǎn)網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化:現(xiàn)狀
為了彌合現(xiàn)實差距,實現(xiàn)AI/ML在生產(chǎn)環(huán)境中的無縫落地,在整個機(jī)器學(xué)習(xí)生命周期 (包括數(shù)據(jù)準(zhǔn)備、開發(fā)和運維階段)中存在許多關(guān)鍵的系統(tǒng)相關(guān)考量,如圖2所示。本節(jié)總結(jié)了這些考量,并探討了在網(wǎng)絡(luò)領(lǐng)域中相關(guān)的研究工作。所選文獻(xiàn)基于兩個標(biāo)準(zhǔn):(i) 涉及一個或多個實際問題;(ii) 提出的方法已在真實網(wǎng)絡(luò)系統(tǒng)中進(jìn)行了實現(xiàn)和驗證。
數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)質(zhì)量直接決定了任何基于AI/ML的產(chǎn)品所能達(dá)到的上限,這也推動了近年來“以數(shù)據(jù)為中心的AI”(data-centric AI)的發(fā)展趨勢 [5]。由于真實網(wǎng)絡(luò)中的復(fù)雜性,高質(zhì)量的數(shù)據(jù)集并不總是可用的。確保數(shù)據(jù)質(zhì)量通常會占據(jù)AI/ML項目平均60%的時間 [7]。
因此,在數(shù)據(jù)準(zhǔn)備過程中需要特別關(guān)注以下環(huán)節(jié),以向機(jī)器學(xué)習(xí)算法提供高質(zhì)量的數(shù)據(jù)支持:數(shù)據(jù)采集與特征提取 。
數(shù)據(jù)采集 由于監(jiān)督學(xué)習(xí)是最常用的一類算法,獲取標(biāo)簽是構(gòu)建訓(xùn)練數(shù)據(jù)的關(guān)鍵 [9]。現(xiàn)有解決方案中,數(shù)據(jù)一般來源于三個渠道:(i) 實際運行的網(wǎng)絡(luò);(ii) 受控環(huán)境;或 (iii) (整理后的)公開數(shù)據(jù)/數(shù)據(jù)集。
在情況(i)中,盡管有多種數(shù)據(jù)采集方法,但該過程可能帶來巨大的運維成本,因此必須進(jìn)行權(quán)衡 [2]。例如,在高速網(wǎng)絡(luò)中,為了減少對數(shù)據(jù)路徑的影響,通常優(yōu)先采用采樣方式而非逐包采集。此外,數(shù)據(jù)采集還可能引發(fā)不可控的情況,如丟包、采樣偏差或模式變更,從而導(dǎo)致異常值和離群點的出現(xiàn)。
數(shù)據(jù)標(biāo)注仍然是一項勞動密集型任務(wù),因為它需要大量的人工參與,且難以隨著數(shù)據(jù)量的增長而擴(kuò)展 [10]。盡管已有先進(jìn)技術(shù)(如弱監(jiān)督、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和主動學(xué)習(xí))用于緩解數(shù)據(jù)稀缺問題,但這些方法仍依賴于預(yù)標(biāo)注數(shù)據(jù)集或人工輸入,限制了其在處理大規(guī)模、復(fù)雜數(shù)據(jù)集時的可擴(kuò)展性和有效性。
在情況(ii)和(iii)中,由于數(shù)據(jù)來自目標(biāo)網(wǎng)絡(luò)之外,其統(tǒng)計特性可能與部署假設(shè)不一致,進(jìn)而導(dǎo)致意想不到的后果,例如數(shù)據(jù)漂移。因此,在模型部署之前,有必要通過測試來揭示潛在的偏差或異常。
特征提取 原始網(wǎng)絡(luò)數(shù)據(jù)必須被轉(zhuǎn)換為符合后續(xù)AI/ML算法要求的特征表示。**特征提取是一項具有挑戰(zhàn)性的任務(wù)**——不同的特征集意味著不同的系統(tǒng)開銷(以及模型性能),因此值得深入研究。
現(xiàn)有的許多基于機(jī)器學(xué)習(xí)的解決方案往往經(jīng)驗性地定義自定義特征,這些特征在實際部署中可能難以獲取和擴(kuò)展。此外,在網(wǎng)絡(luò)演進(jìn)過程中,所采用的特征選擇方案也可能需要重新設(shè)計和調(diào)整。
如文獻(xiàn) [15] 中所述,真實系統(tǒng)中的流量模式和網(wǎng)絡(luò)狀況始終處于變化之中,這使得現(xiàn)有特征逐漸失效,從而需要不斷進(jìn)行新的特征工程。
現(xiàn)有解決方案:
在當(dāng)前的網(wǎng)絡(luò)研究中,已有幾項開創(chuàng)性工作針對數(shù)據(jù)采集與特征提取的實際挑戰(zhàn)提出了應(yīng)對方案:
Bronzino等人 [14] 提出了 Traffic Refinery,這是一個高效的自動化流水線,用于流級別數(shù)據(jù)的采集與特征提取。該方案通過整合多種設(shè)計選擇,以緩解丟包問題,從而更好地契合網(wǎng)絡(luò)運營商的目標(biāo)。此外,一個專用的性能分析器可以量化系統(tǒng)級成本,幫助運營商在特征選擇與模型準(zhǔn)確性之間做出權(quán)衡。
在另一項獨立研究中,Yao等人 [2] 提出了 Aquarius 框架,旨在為數(shù)據(jù)中心網(wǎng)絡(luò)提供靈活的數(shù)據(jù)采集與特征提取機(jī)制。該系統(tǒng)嵌入了一個傳輸層采集器,用于高效提取TCP流量特征,并將其存儲在共享內(nèi)存中,從而在不干擾數(shù)據(jù)平面的前提下,實現(xiàn)控制平面上ML算法的無縫交互。
最后,Holland等人 [15] 提出了 nPrint 框架,它將數(shù)據(jù)包轉(zhuǎn)換為一種一致的二進(jìn)制格式,同時保留其上下文語義信息。這種機(jī)制使機(jī)器學(xué)習(xí)算法能夠自動識別關(guān)鍵特征,避免了人工特征提取的繁瑣過程。
開發(fā) 模型開發(fā)是一個迭代過程。在每一次迭代中,重要的是評估當(dāng)前模型相較于以往版本的表現(xiàn),并判斷其是否具備部署到實際網(wǎng)絡(luò)中的準(zhǔn)備條件 [9]。
模型開發(fā)包含兩個基本步驟:(i) 算法設(shè)計,以及 (ii) 模型訓(xùn)練與驗證,這兩個環(huán)節(jié)對于確定解決方案是否具備面向目標(biāo)網(wǎng)絡(luò)的就緒性至關(guān)重要。
算法設(shè)計
機(jī)器學(xué)習(xí)的目的可以分為三個方面:
1. 有效利用已有知識;
2. 對未知現(xiàn)象形成結(jié)構(gòu)化理解;
3. 通過學(xué)習(xí)達(dá)成特定目標(biāo);
這三個目的分別對應(yīng)機(jī)器學(xué)習(xí)的三大分支:監(jiān)督學(xué)習(xí)(Supervised Learning)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning) 和 強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),它們之間也可能存在交叉(例如半監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí))。
監(jiān)督學(xué)習(xí)(Supervised ML) 技術(shù),如回歸和分類,在開環(huán)環(huán)境中擅長處理定義明確的問題,有助于提升對網(wǎng)絡(luò)流量的可見性或從原始數(shù)據(jù)中提煉洞見。
回歸技術(shù)適用于預(yù)測任務(wù)(如流量需求或用戶行為),或?qū)W習(xí)復(fù)雜關(guān)系,例如將網(wǎng)絡(luò)服務(wù)質(zhì)量(QoS)指標(biāo)與用戶體驗質(zhì)量(QoE)聯(lián)系起來。
分類技術(shù)是另一個AI技術(shù)發(fā)揮作用的典型場景:例如,流量優(yōu)先級劃分可能需要粗粒度的流量類別標(biāo)簽用于策略控制,有時還需要細(xì)粒度的應(yīng)用標(biāo)簽。
無監(jiān)督學(xué)習(xí)(Unsupervised ML) 則通過識別數(shù)據(jù)中的模式和結(jié)構(gòu)來進(jìn)行操作,而無需標(biāo)注數(shù)據(jù),依賴于算法自身發(fā)現(xiàn)數(shù)據(jù)集中的內(nèi)在特征與關(guān)系。
例如,在異常檢測中,無監(jiān)督AI使用算法自主學(xué)習(xí)底層分布,識別數(shù)據(jù)偏離。這些算法能夠識別出顯著偏離已知模式的離群值,而無需依賴預(yù)標(biāo)注的正常數(shù)據(jù)樣本。
強(qiáng)化學(xué)習(xí)(RL) 更適合持續(xù)且高效的閉環(huán)自動化環(huán)境。
一個例子是使用RL實現(xiàn)資源管理的自動化,可以通過集中式的云代理或分布式設(shè)備代理來實現(xiàn) [4]。
在此背景下,AI代理致力于改善服務(wù)質(zhì)量(QoS),例如提高傳輸效率、降低延遲。為了實現(xiàn)這一目標(biāo),代理會根據(jù)其行為獲得獎勵,從而在龐大的狀態(tài)空間中有效平衡“探索”與“利用”,提供自動化的優(yōu)化方案 [15]。
模型訓(xùn)練與驗證
在模型訓(xùn)練與驗證的系統(tǒng)語境中,一些因素——如推理效率、泛化能力與安全性——與傳統(tǒng)的準(zhǔn)確性關(guān)注具有同等重要性:
- 泛化能力確保模型能在動態(tài)環(huán)境中及時適應(yīng),如抗災(zāi)網(wǎng)絡(luò);
- 安全性對于需頻繁與真實系統(tǒng)交互的ML算法尤為關(guān)鍵;
- 推理效率則對快速決策至關(guān)重要。
模型訓(xùn)練與驗證的過程可以借助諸如 MLflow、Weights & Biases 和 DVC 等工具加以增強(qiáng)。這些工具支持機(jī)器學(xué)習(xí)算法的選擇和超參數(shù)調(diào)整,推動模型的自動化與高效優(yōu)化。
現(xiàn)有解決方案:
以下兩項前期工作探討了如何利用AutoML(自動化機(jī)器學(xué)習(xí))來自動完成模型選擇與超參數(shù)調(diào)優(yōu),從而向網(wǎng)絡(luò)運營人員隱藏AI/ML相關(guān)的復(fù)雜性:
- Holland等人 [15] 利用 AutoGluon-Tabular 框架,基于給定的特征與標(biāo)簽,自動尋找并集成具有高預(yù)測準(zhǔn)確率和低推理延遲的模型。
- Swamy等人 [1] 使用一種優(yōu)化框架,將算法選擇與模型生成建模為一個基于用戶意圖和網(wǎng)絡(luò)約束的貝葉斯優(yōu)化問題,從而實現(xiàn)自動執(zhí)行。
- Lacoboaiea等人 [6] 針對構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的信道管理器所面臨的挑戰(zhàn)展開研究,重點關(guān)注訓(xùn)練的安全性、效率、環(huán)境真實性與泛化能力。他們采用數(shù)字孿生(digital twins) 實現(xiàn)安全訓(xùn)練,調(diào)整學(xué)習(xí)率以提升效率,結(jié)合真實數(shù)據(jù)增強(qiáng)模擬器的真實性,并通過合成噪聲與真實數(shù)據(jù)融合增強(qiáng)模型泛化能力。
運維(Operations)
本部分詳細(xì)闡述基于AI/ML的解決方案在真實網(wǎng)絡(luò)中的部署與管理過程中需要關(guān)注的問題。
部署 實際部署涵蓋模型的打包、定制化和可行性測試。由于傳統(tǒng)的基于機(jī)器學(xué)習(xí)的解決方案主要面向控制平面,這類模型通常可以由標(biāo)準(zhǔn)的模型服務(wù)工具處理。
近年來,隨著“網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)”(in-network ML)的興起,研究人員開始將機(jī)器學(xué)習(xí)的前沿推進(jìn)到網(wǎng)絡(luò)數(shù)據(jù)平面,以利用其中海量的數(shù)據(jù) [3]。然而,由于本地實現(xiàn)環(huán)境與網(wǎng)絡(luò)基礎(chǔ)設(shè)施之間的差異,以及工具鏈的不統(tǒng)一,模型部署變成了一項西西弗斯式的任務(wù)(Sisyphean task),嚴(yán)重阻礙了定制化進(jìn)程。
此外,網(wǎng)絡(luò)中充斥著各種架構(gòu)不同、配置流程各異、資源占用不同的專用硬件設(shè)備(例如 SmartNICs、P4 交換機(jī)、嵌入式設(shè)備),這使得部署過程需要將解決方案重構(gòu)為一個通用的數(shù)據(jù)處理流水線,同時對網(wǎng)絡(luò)服務(wù)造成最小干擾 [1]。
管理 除了部署之外,對已部署的基于ML的解決方案的管理還涉及模型服務(wù)、資源與運維管理、以及漂移監(jiān)測等任務(wù)。
特別地,由于網(wǎng)絡(luò)系統(tǒng)可能快速演進(jìn),內(nèi)在的概念漂移或數(shù)據(jù)漂移可能導(dǎo)致模型性能下降和服務(wù)質(zhì)量退化。因此,應(yīng)持續(xù)檢查推理結(jié)果的質(zhì)量,以檢測性能下降,并在適當(dāng)時觸發(fā)模型重建流程。
在實際網(wǎng)絡(luò)中,正確的質(zhì)量評估指標(biāo)和觸發(fā)機(jī)制應(yīng)被仔細(xì)界定,同時還要在監(jiān)控開銷與質(zhì)量評估準(zhǔn)確性之間取得平衡 [10]。
根據(jù)具體問題背景,模型重建流程可以從數(shù)據(jù)準(zhǔn)備與標(biāo)注階段,或者模型開發(fā)階段重新開始,這些流程必須事先明確指定。
現(xiàn)有解決方案
為應(yīng)對上述挑戰(zhàn):
- Zheng等人 [3] 提出了 Planter,這是一個模塊化架構(gòu),支持多種網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)算法在三大主流硬件平臺上的無縫部署。
Planter 支持大量主流機(jī)器學(xué)習(xí)算法。其在訓(xùn)練后自動將模型轉(zhuǎn)換為目標(biāo)平臺定制化的 P4 代碼,隨后進(jìn)行編譯和集成以完成部署。
- Swamy等人 [1] 設(shè)計了一套編譯器工具,可自動為流行的數(shù)據(jù)平面生成目標(biāo)導(dǎo)向的代碼。
他們利用一個周期精確模擬器,提前評估模型的關(guān)鍵性能指標(biāo)(如吞吐量、延遲和資源利用率)。
- Yang等人 [10] 應(yīng)對推理監(jiān)控問題,結(jié)合基于梯度的技術(shù)與開放集識別(Open Set Recognition)及可解釋AI(Explainable AI),深入分析推理質(zhì)量。
他們進(jìn)行了對比評估,以驗證其方法在推理監(jiān)控和數(shù)據(jù)漂移檢測方面的有效性。
我們對所有這些開創(chuàng)性工作進(jìn)行了總結(jié),如表I所示,涵蓋了其所針對的機(jī)器學(xué)習(xí)生命周期階段、支持的機(jī)器學(xué)習(xí)算法類型、目標(biāo)網(wǎng)絡(luò)環(huán)境以及應(yīng)用場景。
本質(zhì)上,每一項工作都覆蓋了機(jī)器學(xué)習(xí)生命周期中的部分階段。
拼圖中缺失的部分
基于上述綜述,我們識別出實現(xiàn)AI/ML全面落地所缺失的三個關(guān)鍵部分。
首先,盡管在各個領(lǐng)域取得了積極進(jìn)展,但這些進(jìn)展尚未被整合轉(zhuǎn)化為整體優(yōu)勢。在真實系統(tǒng)中,各個環(huán)節(jié)必須無縫銜接,形成一個端到端的數(shù)據(jù)處理流水線。然而,目前高度依賴人工干預(yù)的情況下,基于機(jī)器學(xué)習(xí)的解決方案在未來網(wǎng)絡(luò)中的管理將變得愈發(fā)復(fù)雜和沉重。
其次,由于缺乏系統(tǒng)的日志記錄與追蹤機(jī)制,可復(fù)現(xiàn)性 (reproducibility)無法得到保障。傳統(tǒng)的版本控制工具不足以完整捕捉機(jī)器學(xué)習(xí)工作流中的數(shù)據(jù)集、參數(shù)以及配置依賴關(guān)系。為了確保科學(xué)研究的嚴(yán)謹(jǐn)性和監(jiān)管合規(guī)性,這些內(nèi)容必須能夠始終如一地被復(fù)現(xiàn)。
第三,由于數(shù)據(jù)科學(xué)家與網(wǎng)絡(luò)工程師在專業(yè)知識和優(yōu)先事項上的差異,容易形成“信息孤島 ”(silos),這會阻礙工作效率,并延遲價值實現(xiàn)的時間(time-to-value)。
圖3展示了兩種機(jī)器學(xué)習(xí)生命周期管理的方法。
傳統(tǒng)的工作流程是一個一次性過程,包括數(shù)據(jù)采集、模型開發(fā)和部署,側(cè)重于首次快速交付 。然而,隨著時間維度的延伸,這種方法效率逐漸下降。特別是當(dāng)數(shù)據(jù)或系統(tǒng)發(fā)生變更時,模型需要持續(xù)重新訓(xùn)練。如果沒有適當(dāng)?shù)墓芾頇C(jī)制,隨著整個流程涉及從數(shù)據(jù)科學(xué)家到網(wǎng)絡(luò)工程師等多個團(tuán)隊,現(xiàn)有模型的復(fù)現(xiàn)和改進(jìn)將變得十分困難。人工資產(chǎn)的交接效率低下且負(fù)擔(dān)沉重。
相反,第二種方法采用了更加系統(tǒng)化的策略。最初,相關(guān)團(tuán)隊會投入大量時間構(gòu)建具備完善追蹤機(jī)制的自動化流水線。與人工方式相比,這種方法帶來了顯著的長期收益,包括良好的可復(fù)現(xiàn)性、模型的持續(xù)優(yōu)化能力,以及各環(huán)節(jié)之間的無縫溝通。
持續(xù)學(xué)習(xí)(Continual Learning)
持續(xù)學(xué)習(xí)使AI/ML從業(yè)者能夠高效地更新和部署模型。它能夠應(yīng)對數(shù)據(jù)分布漂移、基于罕見事件調(diào)整模型,并解決因未知數(shù)據(jù)帶來的冷啟動問題 [9]。
在網(wǎng)絡(luò)系統(tǒng)中,我們列舉了向持續(xù)學(xué)習(xí)演進(jìn)的以下階段:
階段 1 - 手動、無狀態(tài)再訓(xùn)練: 最初,研究人員手動重新訓(xùn)練模型,不利用歷史數(shù)據(jù)狀態(tài),這種情況常見于沒有專門團(tuán)隊來管理機(jī)器學(xué)習(xí)平臺的環(huán)境中。
階段 2 - 自動化再訓(xùn)練: 研究人員開始實現(xiàn)模型再訓(xùn)練的自動化。再訓(xùn)練頻率通常依賴經(jīng)驗判斷,例如每日更新,這種做法缺乏堅實的實證基礎(chǔ),但旨在優(yōu)化性能。
階段 3 - 自動化、有狀態(tài)訓(xùn)練: 為了提高效率,研究人員開始探索最近保存的模型狀態(tài)和檢查點,這對于需要頻繁更新模型的應(yīng)用場景尤為有益。
階段 4 - 面向網(wǎng)絡(luò)管理的持續(xù)學(xué)習(xí): 最先進(jìn)的階段是從固定時間表更新過渡到基于觸發(fā)機(jī)制的動態(tài)模型更新,其觸發(fā)條件可以是時間間隔、性能指標(biāo)、網(wǎng)絡(luò)流量或通信模式等,從而實現(xiàn)更靈敏和自適應(yīng)的網(wǎng)絡(luò)管理。
在現(xiàn)代網(wǎng)絡(luò)中應(yīng)用持續(xù)學(xué)習(xí)面臨重大挑戰(zhàn)。幸運的是,MLOps 提供了緩解這些問題的方法,詳見下一節(jié)。
MLOps:邁向端到端流水線
MLOps 是一套新興實踐,它將 DevOps 原則應(yīng)用于基于機(jī)器學(xué)習(xí)系統(tǒng)的開發(fā)與運維的統(tǒng)一 [5], [9]。
為何需要 MLOps?
傳統(tǒng)上,DevOps 能有效應(yīng)對軟件產(chǎn)品交付的運維成本。它是一套原則的集合,旨在打破軟件開發(fā)人員與 IT 運維工程師之間的壁壘,推動在整個產(chǎn)品生命周期中實現(xiàn)自動化、持續(xù)集成(CI)與持續(xù)部署(CD)。這些原則有助于眾多企業(yè)和組織實現(xiàn)IT目標(biāo)與業(yè)務(wù)成果 [10]。網(wǎng)絡(luò)行業(yè)也已采用 DevOps 來推動技術(shù)創(chuàng)新和收入增長。
然而,盡管 DevOps 能夠降低傳統(tǒng)軟件項目落地的運維開銷,但它在支持機(jī)器學(xué)習(xí)(ML)所具有的獨特特性方面仍顯不足。
傳統(tǒng)軟件與 ML 之間存在五個根本性差異:
1. 性能決定因素不同:
在傳統(tǒng)軟件中,代碼質(zhì)量主要決定了系統(tǒng)表現(xiàn);而在 AI/ML 中,模型與數(shù)據(jù)共同影響最終結(jié)果 [5]。
2. 工具鏈復(fù)雜度不同:
傳統(tǒng)軟件通常建立在功能完善的庫之上,具有清晰的抽象邊界 [8];而基于 ML 的解決方案往往涉及更廣泛的工具和庫,帶來了額外的集成與維護(hù)成本。
3. 行為確定性不同:
傳統(tǒng)軟件輸出是確定性的,而 ML 模型本質(zhì)上具有隨機(jī)性,因此需要不同的流程來驗證其行為表現(xiàn)。
4. 環(huán)境適應(yīng)性要求不同:
ML 模型容易受到數(shù)據(jù)漂移與概念漂移的影響,這在網(wǎng)絡(luò)環(huán)境中尤為常見,因此需要具備漂移檢測機(jī)制以及模型重建能力 [10]。
5. 所需技能集不同:
構(gòu)建和運營基于 ML 的解決方案需要數(shù)據(jù)科學(xué)相關(guān)的技能,而這在傳統(tǒng)的軟件或網(wǎng)絡(luò)運維流程中通常是缺失的。
根據(jù)最近的一項調(diào)查,55% 的電信運營商缺乏相關(guān)的數(shù)據(jù)科學(xué)人才 [7]。
在 DevOps 原則的基礎(chǔ)上,MLOps 通過以下實踐來適應(yīng) AI/ML 的獨特特性:
持續(xù)監(jiān)控(Continual Monitoring, CM) / 持續(xù)訓(xùn)練(Continual Training, CT) :
MLOps 通過持續(xù)監(jiān)測數(shù)據(jù)和推理質(zhì)量,在適當(dāng)時機(jī)重建模型,從而解決模型性能退化的問題。自動化(Automation) :
MLOps 將 AI/ML 生命周期整合為一個完全自動化的流水線,以降低運維成本。版本控制(Versioning) :
在 DevOps 的基礎(chǔ)上,MLOps 擴(kuò)展了對整個流程中各類產(chǎn)物(包括數(shù)據(jù)、模型和代碼)的版本控制。實驗追蹤(Experiment Tracking) :
對實驗過程進(jìn)行系統(tǒng)化追蹤,以確保結(jié)果的可復(fù)現(xiàn)性與可審計性。協(xié)作機(jī)制(Collaboration) :
MLOps 提倡建立一個統(tǒng)一平臺,促進(jìn)各參與方之間的協(xié)同合作,形成合力。
通過這些實踐,MLOps 整合了 AI/ML 全生命周期中的各項創(chuàng)新,并顯著降低了運營成本。盡管這一新興領(lǐng)域在網(wǎng)絡(luò)研究社區(qū)中仍處于早期階段,但我們設(shè)想了一個可行的架構(gòu),如圖4所示,該架構(gòu)在真實網(wǎng)絡(luò)中融合了大部分 MLOps 實踐。
面向網(wǎng)絡(luò)的 MLOps:一個案例研究
我們通過一個實時KPI預(yù)測 的案例研究來展示MLOps的優(yōu)勢,這是網(wǎng)絡(luò)管理中的一個關(guān)鍵環(huán)節(jié)。
我們在一個小規(guī)模數(shù)據(jù)中心 中部署了一個網(wǎng)絡(luò)服務(wù)鏈,并探索使用一種輕量級的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型 ,基于基礎(chǔ)設(shè)施層的硬件特征 進(jìn)行“非侵入式”的KPI預(yù)測。
我們采用了以下關(guān)鍵技術(shù):
使用 皮爾遜相關(guān)系數(shù) (Pearson Correlation Coefficient)進(jìn)行特征選擇;
利用 貝葉斯優(yōu)化 (Bayesian Optimization)實現(xiàn)自動超參數(shù)調(diào)優(yōu);
通過 Jensen-Shannon 散度 (Jensen-Shannon Divergence)量化數(shù)據(jù)漂移。
我們使用 Kubeflow (一個基于 Kubernetes 的開源 MLOps 平臺)對處理流水線進(jìn)行了重構(gòu)。
圖5展示了MLOps如何實現(xiàn)具有可持續(xù)性能的實時KPI預(yù)測 。
最初,我們的模型在服務(wù)吞吐量預(yù)測上的平均準(zhǔn)確率達(dá)到91% 。
在第70個時隙,發(fā)生了數(shù)據(jù)漂移 ,導(dǎo)致預(yù)測準(zhǔn)確率下降至48% 。
系統(tǒng)隨即自動觸發(fā)模型再訓(xùn)練 ,并部署了更新后的模型,將預(yù)測準(zhǔn)確率恢復(fù)至90% 。
結(jié)論
由于缺乏系統(tǒng)層面的考量,人工智能/機(jī)器學(xué)習(xí)(AI/ML)尚未成為現(xiàn)代網(wǎng)絡(luò)的有機(jī)組成部分。本文分析了現(xiàn)有基于AI/ML的解決方案與真實網(wǎng)絡(luò)系統(tǒng)之間的不一致性,并討論了其在整個產(chǎn)品生命周期中所涉及的各種實際考量因素。我們還回顧了相關(guān)研究,并指出了當(dāng)前缺失的關(guān)鍵環(huán)節(jié)。
隨后,我們通過一個案例研究驗證了MLOps在真實網(wǎng)絡(luò)系統(tǒng)中的優(yōu)勢。本文旨在提升業(yè)界對在生產(chǎn)環(huán)境中落地AI/ML所面臨實際挑戰(zhàn)的認(rèn)識,并加速其在未來網(wǎng)絡(luò)中的融合與應(yīng)用。
原文鏈接: https://arxiv.org/pdf/2303.04073
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.