99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

在未來網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化:系統(tǒng)視角的鳥瞰圖

0
分享至

Operationalizing AI/ML in Future Networks:

A Bird’s Eye View from the System Perspective

在未來網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化:系統(tǒng)視角的鳥瞰圖

https://arxiv.org/pdf/2303.04073


摘要

在過去十年中,以機(jī)器學(xué)習(xí)(ML)為代表的現(xiàn)代人工智能(AI)技術(shù)獲得了前所未有的發(fā)展勢頭。隨著這股“AI夏季”的浪潮,網(wǎng)絡(luò)研究界也逐步引入AI/ML算法來解決與網(wǎng)絡(luò)運維相關(guān)的問題。然而,與其他領(lǐng)域相比,大多數(shù)基于機(jī)器學(xué)習(xí)的解決方案尚未實現(xiàn)大規(guī)模部署,主要原因是其在生產(chǎn)環(huán)境中的成熟度尚顯不足。本文聚焦于在實際網(wǎng)絡(luò)中開發(fā)和運營基于ML的解決方案時所面臨的實際問題。具體而言,我們列舉了阻礙AI/ML在真實網(wǎng)絡(luò)中集成的關(guān)鍵因素,并回顧現(xiàn)有解決方案以揭示被忽視的重要考量。此外,我們強(qiáng)調(diào)了一個有前景的方向——即機(jī)器學(xué)習(xí)運維(MLOps),它有助于彌合當(dāng)前差距。我們認(rèn)為本文突出了在實現(xiàn)和維護(hù)基于ML的解決方案過程中涉及的系統(tǒng)性考慮,從而推動其在未來網(wǎng)絡(luò)中的全面采用。

關(guān)鍵詞 :面向網(wǎng)絡(luò)的AI/ML,網(wǎng)絡(luò)系統(tǒng)


引言

過去十年見證了現(xiàn)代電信行業(yè)在“網(wǎng)絡(luò)軟化”技術(shù)(如軟件定義網(wǎng)絡(luò)SDN和網(wǎng)絡(luò)功能虛擬化NFV)推動下的深刻變革。通過將傳統(tǒng)的硬件中心化網(wǎng)絡(luò)組件轉(zhuǎn)化為基于軟件的流程,SDN/NFV帶來了前所未有的靈活性、可擴(kuò)展性和效率 [1]–[3]。盡管如此,隨著電信基礎(chǔ)設(shè)施的迅速擴(kuò)張,現(xiàn)代網(wǎng)絡(luò)的規(guī)模和動態(tài)性持續(xù)增長,網(wǎng)絡(luò)管理仍然是一個艱巨的任務(wù) [4]。

與此同時,人工智能/機(jī)器學(xué)習(xí)取得了顯著進(jìn)展,并在各個商業(yè)領(lǐng)域引起了戰(zhàn)略性的關(guān)注。根據(jù)Gartner和MIT Sloan管理學(xué)院的報告,AI已帶來每年3.9萬億美元的商業(yè)價值,并被83%的CEO視為戰(zhàn)略優(yōu)先事項 [5]。受這些成功案例的啟發(fā),網(wǎng)絡(luò)研究人員正廣泛探索AI/ML在各類任務(wù)中的應(yīng)用 [2],[6]。這些基于機(jī)器學(xué)習(xí)的解決方案(包括應(yīng)用程序、功能和服務(wù))在許多方面展現(xiàn)出優(yōu)于傳統(tǒng)固定策略方法的潛力 [4]。

盡管興趣濃厚,但現(xiàn)代網(wǎng)絡(luò)的快速發(fā)展使得構(gòu)建和管理用于AI部署的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)變得幾乎不可能,而這類數(shù)據(jù)是AI在真實系統(tǒng)中成功落地的關(guān)鍵。根據(jù)最近一份報告 [7],88%的電信行業(yè)中AI/ML概念驗證項目未能進(jìn)入實際部署階段。主要原因在于缺乏足夠的“系統(tǒng)思維” [8]。

根據(jù)我們的觀察,現(xiàn)有的基于AI/ML的解決方案與真實網(wǎng)絡(luò)部署之間存在兩個根本性差異:(i) 單維度設(shè)計 :機(jī)器學(xué)習(xí)解決方案主要目標(biāo)是在特定性能指標(biāo)(尤其是準(zhǔn)確率)上超越先前方法,而往往忽略其他網(wǎng)絡(luò)/系統(tǒng)關(guān)鍵需求。例如,隨著網(wǎng)絡(luò)操作日益復(fù)雜且相互關(guān)聯(lián),優(yōu)化問題變得更加多指標(biāo)、多維度 [9];(ii) 系統(tǒng)差異性 :這些解決方案大多在受控環(huán)境中進(jìn)行演示,在面對真實網(wǎng)絡(luò)中更高的規(guī)模、復(fù)雜性和動態(tài)性時,難以低成本地適配。例如,鑒于基于ML的解決方案依賴數(shù)據(jù)驅(qū)動特性,在數(shù)據(jù)稀疏或環(huán)境漂移的情況下保障性能表現(xiàn)是一項重大挑戰(zhàn) [10]。這種“現(xiàn)實差距”嚴(yán)重阻礙了AI/ML在真實網(wǎng)絡(luò)中的整合與部署。

為了使AI/ML真正成為現(xiàn)代網(wǎng)絡(luò)不可或缺的一部分,需要輕量級的技術(shù)手段,能夠及時識別并觸發(fā)模型更新,確保部署的模型無論環(huán)境如何演變始終適用于其任務(wù)。基于上述前提,本文旨在闡明將AI/ML融入未來網(wǎng)絡(luò)生態(tài)所面臨的實際挑戰(zhàn)。具體來說,我們首先介紹面向網(wǎng)絡(luò)的AI/ML研究現(xiàn)狀及其與真實網(wǎng)絡(luò)之間的差距。隨后,我們列舉在生產(chǎn)級網(wǎng)絡(luò)中實現(xiàn)AI/ML所需的實際考量。接著,我們展望一個具有前景的方向——MLOps,該方向借鑒敏捷開發(fā)理念,融合軟件開發(fā)(Dev)與IT運維(Ops),旨在縮短系統(tǒng)開發(fā)周期,實現(xiàn)高質(zhì)量的持續(xù)交付 [11]。最后,我們介紹了兩個在網(wǎng)絡(luò)軟化背景下的示例用例:持續(xù)性能預(yù)測與異常檢測,并展示了其中一些前述技術(shù)的應(yīng)用實例。

在網(wǎng)絡(luò)中落地AI

在本節(jié)中,我們簡要回顧AI/ML的當(dāng)前狀態(tài),并詳細(xì)闡述阻礙其在網(wǎng)絡(luò)運營中廣泛采用的實際障礙。

當(dāng)前狀態(tài)

近年來,AI/ML在運營網(wǎng)絡(luò)中引發(fā)了極大的關(guān)注,這得益于以下幾點:(i) 理論研究中的創(chuàng)新性突破;(ii) 在計算機(jī)視覺和自然語言處理(NLP)等其他領(lǐng)域的成功應(yīng)用;以及 (iii) 具備硬件加速支持的優(yōu)化開發(fā)工具包的出現(xiàn)。與傳統(tǒng)的固定策略方法相比,AI/ML算法在大規(guī)模、多維數(shù)據(jù)上展現(xiàn)出卓越的模式匹配、增量學(xué)習(xí)和自動化能力 [6]。

標(biāo)準(zhǔn)化組織(如 ETSI、3GPP)預(yù)計 AI/ML 技術(shù)將在未來網(wǎng)絡(luò)的自動化中發(fā)揮關(guān)鍵作用。2024 年 2 月,ETSI 發(fā)布了一項標(biāo)準(zhǔn)(ETSI TR104032 [12]),強(qiáng)調(diào)了在整個 AI 模型生命周期中通過模型追蹤記錄(如 MLOps 框架)記錄關(guān)鍵細(xì)節(jié)的必要性。此外,3GPP 的一項標(biāo)準(zhǔn)(Rel-17 [13])也強(qiáng)調(diào)了管理工具和服務(wù)在推動 AI/ML 技術(shù)融入 5G 網(wǎng)絡(luò)方面的重要性。

在工業(yè)界,運營商級平臺正在積極開發(fā)中,以增強(qiáng) AI/ML 賦能的網(wǎng)絡(luò)服務(wù):諾基亞的 AVA 生態(tài)系統(tǒng)為電信運營商提供云原生的 AI/ML 和分析服務(wù),旨在實現(xiàn)網(wǎng)絡(luò)運維自動化、提升服務(wù)保障和用戶使用體驗并降低成本 [7];華為的 ADN 生態(tài)系統(tǒng)則通過專門支持 AI 運維的功能實現(xiàn)網(wǎng)絡(luò)自動化 [4],其架構(gòu)分為三個層級,即設(shè)備端 AI、在線邊緣/云 AI 和離線云 AI,從而支持具備不同時空特性的網(wǎng)絡(luò)與 AI 運維操作。在學(xué)術(shù)界,研究人員廣泛開發(fā)了各類機(jī)器學(xué)習(xí)算法,用于解決范圍廣泛的“網(wǎng)絡(luò)”問題,例如流量分類 [10]、資源調(diào)度 [6]、異常檢測 [1]、負(fù)載均衡 [2]、用戶體驗質(zhì)量(QoE)管理 [14] 等。隨著 AI/ML 領(lǐng)域(例如生成式 AI)的快速拓展,其在電信網(wǎng)絡(luò)中的應(yīng)用將持續(xù)豐富。

然而,在概念驗證與 AI/ML 項目的成功實時部署之間仍存在一定距離。我們將在以下章節(jié)中詳細(xì)討論這些具體困難。

挑戰(zhàn)與障礙

術(shù)語“ML系統(tǒng)”(機(jī)器學(xué)習(xí)系統(tǒng))常常與它所采用的算法聯(lián)系在一起,例如邏輯回歸或各種神經(jīng)網(wǎng)絡(luò)。然而,在實際生產(chǎn)環(huán)境中,這些算法僅代表完整ML系統(tǒng)的一小部分。如圖1所示,現(xiàn)實世界中的ML系統(tǒng)涵蓋了最初業(yè)務(wù)目標(biāo)、接口設(shè)計、整個數(shù)據(jù)堆棧,以及模型開發(fā)、監(jiān)控和更新的方法論。


生產(chǎn)環(huán)境中的機(jī)器學(xué)習(xí)并不等同于研究環(huán)境中的機(jī)器學(xué)習(xí),因為后者通常在測試數(shù)據(jù)集上達(dá)成優(yōu)化目標(biāo)后,很少考慮部署與維護(hù)問題 [4]。根據(jù)我們的研究,將AI落地到網(wǎng)絡(luò)中面臨的主要挑戰(zhàn)可總結(jié)如下:

數(shù)據(jù)復(fù)雜性:網(wǎng)絡(luò)數(shù)據(jù)具有更加多樣的格式,例如原始數(shù)據(jù)包、流級統(tǒng)計信息、配置文件、系統(tǒng)日志和事件告警。這些數(shù)據(jù)可能包含類別型、時間序列型、空間型,甚至是圖結(jié)構(gòu)語義信息。這種高多樣性、高速度和大體量的多模態(tài)數(shù)據(jù)在建模和處理上極具挑戰(zhàn)性 [14],更不用說由于數(shù)據(jù)和系統(tǒng)演進(jìn)所帶來的自然分布漂移問題。

多維需求特性:研究人員往往聚焦于單一目標(biāo),最常見的目標(biāo)是模型性能——即開發(fā)出在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異的模型。但在實際網(wǎng)絡(luò)中,關(guān)鍵性能指標(biāo)(KPI)的優(yōu)化不能孤立進(jìn)行。例如,一些預(yù)測準(zhǔn)確率很高的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型,卻難以適配資源受限的網(wǎng)絡(luò)設(shè)備 [3]。此外,較高的推理延遲可能使模型無法滿足實時性要求,尤其是在服務(wù)延遲以微秒為單位衡量的高速網(wǎng)絡(luò)中 [14]。

本質(zhì)上,ML系統(tǒng)中的學(xué)習(xí)復(fù)雜度與運行時復(fù)雜度都應(yīng)同等重視:前者涉及訓(xùn)練模型所需的計算與資源成本,而后者則指部署和管理已訓(xùn)練模型的成本。

隱藏的技術(shù)債務(wù):這一術(shù)語由Sculley等人提出 [8],指的是非專家在實際部署基于ML的系統(tǒng)時所承擔(dān)的大量運營成本。在網(wǎng)絡(luò)系統(tǒng)中也存在類似的問題。由于現(xiàn)有解決方案大多是在模擬或受控環(huán)境中開發(fā)的,實際部署與維護(hù)問題通常被忽視。

而在真實系統(tǒng)中,ML模型必須作為數(shù)據(jù)處理流水線的一部分進(jìn)行部署。由于開發(fā)工具包和部署目標(biāo)各異,將其集成到真實網(wǎng)絡(luò)中可能會既繁瑣又容易出錯。此外,網(wǎng)絡(luò)設(shè)備可能來自不同廠商,具有定制化的配置、優(yōu)化和執(zhí)行流程,因此在其上部署AI/ML可能導(dǎo)致復(fù)雜的手動調(diào)優(yōu)、定制化和可行性測試。

更重要的是,ML-based 解決方案并不是一次性完成的過程,它們需要不斷升級,以滿足業(yè)務(wù)需求,并在電信行業(yè)快速演進(jìn)的過程中持續(xù)創(chuàng)造長期價值。

在生產(chǎn)網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化:現(xiàn)狀

為了彌合現(xiàn)實差距,實現(xiàn)AI/ML在生產(chǎn)環(huán)境中的無縫落地,在整個機(jī)器學(xué)習(xí)生命周期 (包括數(shù)據(jù)準(zhǔn)備、開發(fā)和運維階段)中存在許多關(guān)鍵的系統(tǒng)相關(guān)考量,如圖2所示。本節(jié)總結(jié)了這些考量,并探討了在網(wǎng)絡(luò)領(lǐng)域中相關(guān)的研究工作。所選文獻(xiàn)基于兩個標(biāo)準(zhǔn):(i) 涉及一個或多個實際問題;(ii) 提出的方法已在真實網(wǎng)絡(luò)系統(tǒng)中進(jìn)行了實現(xiàn)和驗證。


數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)質(zhì)量直接決定了任何基于AI/ML的產(chǎn)品所能達(dá)到的上限,這也推動了近年來“以數(shù)據(jù)為中心的AI”(data-centric AI)的發(fā)展趨勢 [5]。由于真實網(wǎng)絡(luò)中的復(fù)雜性,高質(zhì)量的數(shù)據(jù)集并不總是可用的。確保數(shù)據(jù)質(zhì)量通常會占據(jù)AI/ML項目平均60%的時間 [7]。

因此,在數(shù)據(jù)準(zhǔn)備過程中需要特別關(guān)注以下環(huán)節(jié),以向機(jī)器學(xué)習(xí)算法提供高質(zhì)量的數(shù)據(jù)支持:數(shù)據(jù)采集與特征提取

數(shù)據(jù)采集 由于監(jiān)督學(xué)習(xí)是最常用的一類算法,獲取標(biāo)簽是構(gòu)建訓(xùn)練數(shù)據(jù)的關(guān)鍵 [9]。現(xiàn)有解決方案中,數(shù)據(jù)一般來源于三個渠道:(i) 實際運行的網(wǎng)絡(luò);(ii) 受控環(huán)境;或 (iii) (整理后的)公開數(shù)據(jù)/數(shù)據(jù)集。

在情況(i)中,盡管有多種數(shù)據(jù)采集方法,但該過程可能帶來巨大的運維成本,因此必須進(jìn)行權(quán)衡 [2]。例如,在高速網(wǎng)絡(luò)中,為了減少對數(shù)據(jù)路徑的影響,通常優(yōu)先采用采樣方式而非逐包采集。此外,數(shù)據(jù)采集還可能引發(fā)不可控的情況,如丟包、采樣偏差或模式變更,從而導(dǎo)致異常值和離群點的出現(xiàn)。

數(shù)據(jù)標(biāo)注仍然是一項勞動密集型任務(wù),因為它需要大量的人工參與,且難以隨著數(shù)據(jù)量的增長而擴(kuò)展 [10]。盡管已有先進(jìn)技術(shù)(如弱監(jiān)督、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和主動學(xué)習(xí))用于緩解數(shù)據(jù)稀缺問題,但這些方法仍依賴于預(yù)標(biāo)注數(shù)據(jù)集或人工輸入,限制了其在處理大規(guī)模、復(fù)雜數(shù)據(jù)集時的可擴(kuò)展性和有效性。

在情況(ii)和(iii)中,由于數(shù)據(jù)來自目標(biāo)網(wǎng)絡(luò)之外,其統(tǒng)計特性可能與部署假設(shè)不一致,進(jìn)而導(dǎo)致意想不到的后果,例如數(shù)據(jù)漂移。因此,在模型部署之前,有必要通過測試來揭示潛在的偏差或異常。

特征提取 原始網(wǎng)絡(luò)數(shù)據(jù)必須被轉(zhuǎn)換為符合后續(xù)AI/ML算法要求的特征表示。**特征提取是一項具有挑戰(zhàn)性的任務(wù)**——不同的特征集意味著不同的系統(tǒng)開銷(以及模型性能),因此值得深入研究。

現(xiàn)有的許多基于機(jī)器學(xué)習(xí)的解決方案往往經(jīng)驗性地定義自定義特征,這些特征在實際部署中可能難以獲取和擴(kuò)展。此外,在網(wǎng)絡(luò)演進(jìn)過程中,所采用的特征選擇方案也可能需要重新設(shè)計和調(diào)整。

如文獻(xiàn) [15] 中所述,真實系統(tǒng)中的流量模式和網(wǎng)絡(luò)狀況始終處于變化之中,這使得現(xiàn)有特征逐漸失效,從而需要不斷進(jìn)行新的特征工程。

現(xiàn)有解決方案:

在當(dāng)前的網(wǎng)絡(luò)研究中,已有幾項開創(chuàng)性工作針對數(shù)據(jù)采集與特征提取的實際挑戰(zhàn)提出了應(yīng)對方案:

  • Bronzino等人 [14] 提出了 Traffic Refinery,這是一個高效的自動化流水線,用于流級別數(shù)據(jù)的采集與特征提取。該方案通過整合多種設(shè)計選擇,以緩解丟包問題,從而更好地契合網(wǎng)絡(luò)運營商的目標(biāo)。此外,一個專用的性能分析器可以量化系統(tǒng)級成本,幫助運營商在特征選擇與模型準(zhǔn)確性之間做出權(quán)衡。

  • 在另一項獨立研究中,Yao等人 [2] 提出了 Aquarius 框架,旨在為數(shù)據(jù)中心網(wǎng)絡(luò)提供靈活的數(shù)據(jù)采集與特征提取機(jī)制。該系統(tǒng)嵌入了一個傳輸層采集器,用于高效提取TCP流量特征,并將其存儲在共享內(nèi)存中,從而在不干擾數(shù)據(jù)平面的前提下,實現(xiàn)控制平面上ML算法的無縫交互。

  • 最后,Holland等人 [15] 提出了 nPrint 框架,它將數(shù)據(jù)包轉(zhuǎn)換為一種一致的二進(jìn)制格式,同時保留其上下文語義信息。這種機(jī)制使機(jī)器學(xué)習(xí)算法能夠自動識別關(guān)鍵特征,避免了人工特征提取的繁瑣過程。

開發(fā) 模型開發(fā)是一個迭代過程。在每一次迭代中,重要的是評估當(dāng)前模型相較于以往版本的表現(xiàn),并判斷其是否具備部署到實際網(wǎng)絡(luò)中的準(zhǔn)備條件 [9]。

模型開發(fā)包含兩個基本步驟:(i) 算法設(shè)計,以及 (ii) 模型訓(xùn)練與驗證,這兩個環(huán)節(jié)對于確定解決方案是否具備面向目標(biāo)網(wǎng)絡(luò)的就緒性至關(guān)重要。

算法設(shè)計

機(jī)器學(xué)習(xí)的目的可以分為三個方面:

1. 有效利用已有知識;

2. 對未知現(xiàn)象形成結(jié)構(gòu)化理解;

3. 通過學(xué)習(xí)達(dá)成特定目標(biāo);

這三個目的分別對應(yīng)機(jī)器學(xué)習(xí)的三大分支:監(jiān)督學(xué)習(xí)(Supervised Learning)、無監(jiān)督學(xué)習(xí)(Unsupervised Learning) 和 強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL),它們之間也可能存在交叉(例如半監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí))。

  • 監(jiān)督學(xué)習(xí)(Supervised ML) 技術(shù),如回歸和分類,在開環(huán)環(huán)境中擅長處理定義明確的問題,有助于提升對網(wǎng)絡(luò)流量的可見性或從原始數(shù)據(jù)中提煉洞見。

  • 回歸技術(shù)適用于預(yù)測任務(wù)(如流量需求或用戶行為),或?qū)W習(xí)復(fù)雜關(guān)系,例如將網(wǎng)絡(luò)服務(wù)質(zhì)量(QoS)指標(biāo)與用戶體驗質(zhì)量(QoE)聯(lián)系起來。

  • 分類技術(shù)是另一個AI技術(shù)發(fā)揮作用的典型場景:例如,流量優(yōu)先級劃分可能需要粗粒度的流量類別標(biāo)簽用于策略控制,有時還需要細(xì)粒度的應(yīng)用標(biāo)簽。

  • 無監(jiān)督學(xué)習(xí)(Unsupervised ML) 則通過識別數(shù)據(jù)中的模式和結(jié)構(gòu)來進(jìn)行操作,而無需標(biāo)注數(shù)據(jù),依賴于算法自身發(fā)現(xiàn)數(shù)據(jù)集中的內(nèi)在特征與關(guān)系。

  • 例如,在異常檢測中,無監(jiān)督AI使用算法自主學(xué)習(xí)底層分布,識別數(shù)據(jù)偏離。這些算法能夠識別出顯著偏離已知模式的離群值,而無需依賴預(yù)標(biāo)注的正常數(shù)據(jù)樣本。

  • 強(qiáng)化學(xué)習(xí)(RL) 更適合持續(xù)且高效的閉環(huán)自動化環(huán)境。

  • 一個例子是使用RL實現(xiàn)資源管理的自動化,可以通過集中式的云代理或分布式設(shè)備代理來實現(xiàn) [4]。

  • 在此背景下,AI代理致力于改善服務(wù)質(zhì)量(QoS),例如提高傳輸效率、降低延遲。為了實現(xiàn)這一目標(biāo),代理會根據(jù)其行為獲得獎勵,從而在龐大的狀態(tài)空間中有效平衡“探索”與“利用”,提供自動化的優(yōu)化方案 [15]。

模型訓(xùn)練與驗證

在模型訓(xùn)練與驗證的系統(tǒng)語境中,一些因素——如推理效率、泛化能力與安全性——與傳統(tǒng)的準(zhǔn)確性關(guān)注具有同等重要性:

- 泛化能力確保模型能在動態(tài)環(huán)境中及時適應(yīng),如抗災(zāi)網(wǎng)絡(luò);

- 安全性對于需頻繁與真實系統(tǒng)交互的ML算法尤為關(guān)鍵;

- 推理效率則對快速決策至關(guān)重要。

模型訓(xùn)練與驗證的過程可以借助諸如 MLflow、Weights & Biases 和 DVC 等工具加以增強(qiáng)。這些工具支持機(jī)器學(xué)習(xí)算法的選擇和超參數(shù)調(diào)整,推動模型的自動化與高效優(yōu)化。

現(xiàn)有解決方案:

以下兩項前期工作探討了如何利用AutoML(自動化機(jī)器學(xué)習(xí))來自動完成模型選擇與超參數(shù)調(diào)優(yōu),從而向網(wǎng)絡(luò)運營人員隱藏AI/ML相關(guān)的復(fù)雜性:

- Holland等人 [15] 利用 AutoGluon-Tabular 框架,基于給定的特征與標(biāo)簽,自動尋找并集成具有高預(yù)測準(zhǔn)確率和低推理延遲的模型。

- Swamy等人 [1] 使用一種優(yōu)化框架,將算法選擇與模型生成建模為一個基于用戶意圖和網(wǎng)絡(luò)約束的貝葉斯優(yōu)化問題,從而實現(xiàn)自動執(zhí)行。

- Lacoboaiea等人 [6] 針對構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的信道管理器所面臨的挑戰(zhàn)展開研究,重點關(guān)注訓(xùn)練的安全性、效率、環(huán)境真實性與泛化能力。他們采用數(shù)字孿生(digital twins) 實現(xiàn)安全訓(xùn)練,調(diào)整學(xué)習(xí)率以提升效率,結(jié)合真實數(shù)據(jù)增強(qiáng)模擬器的真實性,并通過合成噪聲與真實數(shù)據(jù)融合增強(qiáng)模型泛化能力。

運維(Operations)

本部分詳細(xì)闡述基于AI/ML的解決方案在真實網(wǎng)絡(luò)中的部署與管理過程中需要關(guān)注的問題。

部署 實際部署涵蓋模型的打包、定制化和可行性測試。由于傳統(tǒng)的基于機(jī)器學(xué)習(xí)的解決方案主要面向控制平面,這類模型通常可以由標(biāo)準(zhǔn)的模型服務(wù)工具處理。

近年來,隨著“網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)”(in-network ML)的興起,研究人員開始將機(jī)器學(xué)習(xí)的前沿推進(jìn)到網(wǎng)絡(luò)數(shù)據(jù)平面,以利用其中海量的數(shù)據(jù) [3]。然而,由于本地實現(xiàn)環(huán)境與網(wǎng)絡(luò)基礎(chǔ)設(shè)施之間的差異,以及工具鏈的不統(tǒng)一,模型部署變成了一項西西弗斯式的任務(wù)(Sisyphean task),嚴(yán)重阻礙了定制化進(jìn)程。

此外,網(wǎng)絡(luò)中充斥著各種架構(gòu)不同、配置流程各異、資源占用不同的專用硬件設(shè)備(例如 SmartNICs、P4 交換機(jī)、嵌入式設(shè)備),這使得部署過程需要將解決方案重構(gòu)為一個通用的數(shù)據(jù)處理流水線,同時對網(wǎng)絡(luò)服務(wù)造成最小干擾 [1]。

管理 除了部署之外,對已部署的基于ML的解決方案的管理還涉及模型服務(wù)、資源與運維管理、以及漂移監(jiān)測等任務(wù)。

特別地,由于網(wǎng)絡(luò)系統(tǒng)可能快速演進(jìn),內(nèi)在的概念漂移或數(shù)據(jù)漂移可能導(dǎo)致模型性能下降和服務(wù)質(zhì)量退化。因此,應(yīng)持續(xù)檢查推理結(jié)果的質(zhì)量,以檢測性能下降,并在適當(dāng)時觸發(fā)模型重建流程。

在實際網(wǎng)絡(luò)中,正確的質(zhì)量評估指標(biāo)和觸發(fā)機(jī)制應(yīng)被仔細(xì)界定,同時還要在監(jiān)控開銷與質(zhì)量評估準(zhǔn)確性之間取得平衡 [10]。

根據(jù)具體問題背景,模型重建流程可以從數(shù)據(jù)準(zhǔn)備與標(biāo)注階段,或者模型開發(fā)階段重新開始,這些流程必須事先明確指定。

現(xiàn)有解決方案

為應(yīng)對上述挑戰(zhàn):

- Zheng等人 [3] 提出了 Planter,這是一個模塊化架構(gòu),支持多種網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)算法在三大主流硬件平臺上的無縫部署。

Planter 支持大量主流機(jī)器學(xué)習(xí)算法。其在訓(xùn)練后自動將模型轉(zhuǎn)換為目標(biāo)平臺定制化的 P4 代碼,隨后進(jìn)行編譯和集成以完成部署。

- Swamy等人 [1] 設(shè)計了一套編譯器工具,可自動為流行的數(shù)據(jù)平面生成目標(biāo)導(dǎo)向的代碼。

他們利用一個周期精確模擬器,提前評估模型的關(guān)鍵性能指標(biāo)(如吞吐量、延遲和資源利用率)。

- Yang等人 [10] 應(yīng)對推理監(jiān)控問題,結(jié)合基于梯度的技術(shù)與開放集識別(Open Set Recognition)及可解釋AI(Explainable AI),深入分析推理質(zhì)量。

他們進(jìn)行了對比評估,以驗證其方法在推理監(jiān)控和數(shù)據(jù)漂移檢測方面的有效性。

我們對所有這些開創(chuàng)性工作進(jìn)行了總結(jié),如表I所示,涵蓋了其所針對的機(jī)器學(xué)習(xí)生命周期階段、支持的機(jī)器學(xué)習(xí)算法類型、目標(biāo)網(wǎng)絡(luò)環(huán)境以及應(yīng)用場景。

本質(zhì)上,每一項工作都覆蓋了機(jī)器學(xué)習(xí)生命周期中的部分階段。


拼圖中缺失的部分

基于上述綜述,我們識別出實現(xiàn)AI/ML全面落地所缺失的三個關(guān)鍵部分。

首先,盡管在各個領(lǐng)域取得了積極進(jìn)展,但這些進(jìn)展尚未被整合轉(zhuǎn)化為整體優(yōu)勢。在真實系統(tǒng)中,各個環(huán)節(jié)必須無縫銜接,形成一個端到端的數(shù)據(jù)處理流水線。然而,目前高度依賴人工干預(yù)的情況下,基于機(jī)器學(xué)習(xí)的解決方案在未來網(wǎng)絡(luò)中的管理將變得愈發(fā)復(fù)雜和沉重。

其次,由于缺乏系統(tǒng)的日志記錄與追蹤機(jī)制,可復(fù)現(xiàn)性 (reproducibility)無法得到保障。傳統(tǒng)的版本控制工具不足以完整捕捉機(jī)器學(xué)習(xí)工作流中的數(shù)據(jù)集、參數(shù)以及配置依賴關(guān)系。為了確保科學(xué)研究的嚴(yán)謹(jǐn)性和監(jiān)管合規(guī)性,這些內(nèi)容必須能夠始終如一地被復(fù)現(xiàn)。

第三,由于數(shù)據(jù)科學(xué)家與網(wǎng)絡(luò)工程師在專業(yè)知識和優(yōu)先事項上的差異,容易形成“信息孤島 ”(silos),這會阻礙工作效率,并延遲價值實現(xiàn)的時間(time-to-value)。

圖3展示了兩種機(jī)器學(xué)習(xí)生命周期管理的方法。


傳統(tǒng)的工作流程是一個一次性過程,包括數(shù)據(jù)采集、模型開發(fā)和部署,側(cè)重于首次快速交付 。然而,隨著時間維度的延伸,這種方法效率逐漸下降。特別是當(dāng)數(shù)據(jù)或系統(tǒng)發(fā)生變更時,模型需要持續(xù)重新訓(xùn)練。如果沒有適當(dāng)?shù)墓芾頇C(jī)制,隨著整個流程涉及從數(shù)據(jù)科學(xué)家到網(wǎng)絡(luò)工程師等多個團(tuán)隊,現(xiàn)有模型的復(fù)現(xiàn)和改進(jìn)將變得十分困難。人工資產(chǎn)的交接效率低下且負(fù)擔(dān)沉重。

相反,第二種方法采用了更加系統(tǒng)化的策略。最初,相關(guān)團(tuán)隊會投入大量時間構(gòu)建具備完善追蹤機(jī)制的自動化流水線。與人工方式相比,這種方法帶來了顯著的長期收益,包括良好的可復(fù)現(xiàn)性、模型的持續(xù)優(yōu)化能力,以及各環(huán)節(jié)之間的無縫溝通。

持續(xù)學(xué)習(xí)(Continual Learning)

持續(xù)學(xué)習(xí)使AI/ML從業(yè)者能夠高效地更新和部署模型。它能夠應(yīng)對數(shù)據(jù)分布漂移、基于罕見事件調(diào)整模型,并解決因未知數(shù)據(jù)帶來的冷啟動問題 [9]。

在網(wǎng)絡(luò)系統(tǒng)中,我們列舉了向持續(xù)學(xué)習(xí)演進(jìn)的以下階段:

階段 1 - 手動、無狀態(tài)再訓(xùn)練: 最初,研究人員手動重新訓(xùn)練模型,不利用歷史數(shù)據(jù)狀態(tài),這種情況常見于沒有專門團(tuán)隊來管理機(jī)器學(xué)習(xí)平臺的環(huán)境中。

階段 2 - 自動化再訓(xùn)練: 研究人員開始實現(xiàn)模型再訓(xùn)練的自動化。再訓(xùn)練頻率通常依賴經(jīng)驗判斷,例如每日更新,這種做法缺乏堅實的實證基礎(chǔ),但旨在優(yōu)化性能。

階段 3 - 自動化、有狀態(tài)訓(xùn)練: 為了提高效率,研究人員開始探索最近保存的模型狀態(tài)和檢查點,這對于需要頻繁更新模型的應(yīng)用場景尤為有益。

階段 4 - 面向網(wǎng)絡(luò)管理的持續(xù)學(xué)習(xí): 最先進(jìn)的階段是從固定時間表更新過渡到基于觸發(fā)機(jī)制的動態(tài)模型更新,其觸發(fā)條件可以是時間間隔、性能指標(biāo)、網(wǎng)絡(luò)流量或通信模式等,從而實現(xiàn)更靈敏和自適應(yīng)的網(wǎng)絡(luò)管理。

在現(xiàn)代網(wǎng)絡(luò)中應(yīng)用持續(xù)學(xué)習(xí)面臨重大挑戰(zhàn)。幸運的是,MLOps 提供了緩解這些問題的方法,詳見下一節(jié)。

MLOps:邁向端到端流水線

MLOps 是一套新興實踐,它將 DevOps 原則應(yīng)用于基于機(jī)器學(xué)習(xí)系統(tǒng)的開發(fā)與運維的統(tǒng)一 [5], [9]。

為何需要 MLOps?

傳統(tǒng)上,DevOps 能有效應(yīng)對軟件產(chǎn)品交付的運維成本。它是一套原則的集合,旨在打破軟件開發(fā)人員與 IT 運維工程師之間的壁壘,推動在整個產(chǎn)品生命周期中實現(xiàn)自動化、持續(xù)集成(CI)與持續(xù)部署(CD)。這些原則有助于眾多企業(yè)和組織實現(xiàn)IT目標(biāo)與業(yè)務(wù)成果 [10]。網(wǎng)絡(luò)行業(yè)也已采用 DevOps 來推動技術(shù)創(chuàng)新和收入增長。

然而,盡管 DevOps 能夠降低傳統(tǒng)軟件項目落地的運維開銷,但它在支持機(jī)器學(xué)習(xí)(ML)所具有的獨特特性方面仍顯不足。

傳統(tǒng)軟件與 ML 之間存在五個根本性差異:

1. 性能決定因素不同:

在傳統(tǒng)軟件中,代碼質(zhì)量主要決定了系統(tǒng)表現(xiàn);而在 AI/ML 中,模型與數(shù)據(jù)共同影響最終結(jié)果 [5]。

2. 工具鏈復(fù)雜度不同:

傳統(tǒng)軟件通常建立在功能完善的庫之上,具有清晰的抽象邊界 [8];而基于 ML 的解決方案往往涉及更廣泛的工具和庫,帶來了額外的集成與維護(hù)成本。

3. 行為確定性不同:

傳統(tǒng)軟件輸出是確定性的,而 ML 模型本質(zhì)上具有隨機(jī)性,因此需要不同的流程來驗證其行為表現(xiàn)。

4. 環(huán)境適應(yīng)性要求不同:

ML 模型容易受到數(shù)據(jù)漂移與概念漂移的影響,這在網(wǎng)絡(luò)環(huán)境中尤為常見,因此需要具備漂移檢測機(jī)制以及模型重建能力 [10]。

5. 所需技能集不同:

構(gòu)建和運營基于 ML 的解決方案需要數(shù)據(jù)科學(xué)相關(guān)的技能,而這在傳統(tǒng)的軟件或網(wǎng)絡(luò)運維流程中通常是缺失的。

根據(jù)最近的一項調(diào)查,55% 的電信運營商缺乏相關(guān)的數(shù)據(jù)科學(xué)人才 [7]。

在 DevOps 原則的基礎(chǔ)上,MLOps 通過以下實踐來適應(yīng) AI/ML 的獨特特性:

  • 持續(xù)監(jiān)控(Continual Monitoring, CM) / 持續(xù)訓(xùn)練(Continual Training, CT)
    MLOps 通過持續(xù)監(jiān)測數(shù)據(jù)和推理質(zhì)量,在適當(dāng)時機(jī)重建模型,從而解決模型性能退化的問題。

  • 自動化(Automation)
    MLOps 將 AI/ML 生命周期整合為一個完全自動化的流水線,以降低運維成本。

  • 版本控制(Versioning)
    在 DevOps 的基礎(chǔ)上,MLOps 擴(kuò)展了對整個流程中各類產(chǎn)物(包括數(shù)據(jù)、模型和代碼)的版本控制。

  • 實驗追蹤(Experiment Tracking)
    對實驗過程進(jìn)行系統(tǒng)化追蹤,以確保結(jié)果的可復(fù)現(xiàn)性與可審計性。

  • 協(xié)作機(jī)制(Collaboration)
    MLOps 提倡建立一個統(tǒng)一平臺,促進(jìn)各參與方之間的協(xié)同合作,形成合力。

通過這些實踐,MLOps 整合了 AI/ML 全生命周期中的各項創(chuàng)新,并顯著降低了運營成本。盡管這一新興領(lǐng)域在網(wǎng)絡(luò)研究社區(qū)中仍處于早期階段,但我們設(shè)想了一個可行的架構(gòu),如圖4所示,該架構(gòu)在真實網(wǎng)絡(luò)中融合了大部分 MLOps 實踐。


面向網(wǎng)絡(luò)的 MLOps:一個案例研究

我們通過一個實時KPI預(yù)測 的案例研究來展示MLOps的優(yōu)勢,這是網(wǎng)絡(luò)管理中的一個關(guān)鍵環(huán)節(jié)。

我們在一個小規(guī)模數(shù)據(jù)中心 中部署了一個網(wǎng)絡(luò)服務(wù)鏈,并探索使用一種輕量級的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型 ,基于基礎(chǔ)設(shè)施層的硬件特征 進(jìn)行“非侵入式”的KPI預(yù)測。

我們采用了以下關(guān)鍵技術(shù):

  • 使用 皮爾遜相關(guān)系數(shù) (Pearson Correlation Coefficient)進(jìn)行特征選擇;

  • 利用 貝葉斯優(yōu)化 (Bayesian Optimization)實現(xiàn)自動超參數(shù)調(diào)優(yōu);

  • 通過 Jensen-Shannon 散度 (Jensen-Shannon Divergence)量化數(shù)據(jù)漂移。

我們使用 Kubeflow (一個基于 Kubernetes 的開源 MLOps 平臺)對處理流水線進(jìn)行了重構(gòu)。

圖5展示了MLOps如何實現(xiàn)具有可持續(xù)性能的實時KPI預(yù)測

最初,我們的模型在服務(wù)吞吐量預(yù)測上的平均準(zhǔn)確率達(dá)到91%
在第70個時隙,發(fā)生了數(shù)據(jù)漂移 ,導(dǎo)致預(yù)測準(zhǔn)確率下降至48%
系統(tǒng)隨即自動觸發(fā)模型再訓(xùn)練 ,并部署了更新后的模型,將預(yù)測準(zhǔn)確率恢復(fù)至90%


結(jié)論

由于缺乏系統(tǒng)層面的考量,人工智能/機(jī)器學(xué)習(xí)(AI/ML)尚未成為現(xiàn)代網(wǎng)絡(luò)的有機(jī)組成部分。本文分析了現(xiàn)有基于AI/ML的解決方案與真實網(wǎng)絡(luò)系統(tǒng)之間的不一致性,并討論了其在整個產(chǎn)品生命周期中所涉及的各種實際考量因素。我們還回顧了相關(guān)研究,并指出了當(dāng)前缺失的關(guān)鍵環(huán)節(jié)。

隨后,我們通過一個案例研究驗證了MLOps在真實網(wǎng)絡(luò)系統(tǒng)中的優(yōu)勢。本文旨在提升業(yè)界對在生產(chǎn)環(huán)境中落地AI/ML所面臨實際挑戰(zhàn)的認(rèn)識,并加速其在未來網(wǎng)絡(luò)中的融合與應(yīng)用。

原文鏈接: https://arxiv.org/pdf/2303.04073

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
看完報道,差點以為是伊朗贏了,美國投降了

看完報道,差點以為是伊朗贏了,美國投降了

走讀新生
2025-06-24 11:05:42
科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

科技助力,中國有望從能源最大進(jìn)口國成為世界主要能源出口國。

興史興談
2025-06-25 09:50:49
63歲阿湯哥戀情實錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

63歲阿湯哥戀情實錘后,女兒蘇瑞近照曝光,即將進(jìn)軍好萊塢

瘋狂影視圈
2025-06-24 23:38:47
以色列防長稱恢復(fù)猛烈空襲德黑蘭

以色列防長稱恢復(fù)猛烈空襲德黑蘭

魯中晨報
2025-06-24 16:27:02
新華社快訊:伊朗議會通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社快訊:伊朗議會通過暫停與國際原子能機(jī)構(gòu)合作的法案

新華社
2025-06-25 14:55:04
黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

黃子韜徐藝洋孩子首曝光:徐媽媽溫柔抱著嬰兒,滿臉的寵溺和燦笑

素素娛樂
2025-06-25 10:18:47
雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎杯下車狂歡

雷霆奪冠游行:杰威致敬科比 卡皇掛湖人戒指 SGA抱獎杯下車狂歡

顏小白的籃球夢
2025-06-25 09:09:52
中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

中國股市:未來即將有望乘風(fēng)破浪的10匹黑馬,值得收藏研究!!

人生宥常
2025-06-25 10:00:10
互動被挖,王楚欽戀情曝光?奧運,孫穎莎喊話想贏,誰注意他舉動

互動被挖,王楚欽戀情曝光?奧運,孫穎莎喊話想贏,誰注意他舉動

樂聊球
2025-06-25 12:29:54
金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

金正恩的喋血上位:母親幫他扳倒異母大哥,他自己一招搞垮親二哥

阿胡
2024-01-05 13:57:28
“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

“朱雀玄武敕令”公布第三次高考分?jǐn)?shù)為246分:現(xiàn)在叫周景明,保底可以去兩所職業(yè)學(xué)院,內(nèi)心很平靜

極目新聞
2025-06-25 00:12:47
掘金總裁:會與約基奇談3年2.12億續(xù)約 特定條件下會考慮交易他

掘金總裁:會與約基奇談3年2.12億續(xù)約 特定條件下會考慮交易他

顏小白的籃球夢
2025-06-25 05:29:50
今年!慢特病無需申請,醫(yī)保能報銷95%,門檻費取消了

今年!慢特病無需申請,醫(yī)保能報銷95%,門檻費取消了

小劉嘮嗑醫(yī)保
2025-06-25 11:20:55
19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

19歲騎手摔死后續(xù):家境被扒太凄慘,高中輟學(xué)養(yǎng)家,父母癱病在床

體制內(nèi)老陳
2025-06-22 14:22:47
王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗了

王思聰資產(chǎn)被何猷君收購!汪小菲也沒有想到,自己當(dāng)年的話應(yīng)驗了

振華觀史
2025-06-25 09:03:08
鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

鄭爽在美國參加飯局!一直看身邊大佬,發(fā)福染黃發(fā)全程聊天哈哈笑

扒星人
2025-06-25 11:22:09
2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險翻車 鄭欽文沖2885萬獎金

2-1!溫網(wǎng)首位贏球中國球員:苦戰(zhàn)三盤險翻車 鄭欽文沖2885萬獎金

侃球熊弟
2025-06-24 21:41:58
女子腰腹部藏匿未申報港幣114.2萬元出境被海關(guān)查獲

女子腰腹部藏匿未申報港幣114.2萬元出境被海關(guān)查獲

環(huán)球網(wǎng)資訊
2025-06-24 14:51:02
344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

344比79:川普因打擊伊朗而被提起彈劾,彈劾案被擱置

寰宇大觀察
2025-06-25 10:17:34
海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

海南17歲高一漂亮女生已找到,曝最后朋友圈,或早有征兆...

小人物看盡人間百態(tài)
2025-06-24 16:22:16
2025-06-25 15:39:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
639文章數(shù) 11關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

頭條要聞

特朗普稱中國可以繼續(xù)從伊朗購買石油 外交部回應(yīng)

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

林志穎15歲兒子眉眼間神似易烊千璽!

財經(jīng)要聞

3000億的泡泡瑪特,漲不動了?

汽車要聞

樂高樂園x比亞迪官配曝光!兒童駕駛學(xué)校來了

態(tài)度原創(chuàng)

房產(chǎn)
本地
家居
教育
公開課

房產(chǎn)要聞

三亞頂豪!內(nèi)部資料曝光!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

家居要聞

簡約大氣 多櫥高效收納

教育要聞

山東省2025年高考分?jǐn)?shù)線公布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 扬中市| 鄂尔多斯市| 确山县| 河北省| 无为县| 青州市| 岚皋县| 康马县| 景泰县| 增城市| 石柱| 乌兰察布市| 胶州市| 湖北省| 澳门| 迁西县| 东乡| 胶州市| SHOW| 桑日县| 孙吴县| 陇西县| 高邮市| 光泽县| 岳西县| 长汀县| 敦化市| 凤城市| 南宫市| 朝阳区| 志丹县| 巫山县| 凌海市| 长武县| 德格县| 咸丰县| 濮阳县| 绥滨县| 延长县| 肥西县| 天津市|