網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

在未來網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化：系統(tǒng)視角的鳥瞰圖

2025-05-10 14:39:27　來源: CreateAMind

上海舉報

分享至

Operationalizing AI/ML in Future Networks:

A Bird’s Eye View from the System Perspective

在未來網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化：系統(tǒng)視角的鳥瞰圖

https://arxiv.org/pdf/2303.04073

摘要

在過去十年中，以機(jī)器學(xué)習(xí)（ML）為代表的現(xiàn)代人工智能（AI）技術(shù)獲得了前所未有的發(fā)展勢頭。隨著這股“AI夏季”的浪潮，網(wǎng)絡(luò)研究界也逐步引入AI/ML算法來解決與網(wǎng)絡(luò)運維相關(guān)的問題。然而，與其他領(lǐng)域相比，大多數(shù)基于機(jī)器學(xué)習(xí)的解決方案尚未實現(xiàn)大規(guī)模部署，主要原因是其在生產(chǎn)環(huán)境中的成熟度尚顯不足。本文聚焦于在實際網(wǎng)絡(luò)中開發(fā)和運營基于ML的解決方案時所面臨的實際問題。具體而言，我們列舉了阻礙AI/ML在真實網(wǎng)絡(luò)中集成的關(guān)鍵因素，并回顧現(xiàn)有解決方案以揭示被忽視的重要考量。此外，我們強(qiáng)調(diào)了一個有前景的方向——即機(jī)器學(xué)習(xí)運維（MLOps），它有助于彌合當(dāng)前差距。我們認(rèn)為本文突出了在實現(xiàn)和維護(hù)基于ML的解決方案過程中涉及的系統(tǒng)性考慮，從而推動其在未來網(wǎng)絡(luò)中的全面采用。

關(guān)鍵詞 ：面向網(wǎng)絡(luò)的AI/ML，網(wǎng)絡(luò)系統(tǒng)

引言

過去十年見證了現(xiàn)代電信行業(yè)在“網(wǎng)絡(luò)軟化”技術(shù)（如軟件定義網(wǎng)絡(luò)SDN和網(wǎng)絡(luò)功能虛擬化NFV）推動下的深刻變革。通過將傳統(tǒng)的硬件中心化網(wǎng)絡(luò)組件轉(zhuǎn)化為基于軟件的流程，SDN/NFV帶來了前所未有的靈活性、可擴(kuò)展性和效率 [1]–[3]。盡管如此，隨著電信基礎(chǔ)設(shè)施的迅速擴(kuò)張，現(xiàn)代網(wǎng)絡(luò)的規(guī)模和動態(tài)性持續(xù)增長，網(wǎng)絡(luò)管理仍然是一個艱巨的任務(wù) [4]。

與此同時，人工智能/機(jī)器學(xué)習(xí)取得了顯著進(jìn)展，并在各個商業(yè)領(lǐng)域引起了戰(zhàn)略性的關(guān)注。根據(jù)Gartner和MIT Sloan管理學(xué)院的報告，AI已帶來每年3.9萬億美元的商業(yè)價值，并被83%的CEO視為戰(zhàn)略優(yōu)先事項 [5]。受這些成功案例的啟發(fā)，網(wǎng)絡(luò)研究人員正廣泛探索AI/ML在各類任務(wù)中的應(yīng)用 [2],[6]。這些基于機(jī)器學(xué)習(xí)的解決方案（包括應(yīng)用程序、功能和服務(wù)）在許多方面展現(xiàn)出優(yōu)于傳統(tǒng)固定策略方法的潛力 [4]。

盡管興趣濃厚，但現(xiàn)代網(wǎng)絡(luò)的快速發(fā)展使得構(gòu)建和管理用于AI部署的大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)變得幾乎不可能，而這類數(shù)據(jù)是AI在真實系統(tǒng)中成功落地的關(guān)鍵。根據(jù)最近一份報告 [7]，88%的電信行業(yè)中AI/ML概念驗證項目未能進(jìn)入實際部署階段。主要原因在于缺乏足夠的“系統(tǒng)思維” [8]。

根據(jù)我們的觀察，現(xiàn)有的基于AI/ML的解決方案與真實網(wǎng)絡(luò)部署之間存在兩個根本性差異：(i) 單維度設(shè)計 ：機(jī)器學(xué)習(xí)解決方案主要目標(biāo)是在特定性能指標(biāo)（尤其是準(zhǔn)確率）上超越先前方法，而往往忽略其他網(wǎng)絡(luò)/系統(tǒng)關(guān)鍵需求。例如，隨著網(wǎng)絡(luò)操作日益復(fù)雜且相互關(guān)聯(lián)，優(yōu)化問題變得更加多指標(biāo)、多維度 [9]；(ii) 系統(tǒng)差異性 ：這些解決方案大多在受控環(huán)境中進(jìn)行演示，在面對真實網(wǎng)絡(luò)中更高的規(guī)模、復(fù)雜性和動態(tài)性時，難以低成本地適配。例如，鑒于基于ML的解決方案依賴數(shù)據(jù)驅(qū)動特性，在數(shù)據(jù)稀疏或環(huán)境漂移的情況下保障性能表現(xiàn)是一項重大挑戰(zhàn) [10]。這種“現(xiàn)實差距”嚴(yán)重阻礙了AI/ML在真實網(wǎng)絡(luò)中的整合與部署。

為了使AI/ML真正成為現(xiàn)代網(wǎng)絡(luò)不可或缺的一部分，需要輕量級的技術(shù)手段，能夠及時識別并觸發(fā)模型更新，確保部署的模型無論環(huán)境如何演變始終適用于其任務(wù)。基于上述前提，本文旨在闡明將AI/ML融入未來網(wǎng)絡(luò)生態(tài)所面臨的實際挑戰(zhàn)。具體來說，我們首先介紹面向網(wǎng)絡(luò)的AI/ML研究現(xiàn)狀及其與真實網(wǎng)絡(luò)之間的差距。隨后，我們列舉在生產(chǎn)級網(wǎng)絡(luò)中實現(xiàn)AI/ML所需的實際考量。接著，我們展望一個具有前景的方向——MLOps，該方向借鑒敏捷開發(fā)理念，融合軟件開發(fā)（Dev）與IT運維（Ops），旨在縮短系統(tǒng)開發(fā)周期，實現(xiàn)高質(zhì)量的持續(xù)交付 [11]。最后，我們介紹了兩個在網(wǎng)絡(luò)軟化背景下的示例用例：持續(xù)性能預(yù)測與異常檢測，并展示了其中一些前述技術(shù)的應(yīng)用實例。

在網(wǎng)絡(luò)中落地AI

在本節(jié)中，我們簡要回顧AI/ML的當(dāng)前狀態(tài)，并詳細(xì)闡述阻礙其在網(wǎng)絡(luò)運營中廣泛采用的實際障礙。

當(dāng)前狀態(tài)

近年來，AI/ML在運營網(wǎng)絡(luò)中引發(fā)了極大的關(guān)注，這得益于以下幾點：(i) 理論研究中的創(chuàng)新性突破；(ii) 在計算機(jī)視覺和自然語言處理（NLP）等其他領(lǐng)域的成功應(yīng)用；以及 (iii) 具備硬件加速支持的優(yōu)化開發(fā)工具包的出現(xiàn)。與傳統(tǒng)的固定策略方法相比，AI/ML算法在大規(guī)模、多維數(shù)據(jù)上展現(xiàn)出卓越的模式匹配、增量學(xué)習(xí)和自動化能力 [6]。

標(biāo)準(zhǔn)化組織（如 ETSI、3GPP）預(yù)計 AI/ML 技術(shù)將在未來網(wǎng)絡(luò)的自動化中發(fā)揮關(guān)鍵作用。2024 年 2 月，ETSI 發(fā)布了一項標(biāo)準(zhǔn)（ETSI TR104032 [12]），強(qiáng)調(diào)了在整個 AI 模型生命周期中通過模型追蹤記錄（如 MLOps 框架）記錄關(guān)鍵細(xì)節(jié)的必要性。此外，3GPP 的一項標(biāo)準(zhǔn)（Rel-17 [13]）也強(qiáng)調(diào)了管理工具和服務(wù)在推動 AI/ML 技術(shù)融入 5G 網(wǎng)絡(luò)方面的重要性。

在工業(yè)界，運營商級平臺正在積極開發(fā)中，以增強(qiáng) AI/ML 賦能的網(wǎng)絡(luò)服務(wù)：諾基亞的 AVA 生態(tài)系統(tǒng)為電信運營商提供云原生的 AI/ML 和分析服務(wù)，旨在實現(xiàn)網(wǎng)絡(luò)運維自動化、提升服務(wù)保障和用戶使用體驗并降低成本 [7]；華為的 ADN 生態(tài)系統(tǒng)則通過專門支持 AI 運維的功能實現(xiàn)網(wǎng)絡(luò)自動化 [4]，其架構(gòu)分為三個層級，即設(shè)備端 AI、在線邊緣/云 AI 和離線云 AI，從而支持具備不同時空特性的網(wǎng)絡(luò)與 AI 運維操作。在學(xué)術(shù)界，研究人員廣泛開發(fā)了各類機(jī)器學(xué)習(xí)算法，用于解決范圍廣泛的“網(wǎng)絡(luò)”問題，例如流量分類 [10]、資源調(diào)度 [6]、異常檢測 [1]、負(fù)載均衡 [2]、用戶體驗質(zhì)量（QoE）管理 [14] 等。隨著 AI/ML 領(lǐng)域（例如生成式 AI）的快速拓展，其在電信網(wǎng)絡(luò)中的應(yīng)用將持續(xù)豐富。

然而，在概念驗證與 AI/ML 項目的成功實時部署之間仍存在一定距離。我們將在以下章節(jié)中詳細(xì)討論這些具體困難。

挑戰(zhàn)與障礙

術(shù)語“ML系統(tǒng)”（機(jī)器學(xué)習(xí)系統(tǒng)）常常與它所采用的算法聯(lián)系在一起，例如邏輯回歸或各種神經(jīng)網(wǎng)絡(luò)。然而，在實際生產(chǎn)環(huán)境中，這些算法僅代表完整ML系統(tǒng)的一小部分。如圖1所示，現(xiàn)實世界中的ML系統(tǒng)涵蓋了最初業(yè)務(wù)目標(biāo)、接口設(shè)計、整個數(shù)據(jù)堆棧，以及模型開發(fā)、監(jiān)控和更新的方法論。

生產(chǎn)環(huán)境中的機(jī)器學(xué)習(xí)并不等同于研究環(huán)境中的機(jī)器學(xué)習(xí)，因為后者通常在測試數(shù)據(jù)集上達(dá)成優(yōu)化目標(biāo)后，很少考慮部署與維護(hù)問題 [4]。根據(jù)我們的研究，將AI落地到網(wǎng)絡(luò)中面臨的主要挑戰(zhàn)可總結(jié)如下：

數(shù)據(jù)復(fù)雜性：網(wǎng)絡(luò)數(shù)據(jù)具有更加多樣的格式，例如原始數(shù)據(jù)包、流級統(tǒng)計信息、配置文件、系統(tǒng)日志和事件告警。這些數(shù)據(jù)可能包含類別型、時間序列型、空間型，甚至是圖結(jié)構(gòu)語義信息。這種高多樣性、高速度和大體量的多模態(tài)數(shù)據(jù)在建模和處理上極具挑戰(zhàn)性 [14]，更不用說由于數(shù)據(jù)和系統(tǒng)演進(jìn)所帶來的自然分布漂移問題。

多維需求特性：研究人員往往聚焦于單一目標(biāo)，最常見的目標(biāo)是模型性能——即開發(fā)出在基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)異的模型。但在實際網(wǎng)絡(luò)中，關(guān)鍵性能指標(biāo)（KPI）的優(yōu)化不能孤立進(jìn)行。例如，一些預(yù)測準(zhǔn)確率很高的深度神經(jīng)網(wǎng)絡(luò)（DNN）模型，卻難以適配資源受限的網(wǎng)絡(luò)設(shè)備 [3]。此外，較高的推理延遲可能使模型無法滿足實時性要求，尤其是在服務(wù)延遲以微秒為單位衡量的高速網(wǎng)絡(luò)中 [14]。

本質(zhì)上，ML系統(tǒng)中的學(xué)習(xí)復(fù)雜度與運行時復(fù)雜度都應(yīng)同等重視：前者涉及訓(xùn)練模型所需的計算與資源成本，而后者則指部署和管理已訓(xùn)練模型的成本。

隱藏的技術(shù)債務(wù)：這一術(shù)語由Sculley等人提出 [8]，指的是非專家在實際部署基于ML的系統(tǒng)時所承擔(dān)的大量運營成本。在網(wǎng)絡(luò)系統(tǒng)中也存在類似的問題。由于現(xiàn)有解決方案大多是在模擬或受控環(huán)境中開發(fā)的，實際部署與維護(hù)問題通常被忽視。

而在真實系統(tǒng)中，ML模型必須作為數(shù)據(jù)處理流水線的一部分進(jìn)行部署。由于開發(fā)工具包和部署目標(biāo)各異，將其集成到真實網(wǎng)絡(luò)中可能會既繁瑣又容易出錯。此外，網(wǎng)絡(luò)設(shè)備可能來自不同廠商，具有定制化的配置、優(yōu)化和執(zhí)行流程，因此在其上部署AI/ML可能導(dǎo)致復(fù)雜的手動調(diào)優(yōu)、定制化和可行性測試。

更重要的是，ML-based 解決方案并不是一次性完成的過程，它們需要不斷升級，以滿足業(yè)務(wù)需求，并在電信行業(yè)快速演進(jìn)的過程中持續(xù)創(chuàng)造長期價值。

在生產(chǎn)網(wǎng)絡(luò)中實現(xiàn)AI/ML的運營化：現(xiàn)狀

為了彌合現(xiàn)實差距，實現(xiàn)AI/ML在生產(chǎn)環(huán)境中的無縫落地，在整個機(jī)器學(xué)習(xí)生命周期 （包括數(shù)據(jù)準(zhǔn)備、開發(fā)和運維階段）中存在許多關(guān)鍵的系統(tǒng)相關(guān)考量，如圖2所示。本節(jié)總結(jié)了這些考量，并探討了在網(wǎng)絡(luò)領(lǐng)域中相關(guān)的研究工作。所選文獻(xiàn)基于兩個標(biāo)準(zhǔn)：(i) 涉及一個或多個實際問題；(ii) 提出的方法已在真實網(wǎng)絡(luò)系統(tǒng)中進(jìn)行了實現(xiàn)和驗證。

數(shù)據(jù)準(zhǔn)備數(shù)據(jù)質(zhì)量直接決定了任何基于AI/ML的產(chǎn)品所能達(dá)到的上限，這也推動了近年來“以數(shù)據(jù)為中心的AI”（data-centric AI）的發(fā)展趨勢 [5]。由于真實網(wǎng)絡(luò)中的復(fù)雜性，高質(zhì)量的數(shù)據(jù)集并不總是可用的。確保數(shù)據(jù)質(zhì)量通常會占據(jù)AI/ML項目平均60%的時間 [7]。

因此，在數(shù)據(jù)準(zhǔn)備過程中需要特別關(guān)注以下環(huán)節(jié)，以向機(jī)器學(xué)習(xí)算法提供高質(zhì)量的數(shù)據(jù)支持：數(shù)據(jù)采集與特征提取 。

數(shù)據(jù)采集由于監(jiān)督學(xué)習(xí)是最常用的一類算法，獲取標(biāo)簽是構(gòu)建訓(xùn)練數(shù)據(jù)的關(guān)鍵 [9]。現(xiàn)有解決方案中，數(shù)據(jù)一般來源于三個渠道：(i) 實際運行的網(wǎng)絡(luò)；(ii) 受控環(huán)境；或 (iii) （整理后的）公開數(shù)據(jù)/數(shù)據(jù)集。

在情況(i)中，盡管有多種數(shù)據(jù)采集方法，但該過程可能帶來巨大的運維成本，因此必須進(jìn)行權(quán)衡 [2]。例如，在高速網(wǎng)絡(luò)中，為了減少對數(shù)據(jù)路徑的影響，通常優(yōu)先采用采樣方式而非逐包采集。此外，數(shù)據(jù)采集還可能引發(fā)不可控的情況，如丟包、采樣偏差或模式變更，從而導(dǎo)致異常值和離群點的出現(xiàn)。

數(shù)據(jù)標(biāo)注仍然是一項勞動密集型任務(wù)，因為它需要大量的人工參與，且難以隨著數(shù)據(jù)量的增長而擴(kuò)展 [10]。盡管已有先進(jìn)技術(shù)（如弱監(jiān)督、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)和主動學(xué)習(xí)）用于緩解數(shù)據(jù)稀缺問題，但這些方法仍依賴于預(yù)標(biāo)注數(shù)據(jù)集或人工輸入，限制了其在處理大規(guī)模、復(fù)雜數(shù)據(jù)集時的可擴(kuò)展性和有效性。

在情況(ii)和(iii)中，由于數(shù)據(jù)來自目標(biāo)網(wǎng)絡(luò)之外，其統(tǒng)計特性可能與部署假設(shè)不一致，進(jìn)而導(dǎo)致意想不到的后果，例如數(shù)據(jù)漂移。因此，在模型部署之前，有必要通過測試來揭示潛在的偏差或異常。

特征提取 原始網(wǎng)絡(luò)數(shù)據(jù)必須被轉(zhuǎn)換為符合后續(xù)AI/ML算法要求的特征表示。**特征提取是一項具有挑戰(zhàn)性的任務(wù)**——不同的特征集意味著不同的系統(tǒng)開銷（以及模型性能），因此值得深入研究。

現(xiàn)有的許多基于機(jī)器學(xué)習(xí)的解決方案往往經(jīng)驗性地定義自定義特征，這些特征在實際部署中可能難以獲取和擴(kuò)展。此外，在網(wǎng)絡(luò)演進(jìn)過程中，所采用的特征選擇方案也可能需要重新設(shè)計和調(diào)整。

如文獻(xiàn) [15] 中所述，真實系統(tǒng)中的流量模式和網(wǎng)絡(luò)狀況始終處于變化之中，這使得現(xiàn)有特征逐漸失效，從而需要不斷進(jìn)行新的特征工程。

現(xiàn)有解決方案：

在當(dāng)前的網(wǎng)絡(luò)研究中，已有幾項開創(chuàng)性工作針對數(shù)據(jù)采集與特征提取的實際挑戰(zhàn)提出了應(yīng)對方案：

Bronzino等人 [14] 提出了 Traffic Refinery，這是一個高效的自動化流水線，用于流級別數(shù)據(jù)的采集與特征提取。該方案通過整合多種設(shè)計選擇，以緩解丟包問題，從而更好地契合網(wǎng)絡(luò)運營商的目標(biāo)。此外，一個專用的性能分析器可以量化系統(tǒng)級成本，幫助運營商在特征選擇與模型準(zhǔn)確性之間做出權(quán)衡。
在另一項獨立研究中，Yao等人 [2] 提出了 Aquarius 框架，旨在為數(shù)據(jù)中心網(wǎng)絡(luò)提供靈活的數(shù)據(jù)采集與特征提取機(jī)制。該系統(tǒng)嵌入了一個傳輸層采集器，用于高效提取TCP流量特征，并將其存儲在共享內(nèi)存中，從而在不干擾數(shù)據(jù)平面的前提下，實現(xiàn)控制平面上ML算法的無縫交互。
最后，Holland等人 [15] 提出了 nPrint 框架，它將數(shù)據(jù)包轉(zhuǎn)換為一種一致的二進(jìn)制格式，同時保留其上下文語義信息。這種機(jī)制使機(jī)器學(xué)習(xí)算法能夠自動識別關(guān)鍵特征，避免了人工特征提取的繁瑣過程。

開發(fā) 模型開發(fā)是一個迭代過程。在每一次迭代中，重要的是評估當(dāng)前模型相較于以往版本的表現(xiàn)，并判斷其是否具備部署到實際網(wǎng)絡(luò)中的準(zhǔn)備條件 [9]。

模型開發(fā)包含兩個基本步驟：(i) 算法設(shè)計，以及 (ii) 模型訓(xùn)練與驗證，這兩個環(huán)節(jié)對于確定解決方案是否具備面向目標(biāo)網(wǎng)絡(luò)的就緒性至關(guān)重要。

算法設(shè)計

機(jī)器學(xué)習(xí)的目的可以分為三個方面：

1. 有效利用已有知識；

2. 對未知現(xiàn)象形成結(jié)構(gòu)化理解；

3. 通過學(xué)習(xí)達(dá)成特定目標(biāo)；

這三個目的分別對應(yīng)機(jī)器學(xué)習(xí)的三大分支：監(jiān)督學(xué)習(xí)（Supervised Learning）、無監(jiān)督學(xué)習(xí)（Unsupervised Learning）和強(qiáng)化學(xué)習(xí)（Reinforcement Learning, RL），它們之間也可能存在交叉（例如半監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)）。

監(jiān)督學(xué)習(xí)（Supervised ML）技術(shù)，如回歸和分類，在開環(huán)環(huán)境中擅長處理定義明確的問題，有助于提升對網(wǎng)絡(luò)流量的可見性或從原始數(shù)據(jù)中提煉洞見。
回歸技術(shù)適用于預(yù)測任務(wù)（如流量需求或用戶行為），或?qū)W習(xí)復(fù)雜關(guān)系，例如將網(wǎng)絡(luò)服務(wù)質(zhì)量（QoS）指標(biāo)與用戶體驗質(zhì)量（QoE）聯(lián)系起來。
分類技術(shù)是另一個AI技術(shù)發(fā)揮作用的典型場景：例如，流量優(yōu)先級劃分可能需要粗粒度的流量類別標(biāo)簽用于策略控制，有時還需要細(xì)粒度的應(yīng)用標(biāo)簽。
無監(jiān)督學(xué)習(xí)（Unsupervised ML）則通過識別數(shù)據(jù)中的模式和結(jié)構(gòu)來進(jìn)行操作，而無需標(biāo)注數(shù)據(jù)，依賴于算法自身發(fā)現(xiàn)數(shù)據(jù)集中的內(nèi)在特征與關(guān)系。
例如，在異常檢測中，無監(jiān)督AI使用算法自主學(xué)習(xí)底層分布，識別數(shù)據(jù)偏離。這些算法能夠識別出顯著偏離已知模式的離群值，而無需依賴預(yù)標(biāo)注的正常數(shù)據(jù)樣本。
強(qiáng)化學(xué)習(xí)（RL）更適合持續(xù)且高效的閉環(huán)自動化環(huán)境。
一個例子是使用RL實現(xiàn)資源管理的自動化，可以通過集中式的云代理或分布式設(shè)備代理來實現(xiàn) [4]。
在此背景下，AI代理致力于改善服務(wù)質(zhì)量（QoS），例如提高傳輸效率、降低延遲。為了實現(xiàn)這一目標(biāo)，代理會根據(jù)其行為獲得獎勵，從而在龐大的狀態(tài)空間中有效平衡“探索”與“利用”，提供自動化的優(yōu)化方案 [15]。

模型訓(xùn)練與驗證

在模型訓(xùn)練與驗證的系統(tǒng)語境中，一些因素——如推理效率、泛化能力與安全性——與傳統(tǒng)的準(zhǔn)確性關(guān)注具有同等重要性：

- 泛化能力確保模型能在動態(tài)環(huán)境中及時適應(yīng)，如抗災(zāi)網(wǎng)絡(luò)；

- 安全性對于需頻繁與真實系統(tǒng)交互的ML算法尤為關(guān)鍵；

- 推理效率則對快速決策至關(guān)重要。

模型訓(xùn)練與驗證的過程可以借助諸如 MLflow、Weights & Biases 和 DVC 等工具加以增強(qiáng)。這些工具支持機(jī)器學(xué)習(xí)算法的選擇和超參數(shù)調(diào)整，推動模型的自動化與高效優(yōu)化。

現(xiàn)有解決方案：

以下兩項前期工作探討了如何利用AutoML（自動化機(jī)器學(xué)習(xí)）來自動完成模型選擇與超參數(shù)調(diào)優(yōu)，從而向網(wǎng)絡(luò)運營人員隱藏AI/ML相關(guān)的復(fù)雜性：

- Holland等人 [15] 利用 AutoGluon-Tabular 框架，基于給定的特征與標(biāo)簽，自動尋找并集成具有高預(yù)測準(zhǔn)確率和低推理延遲的模型。

- Swamy等人 [1] 使用一種優(yōu)化框架，將算法選擇與模型生成建模為一個基于用戶意圖和網(wǎng)絡(luò)約束的貝葉斯優(yōu)化問題，從而實現(xiàn)自動執(zhí)行。

- Lacoboaiea等人 [6] 針對構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的信道管理器所面臨的挑戰(zhàn)展開研究，重點關(guān)注訓(xùn)練的安全性、效率、環(huán)境真實性與泛化能力。他們采用數(shù)字孿生（digital twins）實現(xiàn)安全訓(xùn)練，調(diào)整學(xué)習(xí)率以提升效率，結(jié)合真實數(shù)據(jù)增強(qiáng)模擬器的真實性，并通過合成噪聲與真實數(shù)據(jù)融合增強(qiáng)模型泛化能力。

運維（Operations）

本部分詳細(xì)闡述基于AI/ML的解決方案在真實網(wǎng)絡(luò)中的部署與管理過程中需要關(guān)注的問題。

部署實際部署涵蓋模型的打包、定制化和可行性測試。由于傳統(tǒng)的基于機(jī)器學(xué)習(xí)的解決方案主要面向控制平面，這類模型通常可以由標(biāo)準(zhǔn)的模型服務(wù)工具處理。

近年來，隨著“網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)”（in-network ML）的興起，研究人員開始將機(jī)器學(xué)習(xí)的前沿推進(jìn)到網(wǎng)絡(luò)數(shù)據(jù)平面，以利用其中海量的數(shù)據(jù) [3]。然而，由于本地實現(xiàn)環(huán)境與網(wǎng)絡(luò)基礎(chǔ)設(shè)施之間的差異，以及工具鏈的不統(tǒng)一，模型部署變成了一項西西弗斯式的任務(wù)（Sisyphean task），嚴(yán)重阻礙了定制化進(jìn)程。

此外，網(wǎng)絡(luò)中充斥著各種架構(gòu)不同、配置流程各異、資源占用不同的專用硬件設(shè)備（例如 SmartNICs、P4 交換機(jī)、嵌入式設(shè)備），這使得部署過程需要將解決方案重構(gòu)為一個通用的數(shù)據(jù)處理流水線，同時對網(wǎng)絡(luò)服務(wù)造成最小干擾 [1]。

管理除了部署之外，對已部署的基于ML的解決方案的管理還涉及模型服務(wù)、資源與運維管理、以及漂移監(jiān)測等任務(wù)。

特別地，由于網(wǎng)絡(luò)系統(tǒng)可能快速演進(jìn)，內(nèi)在的概念漂移或數(shù)據(jù)漂移可能導(dǎo)致模型性能下降和服務(wù)質(zhì)量退化。因此，應(yīng)持續(xù)檢查推理結(jié)果的質(zhì)量，以檢測性能下降，并在適當(dāng)時觸發(fā)模型重建流程。

在實際網(wǎng)絡(luò)中，正確的質(zhì)量評估指標(biāo)和觸發(fā)機(jī)制應(yīng)被仔細(xì)界定，同時還要在監(jiān)控開銷與質(zhì)量評估準(zhǔn)確性之間取得平衡 [10]。

根據(jù)具體問題背景，模型重建流程可以從數(shù)據(jù)準(zhǔn)備與標(biāo)注階段，或者模型開發(fā)階段重新開始，這些流程必須事先明確指定。

現(xiàn)有解決方案

為應(yīng)對上述挑戰(zhàn)：

- Zheng等人 [3] 提出了 Planter，這是一個模塊化架構(gòu)，支持多種網(wǎng)絡(luò)內(nèi)機(jī)器學(xué)習(xí)算法在三大主流硬件平臺上的無縫部署。

Planter 支持大量主流機(jī)器學(xué)習(xí)算法。其在訓(xùn)練后自動將模型轉(zhuǎn)換為目標(biāo)平臺定制化的 P4 代碼，隨后進(jìn)行編譯和集成以完成部署。

- Swamy等人 [1] 設(shè)計了一套編譯器工具，可自動為流行的數(shù)據(jù)平面生成目標(biāo)導(dǎo)向的代碼。

他們利用一個周期精確模擬器，提前評估模型的關(guān)鍵性能指標(biāo)（如吞吐量、延遲和資源利用率）。

- Yang等人 [10] 應(yīng)對推理監(jiān)控問題，結(jié)合基于梯度的技術(shù)與開放集識別（Open Set Recognition）及可解釋AI（Explainable AI），深入分析推理質(zhì)量。

他們進(jìn)行了對比評估，以驗證其方法在推理監(jiān)控和數(shù)據(jù)漂移檢測方面的有效性。

我們對所有這些開創(chuàng)性工作進(jìn)行了總結(jié)，如表I所示，涵蓋了其所針對的機(jī)器學(xué)習(xí)生命周期階段、支持的機(jī)器學(xué)習(xí)算法類型、目標(biāo)網(wǎng)絡(luò)環(huán)境以及應(yīng)用場景。

本質(zhì)上，每一項工作都覆蓋了機(jī)器學(xué)習(xí)生命周期中的部分階段。

拼圖中缺失的部分

基于上述綜述，我們識別出實現(xiàn)AI/ML全面落地所缺失的三個關(guān)鍵部分。

首先，盡管在各個領(lǐng)域取得了積極進(jìn)展，但這些進(jìn)展尚未被整合轉(zhuǎn)化為整體優(yōu)勢。在真實系統(tǒng)中，各個環(huán)節(jié)必須無縫銜接，形成一個端到端的數(shù)據(jù)處理流水線。然而，目前高度依賴人工干預(yù)的情況下，基于機(jī)器學(xué)習(xí)的解決方案在未來網(wǎng)絡(luò)中的管理將變得愈發(fā)復(fù)雜和沉重。

其次，由于缺乏系統(tǒng)的日志記錄與追蹤機(jī)制，可復(fù)現(xiàn)性 （reproducibility）無法得到保障。傳統(tǒng)的版本控制工具不足以完整捕捉機(jī)器學(xué)習(xí)工作流中的數(shù)據(jù)集、參數(shù)以及配置依賴關(guān)系。為了確保科學(xué)研究的嚴(yán)謹(jǐn)性和監(jiān)管合規(guī)性，這些內(nèi)容必須能夠始終如一地被復(fù)現(xiàn)。

第三，由于數(shù)據(jù)科學(xué)家與網(wǎng)絡(luò)工程師在專業(yè)知識和優(yōu)先事項上的差異，容易形成“信息孤島 ”（silos），這會阻礙工作效率，并延遲價值實現(xiàn)的時間（time-to-value）。

圖3展示了兩種機(jī)器學(xué)習(xí)生命周期管理的方法。

傳統(tǒng)的工作流程是一個一次性過程，包括數(shù)據(jù)采集、模型開發(fā)和部署，側(cè)重于首次快速交付 。然而，隨著時間維度的延伸，這種方法效率逐漸下降。特別是當(dāng)數(shù)據(jù)或系統(tǒng)發(fā)生變更時，模型需要持續(xù)重新訓(xùn)練。如果沒有適當(dāng)?shù)墓芾頇C(jī)制，隨著整個流程涉及從數(shù)據(jù)科學(xué)家到網(wǎng)絡(luò)工程師等多個團(tuán)隊，現(xiàn)有模型的復(fù)現(xiàn)和改進(jìn)將變得十分困難。人工資產(chǎn)的交接效率低下且負(fù)擔(dān)沉重。

相反，第二種方法采用了更加系統(tǒng)化的策略。最初，相關(guān)團(tuán)隊會投入大量時間構(gòu)建具備完善追蹤機(jī)制的自動化流水線。與人工方式相比，這種方法帶來了顯著的長期收益，包括良好的可復(fù)現(xiàn)性、模型的持續(xù)優(yōu)化能力，以及各環(huán)節(jié)之間的無縫溝通。

持續(xù)學(xué)習(xí)（Continual Learning）

持續(xù)學(xué)習(xí)使AI/ML從業(yè)者能夠高效地更新和部署模型。它能夠應(yīng)對數(shù)據(jù)分布漂移、基于罕見事件調(diào)整模型，并解決因未知數(shù)據(jù)帶來的冷啟動問題 [9]。

在網(wǎng)絡(luò)系統(tǒng)中，我們列舉了向持續(xù)學(xué)習(xí)演進(jìn)的以下階段：

階段 1 - 手動、無狀態(tài)再訓(xùn)練： 最初，研究人員手動重新訓(xùn)練模型，不利用歷史數(shù)據(jù)狀態(tài)，這種情況常見于沒有專門團(tuán)隊來管理機(jī)器學(xué)習(xí)平臺的環(huán)境中。

階段 2 - 自動化再訓(xùn)練： 研究人員開始實現(xiàn)模型再訓(xùn)練的自動化。再訓(xùn)練頻率通常依賴經(jīng)驗判斷，例如每日更新，這種做法缺乏堅實的實證基礎(chǔ)，但旨在優(yōu)化性能。

階段 3 - 自動化、有狀態(tài)訓(xùn)練： 為了提高效率，研究人員開始探索最近保存的模型狀態(tài)和檢查點，這對于需要頻繁更新模型的應(yīng)用場景尤為有益。

階段 4 - 面向網(wǎng)絡(luò)管理的持續(xù)學(xué)習(xí)： 最先進(jìn)的階段是從固定時間表更新過渡到基于觸發(fā)機(jī)制的動態(tài)模型更新，其觸發(fā)條件可以是時間間隔、性能指標(biāo)、網(wǎng)絡(luò)流量或通信模式等，從而實現(xiàn)更靈敏和自適應(yīng)的網(wǎng)絡(luò)管理。

在現(xiàn)代網(wǎng)絡(luò)中應(yīng)用持續(xù)學(xué)習(xí)面臨重大挑戰(zhàn)。幸運的是，MLOps 提供了緩解這些問題的方法，詳見下一節(jié)。

MLOps：邁向端到端流水線

MLOps 是一套新興實踐，它將 DevOps 原則應(yīng)用于基于機(jī)器學(xué)習(xí)系統(tǒng)的開發(fā)與運維的統(tǒng)一 [5], [9]。

為何需要 MLOps？

傳統(tǒng)上，DevOps 能有效應(yīng)對軟件產(chǎn)品交付的運維成本。它是一套原則的集合，旨在打破軟件開發(fā)人員與 IT 運維工程師之間的壁壘，推動在整個產(chǎn)品生命周期中實現(xiàn)自動化、持續(xù)集成（CI）與持續(xù)部署（CD）。這些原則有助于眾多企業(yè)和組織實現(xiàn)IT目標(biāo)與業(yè)務(wù)成果 [10]。網(wǎng)絡(luò)行業(yè)也已采用 DevOps 來推動技術(shù)創(chuàng)新和收入增長。

然而，盡管 DevOps 能夠降低傳統(tǒng)軟件項目落地的運維開銷，但它在支持機(jī)器學(xué)習(xí)（ML）所具有的獨特特性方面仍顯不足。

傳統(tǒng)軟件與 ML 之間存在五個根本性差異：

1. 性能決定因素不同：

在傳統(tǒng)軟件中，代碼質(zhì)量主要決定了系統(tǒng)表現(xiàn)；而在 AI/ML 中，模型與數(shù)據(jù)共同影響最終結(jié)果 [5]。

2. 工具鏈復(fù)雜度不同：

傳統(tǒng)軟件通常建立在功能完善的庫之上，具有清晰的抽象邊界 [8]；而基于 ML 的解決方案往往涉及更廣泛的工具和庫，帶來了額外的集成與維護(hù)成本。

3. 行為確定性不同：

傳統(tǒng)軟件輸出是確定性的，而 ML 模型本質(zhì)上具有隨機(jī)性，因此需要不同的流程來驗證其行為表現(xiàn)。

4. 環(huán)境適應(yīng)性要求不同：

ML 模型容易受到數(shù)據(jù)漂移與概念漂移的影響，這在網(wǎng)絡(luò)環(huán)境中尤為常見，因此需要具備漂移檢測機(jī)制以及模型重建能力 [10]。

5. 所需技能集不同：

構(gòu)建和運營基于 ML 的解決方案需要數(shù)據(jù)科學(xué)相關(guān)的技能，而這在傳統(tǒng)的軟件或網(wǎng)絡(luò)運維流程中通常是缺失的。

根據(jù)最近的一項調(diào)查，55% 的電信運營商缺乏相關(guān)的數(shù)據(jù)科學(xué)人才 [7]。

在 DevOps 原則的基礎(chǔ)上，MLOps 通過以下實踐來適應(yīng) AI/ML 的獨特特性：

持續(xù)監(jiān)控（Continual Monitoring, CM） / 持續(xù)訓(xùn)練（Continual Training, CT） ：
MLOps 通過持續(xù)監(jiān)測數(shù)據(jù)和推理質(zhì)量，在適當(dāng)時機(jī)重建模型，從而解決模型性能退化的問題。
自動化（Automation） ：
MLOps 將 AI/ML 生命周期整合為一個完全自動化的流水線，以降低運維成本。
版本控制（Versioning） ：
在 DevOps 的基礎(chǔ)上，MLOps 擴(kuò)展了對整個流程中各類產(chǎn)物（包括數(shù)據(jù)、模型和代碼）的版本控制。
實驗追蹤（Experiment Tracking） ：
對實驗過程進(jìn)行系統(tǒng)化追蹤，以確保結(jié)果的可復(fù)現(xiàn)性與可審計性。
協(xié)作機(jī)制（Collaboration） ：
MLOps 提倡建立一個統(tǒng)一平臺，促進(jìn)各參與方之間的協(xié)同合作，形成合力。

通過這些實踐，MLOps 整合了 AI/ML 全生命周期中的各項創(chuàng)新，并顯著降低了運營成本。盡管這一新興領(lǐng)域在網(wǎng)絡(luò)研究社區(qū)中仍處于早期階段，但我們設(shè)想了一個可行的架構(gòu)，如圖4所示，該架構(gòu)在真實網(wǎng)絡(luò)中融合了大部分 MLOps 實踐。

面向網(wǎng)絡(luò)的 MLOps：一個案例研究

我們通過一個實時KPI預(yù)測 的案例研究來展示MLOps的優(yōu)勢，這是網(wǎng)絡(luò)管理中的一個關(guān)鍵環(huán)節(jié)。

我們在一個小規(guī)模數(shù)據(jù)中心 中部署了一個網(wǎng)絡(luò)服務(wù)鏈，并探索使用一種輕量級的人工神經(jīng)網(wǎng)絡(luò)（ANN）模型 ，基于基礎(chǔ)設(shè)施層的硬件特征 進(jìn)行“非侵入式”的KPI預(yù)測。

我們采用了以下關(guān)鍵技術(shù)：

使用 皮爾遜相關(guān)系數(shù) （Pearson Correlation Coefficient）進(jìn)行特征選擇；
利用 貝葉斯優(yōu)化 （Bayesian Optimization）實現(xiàn)自動超參數(shù)調(diào)優(yōu)；
通過 Jensen-Shannon 散度 （Jensen-Shannon Divergence）量化數(shù)據(jù)漂移。

我們使用 Kubeflow （一個基于 Kubernetes 的開源 MLOps 平臺）對處理流水線進(jìn)行了重構(gòu)。

圖5展示了MLOps如何實現(xiàn)具有可持續(xù)性能的實時KPI預(yù)測 。

最初，我們的模型在服務(wù)吞吐量預(yù)測上的平均準(zhǔn)確率達(dá)到91% 。
在第70個時隙，發(fā)生了數(shù)據(jù)漂移 ，導(dǎo)致預(yù)測準(zhǔn)確率下降至48% 。
系統(tǒng)隨即自動觸發(fā)模型再訓(xùn)練 ，并部署了更新后的模型，將預(yù)測準(zhǔn)確率恢復(fù)至90% 。

結(jié)論

由于缺乏系統(tǒng)層面的考量，人工智能/機(jī)器學(xué)習(xí)（AI/ML）尚未成為現(xiàn)代網(wǎng)絡(luò)的有機(jī)組成部分。本文分析了現(xiàn)有基于AI/ML的解決方案與真實網(wǎng)絡(luò)系統(tǒng)之間的不一致性，并討論了其在整個產(chǎn)品生命周期中所涉及的各種實際考量因素。我們還回顧了相關(guān)研究，并指出了當(dāng)前缺失的關(guān)鍵環(huán)節(jié)。

隨后，我們通過一個案例研究驗證了MLOps在真實網(wǎng)絡(luò)系統(tǒng)中的優(yōu)勢。本文旨在提升業(yè)界對在生產(chǎn)環(huán)境中落地AI/ML所面臨實際挑戰(zhàn)的認(rèn)識，并加速其在未來網(wǎng)絡(luò)中的融合與應(yīng)用。

原文鏈接： https://arxiv.org/pdf/2303.04073

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.