99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

特約文章丨模型聯邦網絡構建及示范應用

0
分享至

文 / 陳益強

摘 要:本文提出了一種新型的大模型分布式構建框架——模型聯邦網絡(簡稱“模聯網”),旨在解決行業大模型訓練面臨的“數據孤島”“算力孤島”和“模型孤島”三大挑戰。模聯網通過聯邦學習、安全共享計算等方式,實現數據加工式共享,降低對集中式大算力的依賴,促進模型融合與協同。詳細介紹了模聯網在打破數據孤島、模型孤島方面的關鍵技術,展示了其在醫療領域的應用案例,并進一步探討了模聯網突破傳統大模型規模效應局限的潛力,提出模聯效應概念,通過模型融合與協同實現能力聚合,提升大模型性能。未來,模聯網有望成為跨行業的“AI4ALL”基礎科創平臺,為各行業領域和用戶提供低門檻、低成本和高效能的智能模型與服務。

關鍵詞:數據孤島;聯邦學習;模聯網;AI4ALL 平臺

0 引言

預訓練大模型正在成為各行業領域重要的“生產力工具”。Google 研發的醫學大語言模型Med-PaLM2 首次在美國醫療執照考試中達到了專家水平,具有和臨床醫生水平相當的醫療問答能力;DeepMind 研發的蛋白質結構預測專用大模型AlphaFold3,不僅預測了幾乎涵蓋所有已知氨基酸序列的 2 億多個蛋白質結構,而且在分子水平上實現了蛋白質與其他生物分子相互作用的高精度結構預測,其研究者因此獲得了 2024 年諾貝爾化學獎。

Scaling Laws(規模效應)被稱為大模型的第一性原理,即增大參數規模、訓練樣本和訓練時間將持續提升模型性能。在此指導下,目前大模型發展主要采用“集中式”煉大模型的方式,在大數據上利用大規模的算力集群訓練超大規模的模型參數。然而,在很多行業應用場景下不僅缺乏“集中式”煉大模型所需要的大算力和高質量、多樣性的海量大數據,而且大模型訓練所消耗的資源也難以負擔。尤其在我國數據大但共享難、算力多但分布廣和模型多但協作難的現實國情下,采用傳統集中式方法訓練行業垂類大模型將面臨數據孤島、算力孤島和模型孤島的三大挑戰:首先,大數據拿不到,行業領域的專用數據具有較強的私有性和敏感性,如醫院對醫療數據安全的保護要求很高,難以集中式地獲得大數據(“數據孤島”);第二,大算力買不起,行業應用邊緣側用戶通常缺乏大規模計算集群及對應的并行算法框架,難以支撐行業大模型的訓練和推理(“算力孤島”);第三,大模型訓不起,大模型訓練消耗大量的電力(例如,GPT-3 訓練使用了大約 128.7 萬度的電,相當于美國約 121 個家庭一整年的用電量),增加模型參數規模的方式難以可持續發展,只能各自訓練小規模參數(“模型孤島”)。行業大模型作為新質生產力,本質上是算力對專業數據進行場景化精加工后的結構性抽象,若將現有針對特定場景和任務構建的專用大模型進行網絡化聯接和融合協同計算,有望保證“大模型”能力的持續提升。因此,我們提出一種新型的大模型分布式構建框架——模型聯邦網絡(簡稱“模聯網”),通過聯邦學習、安全共享計算等方式將傳統數據上傳式共享改進為加工式共享,解決數據孤島問題;通過模型拆分與異步調度將算力需求從傳統集中式改進為分布式,解決算力孤島問題;通過模型融合與協同將傳統“煉”大模型改進為“聯”大模型方式,解決模型孤島問題。

模聯網示意圖如圖 1 所示。


圖 1 模聯網示意圖

1 數算成模:打破數據孤島

“數算成模”的過程要求聯合數據和算力,現在主要有“數隨算動”和“算隨數動”兩個路徑:① 數隨算動,將數據提交到各地的算力中心進行模型訓練,結束后返回模型參數;但是,這種方式在行業場景中存在數據無法出域和數據安全等問題。② 算隨數動,在數據側直接建設算力中心,通過增加算力節點的數量令算力無處不在;但是,這種方式存在建設成本高且可持續運營難等問題。

如何在數據不動且算力分布下構建行業大模型?聯邦學習是近年來提出的一種新型的計算方法,能夠打造安全可靠的數據流通環境,在保證原始數據不出域的條件下,通過本地小規模訓練和共享模型參數,實現大范圍多用戶的協同訓練,這種計算方法也得到了國家數據局,以及美國和歐盟的關注。然而,在利用聯邦學習構建行業大模型時還需解決不可見數據治理與分布式算力不均衡的技術難點。

1.1 數據質控聯邦學習技術——FedClean

眾所周知,訓練數據的質量直接影響模型性能。由于基于聯邦學習的數算成模技術需保證原始數據不可見,因此難以直接對數據質量進行評估與治理,只能通過傳輸的模型參數實現數據質控。對此,我們提出了數據不可見下數據質控聯邦學習技術——FedClean,包括以下三種方法:① 聯邦機會計算方法 Focus。與傳統聯邦學習中云端缺乏數據的假設不同,現實中的聯邦大多由行業龍頭機構牽頭,作為發起方的云端通常會有一套金標準數據。Focus 方法提出一種對稱性檢驗損失,對比云端和本地數據分別在本地和全局模型的損失,從而在不接觸原始數據的情況下評估本地數據整體的質量,相關工作發表在首部聯邦學習的英文專著 Federated Learning:Privacy and Incentive。② 基于聯邦共識的標簽修正方法 CLC。行業中各機構水平參差不齊,雖然各自采集的數據有效,但標注水平差異導致行業大模型訓練受到噪聲干擾。對此,CLC 提出了一種聯邦共識機制,利用多中心損失分布中蘊含的知識實現樣本級的噪聲檢測和標簽修正,從而避免了信息損失,相關工作發表在 JCR Q1 期刊 IEEE TNNLS。③ 混合帶噪聯邦學習 FedMIN。在原始數據不可見的情況下,難以保證各機構采集數據的有效性,即數據噪聲可分為標簽噪聲和樣本噪聲兩種類型。FedMIN 通過聯邦學習過程中的損失分布實現不同噪聲類型的有效區分,針對性地采取不同手段進行噪聲處理,提高聯邦學習的魯棒性,相關成果發表于 CCF A 類會議 IJCAI。

1.2 分布式模型拆分與異步聯邦學習框架 FedBone

目前大模型訓練主要采用集中式的算力集群,但現實情況中廣域分布的算力是極不均衡的。比如,大型三甲醫院能夠建設自己的算力中心,但在地區醫院或者診所很難配置足夠算力來支撐大模型的訓練。充分利用異構的分布式算力來訓練行業大模型需要新型的計算框架,對此,我們將聯邦學習與拆分學習結合起來,提出一種分布式模型拆分與異步聯邦學習框架 FedBone,將大模型中最耗計算資源的、用于提取抽象特征的中間部分拆分并調度至大算力中心,本地小算力則專注于淺層網絡及決策層的適配,從而降低本地計算的算力需求。FedBone 將本地淺層處理的中間特征上傳至云端,繼續進行更深層次的、計算負載高的表征學習,并將計算后的表征嵌入返回本地后,通過個性化適配完成本地任務。在云端的表征學習通過異步聯邦學習實現多用戶的模型聚合,降低異地分布式計算中對低延遲的需求。在公開數據集和眼底圖像檢測醫學任務數據集上的實驗結果表明,FedBone 在多任務上能夠取得最佳的平均性能,特別是當模型規模擴展為億級至十億級時,FedBone 的本地模型參數能夠維持在百萬級別,顯存占用低于 4 GB,并且保證模型的整體性能,相關工作發表于我國計算機領域唯一 SCI 期刊 JCST。

1.3 應用案例

基于上述方法,我們采用“模型即服務”(model as a service,MAAS) 的方式搭建了一套“聯”大模型共性技術平臺,實現了數據不動模型動、數據可用不可見的多中心協同建模。目前已支撐愛爾眼科集團、中國帕金森聯盟、中國人民解放軍總醫院、中國聯通等機構開展了多中心的聯邦協作,在 100+家醫院進行了應用示范。

1.3.1 可擴展的數字眼科聯邦協同平臺 FedEYE?

針對多中心醫學影像數據孤島問題,如眼底圖像一般分布在不同醫院,但醫院之間并不完全互通,我們與愛爾眼科醫院集團共同構建了可擴展的數字眼科聯邦協同平臺 FedEYE? 實現了覆蓋北京、上海、南京、成都、武漢、沈陽等 15 個省級與地級市的大規模多眼病細分類眼底影像數據管理,包含 2.2 萬張經過多名眼科專家一致標注的高質量眼底圖像數據集,在此基礎上構建的眼科疾病輔助診斷模型在多個眼科測試任務上精度超過 90%,與單中心模型精度相比提高了 5%~10%,相關成果發表于 Cell 子刊 Patterns。該平臺落地建設愛爾眼科“1+8+N”聯邦協同架構,覆蓋 9 大區域中心、200+ 個縣市區域和 1000+ 個眼健康服務站點。

1.3.2 神經退行性疾病預警與輔診

針對帕金森病臨床評價量表 MDS-UPDRS 主觀性強和一致性弱的問題,我們研發了神經退行性疾病智能輔診系統(STAND 系統),集成了包括智能手機、手環和鞋墊等多模態可穿戴設備,基于聯邦學習方法構建了多中心的神經退行性疾病智能輔診模型。其中,基于患者行為客觀感知數據實現了運動癥狀的量化評估,幫助提升帕金森病平均診斷率10%;同時在多中心隱私協作條件下,提出了一種聯邦可解釋學習方法,能夠從客觀感知的運動數據中挖掘與疾病癥狀相關的關鍵特征,與臨床使用的量表評分相比具有更高的敏感性,有望在評分未發生變化時提前預警疾病進展,未來能夠為帕金森病數字化標志物的發現提供支持。該系統獲得首都醫科大學宣武醫院國家老年疾病臨床醫學研究中心的應用證明支撐,并在 400 多家醫院的中國帕金森聯盟進行應用。

2 模聯生智:打破模型孤島

聯邦學習一定程度上可解決單聯邦內的“數據孤島”問題,構建聯邦內可共享的模型,但模型在聯邦間難以直接共享,形成了“模型孤島”。因此,如何打通多聯邦間的協同建模成為了新的挑戰。

2.1 基于循環蒸餾的“聯邦之聯邦”協作方法MetaFed

打破模型孤島目前主要有兩種技術路線,一種是在多個聯邦之上再增加一個全局可信的協調節點,但由于現實中難以找到具有廣泛信任基礎的第三方,這種方法在大多數行業中難以實施;第二種是采用去中心化的點對點聯邦架構,例如 Nature 發表的封面文章 Swarm Learning,然而在去中心化的聯邦學習中,模型參數需要在所有權利均等的成員之間進行廣播,消耗大量的帶寬資源。對此,我們提出了一種基于循環蒸餾的“聯邦之聯邦”協作方法 MetaFed,包括共性知識積累和個性化適配兩個階段,以環形或圖的拓撲結構構建知識傳遞的路徑,通過路徑優化和多輪循環實現知識的疊加,并通過知識交換過程中的權重保證本地知識的自適應,實現模型的個性化適配。該方法有效實現了不同聯邦之間的協同學習和知識傳遞,在傳統聯邦學習基礎上進一步提升了模型性能,榮獲了 FL-IJCAI 2022的創新獎。2024 年,Nature Biotechnology 發表的 It takes two to think 從生命科學的角度驗證了 MetaFed 所提出的“兩人交換知識或是最佳”策略。

2.2 聯邦遷移學習框架 FedHealth

在行業場景下,如醫療健康,聯邦學習的各參與方通常具有個性化的任務需求,參與方協同共建的統一共享的大模型一定程度上丟失了個性化信息。對此,我們提出一種面向醫療健康應用的聯邦遷移學習框架 FedHealth,由云端下發統一的聯邦模型及共享數據,利用本地數據與云端數據進行聯邦模型的個性化遷移,從而實現聯邦模型的自適應適配。我們在醫療健康場景中驗證了 FedHealth 的有效性,其精度較非聯邦模型和非遷移模型分別最大提升了 21.6% 和 14%,相關工作在 2019 年獲得首屆 FL-IJCAI 研討會的最佳應用論文獎,并于 2020 年發表于 IEEE Intelligent Systems(截止目前,Google 學術引用率超過 950 次)。

2.3 應用案例:跨物種生命基礎大模型GeneCompass

基于上述框架,我們與中國科學院動物研究所等多家科研機構合作,共同研發了國際首個跨物種基因基礎大模型,覆蓋了 1.2 億多單細胞數據和 3 萬多基因數量,實現人與小鼠的跨物種融合,以及人類先驗知識的嵌入,針對基因擾動預測、藥物敏感性預測等典型生命科學下游任務,通過大模型的遷移適配形成的專用模型,其性能取得了國際領先水平。同時,基于 GeneCompass 的遷移適配探索了“干 + 濕”融合的實驗新范式,針對誘導胚胎干細胞發育的靶基因篩選,發現了 5 個候選基因,與傳統靶基因發現依賴經驗和知識的方法相比,極大縮小了濕實驗對象的搜索空間,顯著提升了相關生命科學研究的效率。相關成果作為封面文章刊登于 2024 年 10 月 Nature 的子刊 Cell Research 上,自正式發表以來瀏覽次數已超過 1.3 萬次。

3 智演未來:突破規模效應

大模型在預訓練階段的 Scaling Laws 已產生了邊際效應遞減現象,在不斷擴大數據規模、參數規模和訓練時間上可能已遇到發展的天花板。OpenAI o1 的橫空出世開啟了大模型演化的新范式——后訓練, 也 被 稱 為 Inference Scaling Laws。OpenAI o1 結合 COT 技術將推理階段的時間增加,把更多的算力放到了推理階段,從而在數學代碼等復雜推理能力上取得的巨大進步,直逼人類博士水平。可以看出,大模型的發展不再是單純地追求“越大越好”,而是結合實際需求明確 Scaling 的對象。因此,我們基于聯邦學習機制提出了一種面向模型的 Scaling Law——模聯效應,建立以“聯”為核心的超大規模模型群,通過模型融合與協同實現能力聚合,以模型網絡節點規模的擴張提升大模型性能。我們初步探索了模聯效應的實現,重點研究了模聯網構建中安全流轉、公平融合以及智能測調等關鍵技術。

首先,模聯網的節點之間進行模型的共享與流程需要一個可信的流轉模型載體,避免模型的敏感信息和訓練樣本通過模型參數泄露。對此,我們提出了一種面向模型流轉的安全模型封裝方法 PrivFusion。PrivFusion 采用混合式的差分隱私技術將預訓練的神經網絡模型封裝成圖結構流轉載體,通過多尺度的圖節點與邊擾動,保障模型信息安全;通過去中心化的聯邦圖匹配方法,保證模型融合效果,實現不同模型的跨域協同。此過程不需要訓練數據,通過細粒度的隱私預算控制,融合后的模型在可用性與安全性之間的平衡達到最優,在保證模型性能的同時在所有測試基準上比其他方法的安全性更好,相關成果發表于 CCF A 類期刊 IEEE TKDE。

其次,模聯網的節點之間進行模型融合需要考慮隱私性和公平性,一方面模型參數中蘊含訓練樣本的知識,模型參數的明文融合易產生隱私泄漏風險;另一方面,模型的訓練樣本具有非獨立同分布的天然屬性,尤其是跨地域、跨人群的模型之間會存在性別、年齡、種族等因素影響,群體模型的融合進化需要考慮公平性,避免產生有偏好的模型輸出。對此,我們提出了一種面向模型公平融合的群體模型進化方法 FairFusion,采用基于最優傳輸理論的模型內部表征對齊和基于本地化差分隱私的模型參數保護,實現跨節點的模型安全融合,通過調整隱私預算、融合比例等敏感性參數,構建候選模型池,利用多目標量化約束與群體進化尋優,進而尋求融合模型的帕累托最優解和帕累托前沿,實現融合模型在可用性、安全性和公平性之間的平衡最優,相關成果發表于 CCF A 類會議 IEEE ICDE。

最后,傳統多模型協同通常依賴固定規則或預設流程,難以適應復雜動態的任務需求。針對這一問題,我們提出了一種面向模聯網服務的模型智能測調方法 FusionHive(如圖 2 所示),以模型能力、增強策略和服務場景為核心進行模型管理和動態測調。通過多方向的優化策略(如微調、放縮、裁剪等)對公開模型和私有模型進行能力擴展,構建動態模型知識圖譜,將公共和私有模型有機連接,形成模型間的關聯與歸檔體系。同時,通過自監督學習和多模型對齊技術,優化模型增強效果,提升模型的泛化能力與場景適配性。在智能測調方面,FusionHive 基于用戶需求和優化目標,構建模聯網協同測調框架,利用強化學習和圖神經網絡形成最優候選模型集,并設計模型路由機制以實現“下一個模型預測(next model prediction)”的動態調度與高效匹配。在模型服務方面,FusionHive 強調模型輸出、新數據和人類反饋的協同作用,將前一個模型的輸出結合少量新場景數據和反饋決策干預作為下一個模型的輸入,構建在復雜場景下的動態模型服務鏈 CoM。


圖 2 模聯網雙層架構

4 未來展望

模聯網探索了一條以“系統化”思維實現廣域分布式模型訓練與服務的技術路線,區別目前大模型以“算”為核心、以參數規模擴張提升性能的路線,突破以“聯”為核心的模型網絡構建技術,以網絡節點規模的擴張提升性能,量變實現質變。作為一種新型的大模型分布式構建框架,模聯網具備廣域共享、智能測調、自主增強和持續優化的核心能力,能有力支撐可信數據空間的數據、算力和模型協同,為各行業領域和用戶提供低門檻、低成本和高效能的智能模型與服務。

未來,我們致力于將模聯網打造為“兩低一高”跨行業的“AI4ALL”基礎科創平臺。其中,高效能交叉:強有力的數據治理與模型工具超市,支持 AI 與行業的高效能交叉創新;低門檻參與:自適應的人機交互界面,降低行業領域人員使用 AI 工具的障礙,無論其學科背景、組織關系及地點;低成本互惠:開放共享的 AI 資源(數據、模型、實訓等),促進行業領域人員 AI 技能和知識能力的提升,確保越來越多行業用戶能夠使用最先進的 AI 技術。

(參考文獻略)


陳益強

中國科學院計算技術研究所副所長,研究員,智能研究部主任,移動計算與新型終端北京市重點實驗室主任,國家級領軍人才,CCF Fellow,CAAI 智慧醫療專委會常務委員。主要從事人工智能、普適計算及智慧醫學方向研究。

選自《中國人工智能學會通訊》

2025年第15卷第2期

聯邦學習與隱私計算

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中國人工智能學會
中國人工智能學會
中國人工智能學會網易官方賬號
3466文章數 1482關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大邑县| 枞阳县| 麻城市| 合肥市| 霍林郭勒市| 岳池县| 汉中市| 日土县| 安福县| 丹阳市| 高州市| 英山县| 扶余县| 伽师县| 金塔县| 遵义县| 襄樊市| 杨浦区| 黄大仙区| 新闻| 临沧市| 富顺县| 临城县| 银川市| 潮州市| 临猗县| 东兰县| 宁德市| 凉城县| 尉犁县| 虹口区| 三台县| 翁牛特旗| 绵阳市| 和林格尔县| 平原县| 探索| 洪泽县| 贵州省| 浙江省| 耒阳市|