99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

模型參數作知識通用載體,MergeNet離真正的異構知識遷移更進一步

0
分享至



AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

如今,像各種智能物聯網(IoT)設備這樣的邊緣計算設備無處不在。然而,這些設備通常受限于有限的計算資源和存儲容量,導致在這些設備上部署深度神經網絡(DNNs)時,往往需要使用較小的神經網絡架構。雖然這些小型網絡在計算上更為經濟,但往往會犧牲一定的性能。

為了緩解這一限制,知識轉移是解決方案之一。現有的知識轉移方法主要有兩種:知識蒸餾和遷移學習。

知識蒸餾通過訓練一個緊湊的學生模型來模仿教師模型的 Logits 或 Feature Map,提高學生模型的準確性。遷移學習則通常通過預訓練和微調,將預訓練階段在大規模數據集上學到的知識通過骨干網絡共享應用于下游任務。

這兩種傳統的知識遷移方法,往往依賴于模型結構或特定任務特征 / 標簽的共享元素。這種方法雖然在某些情況下效果不錯,但它們一定程度上限制了知識遷移的應用范圍,尤其是在更一般的情況下,模型架構,任務類型可能都不同,這些方法就顯得力不從心了。

想象一下,在物聯網(IoT)的應用場景中,不同的設備可能面臨著截然不同的計算資源和任務需求,所執行的任務和部署的模型也是千差萬別,這就給進行知識遷移帶來了額外的挑戰。

基于以上問題,來自來自浙江大學和上海交通大學的研究團隊提出了一種更加靈活、更加通用的知識遷移方法,來應對多變的需求和挑戰。這需要做到能跨越模型架構的差異,跨越任務類型的界限,甚至跨越不同數據模態之間的鴻溝,實現真正意義上的異構知識遷移。



  • 論文標題:MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities
  • 論文鏈接:https://arxiv.org/abs/2404.13322
  • 項目地址:https://github.com/Fantasylii/mergenet

圖 1. 知識蒸餾、骨干共享和 MergeNet 的比較



研究挑戰

該團隊的目標是建立一個跨異構模型架構、任務與模態的通用知識遷移框架。與傳統知識遷移方法相比,存在兩方面挑戰:

如何實現異構模型知識的統一表示?

知識蒸餾通常利用 Logits 和 Feature Map 表示知識,但依賴于教師模型與學生模型執行任務類型。

遷移學習通常通過共享參數實現知識遷移,這要求源模型與目標模型具有相同架構,無法直接應用于模型架構可能不同的異構知識遷移場景。

如何實現異構模型知識的適配?

異構模塊之間知識通常不兼容,當異構模塊具有顯著不同的功能時,例如在線性層和注意力機制模塊之間,直接知識遷移可能會破壞原始模塊的知識。

在端云環境中,云端通常采用復雜的深度學習模型,這些模型包含大量參數和復雜層次結構。相比之下,端側設備由于計算能力和存儲資源的限制,通常使用輕量化的模型。

較大的模型比較小的模型包含更高級的知識(例如細粒度的特征組合),而后者可能無法直接理解這些知識,使得傳統的知識遷移方法面臨適配性和兼容性的問題。

MergeNet 框架



圖 2.MergeNet 框架

異構模型知識表示

如上文所述,無法直接使用 Logits 和 Feature Map 作為知識表示。相比之下,權重共享更能符合研究目標,不管什么架構的模型,執行什么任務,通過反向傳播迭代,最終的知識都會保存在模型參數中,這啟發了該團隊將模型參數作為知識的通用載體。

在探索的過程中,該團隊還嘗試了在異構模型之間直接進行參數共享。這種方法能應用于權重矩陣大小相同的情況,但是在其他情況下便不再有效。

他們也嘗試過讓大小不同的參數強行共享,例如,讓一個大小為 [2, 2] 的矩陣作為大小為 [5, 5] 矩陣的子矩陣,但這種強行的操作并不有效,異構的知識需要進行適配。

另外一點,由于權重矩陣通常較大,直接在兩個權重矩陣上進行操作所需要的計算資源過大,需要在適配之前進行一定的處理。為此,研究團隊對模型參數進行重新編碼,以低秩矩陣作為對異構知識的統一表示,消除了模型架構上的差異。

異構知識適配

簡單的參數共享會導致異構模型之間的知識不兼容,該團隊的思路是在模型之間引入一個參數適配器。它的任務是學習彌合異構模型參數空間的差距,促進這些參數空間內知識的直接交互,提取并融合異構模型間的知識:



其中,和表示知識遷移后兩個模型的參數。為了綜合利用兩模型的知識,在此引入低秩參數知識適配器(LPKA)。該機制用于從低秩矩陣中提取知識,并合并來自不同模型的知識以生成新的參數。





將低秩分解獲得的 和 按行 / 列展平,利用注意力機制將源模型的知識整合到目標模型中:







這個過程可以類比為模型根據自身的需求,從另一個模型中提取當前最有價值的知識片段,而不是全盤接收。這允許動態調整參數映射,在整個訓練過程中都能有效地適應不斷變化的知識需求。

就像在小學階段,我們學習的是加減乘除,而在大學,則會學習微積分;如果反之,在小學便一起學習微積分,不僅難以理解,而且也沒有必要。

訓練過程 (自學習和互學習)

回顧知識蒸餾的過程,學生模型除了根據教師的輸出標簽或中間層的表示計算損失,還會根據自身輸出與數據標簽計算損失。這好像是說,在學習的過程中,不能僅僅的去模仿老師,還要根據已經從老師那里學到的知識來產生自己的思考。

在這里,研究團隊將學生從老師那里得到知識的過程稱為互學習(在 MergeNet 中學習是可以相互的,學生可以變成老師,老師也可以變成學生),而學生根據知識自己學習的過程稱為自學習。

基于此,他們將 MergeNet 的訓練過程分為自學習和互學習兩個階段。自學習階段,模型通過梯度下降算法優化自身參數;而互學習階段,則涉及到模型間的知識遷移。

該團隊認為,僅依賴知識遷移無法達到最佳效果,因此提出了在知識遷移過程中穿插自學習,類似于在教師指導下的自我鞏固階段。這種設計使得模型在吸收外來知識的同時,也能夠鞏固和優化自身的知識結構。

實驗結果

研究團隊在跨結構、跨模式和跨任務知識遷移這幾個具有挑戰性的場景中,對 MergeNet 進行了廣泛的實驗。

跨結構知識轉移實驗

使用 CIFAR-100 數據集,在 ResNet50 和 MobileNetV2 之間進行知識遷移。從一個模型的模塊向結構不同的另一個模型的模塊轉移知識,具體是從線性分類器向卷積層轉移知識。

如表 1 所示,相比于知識蒸餾,MergeNet 在 MobileNetV2 上實現了 1.02% 的 Top-1 準確率提升。



跨模態知識轉移實驗

在 VQA v2.0 視覺問答任務和 MSCOCO 圖像 - 文本檢索任務上進行實驗,實驗模型為 X-VLM。利用一種模態的知識指導另一種模態的學習,具體是視覺編碼器參數與文本編碼器參數之間的知識轉移。

如表 2 所示,MergeNet 在不同設置下均顯著提升了準確率。表明在模態信息進入模態交互器之前進行模態編碼器之間的知識轉移,有助于交互器更輕松地整合來自不同模態的信息。



跨任務知識轉移實驗

研究分類任務(IMDb 情感分類)和問答任務(SQuAD v2.0)上的跨任務知識轉移效果。分別使用 BERT 和 DistilBERT 執行這兩個任務。

如表 3 所示,MergeNet 在兩個任務上均實現了性能提升。例如,從分類任務向問答任務轉移知識,使 Exact Match(EM)得分提高了 1.72%,F1 得分提高了 2.37%;從問答任務向分類任務轉移知識,使錯誤率降低了 0.52%。



消融實驗

  • 訓練過程中自學習的比例的影響

該團隊研究了控制訓練過程中自學習比例的知識轉移周期的影響。下圖展示了在不同 Tcycle 系數下,MobileNetV2 和 ResNet50 在 CIFAR-100 數據集上的知識轉移結果。觀察到在訓練過程中加入自學習可以提升性能。

例如,當 Tcycle 設置為 4 時,MobileNetV2 的性能達到了 66.51%,比沒有自學習時的 60.09% 提高了 6.42%。

圖 3. 訓練過程中自學習的比例的消融實驗



  • 各組件的有效性

如下表所示,通過消融研究驗證了 MergeNet 中每個組件的有效性。可以使用 MLP 作為參數適配器,但這種情況下目標模型會直接采用源模型的知識,而忽略自身積累的知識,可能導致訓練不穩定。與 MLP-based 參數適配器相比,MergeNet 的性能分別提高了 1.82% 和 1.31%。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國留學生被指向澳男嬰潑熱咖啡,受害者連做4場手術!警方公布案件最新進展

中國留學生被指向澳男嬰潑熱咖啡,受害者連做4場手術!警方公布案件最新進展

澳洲紅領巾
2025-06-20 11:43:05
安徽百萬土豆被搶后,徐州50畝桃子遭哄搶,廣東趙一鳴遭遇零元購

安徽百萬土豆被搶后,徐州50畝桃子遭哄搶,廣東趙一鳴遭遇零元購

江山揮筆
2025-06-20 18:57:11
鄰居經常不打招呼用我充電樁,我偷偷將功率調最大,第二天他傻眼

鄰居經常不打招呼用我充電樁,我偷偷將功率調最大,第二天他傻眼

白云故事
2025-06-18 06:35:07
最近紐約最 “潮” 的男人?布拉德·皮特這波時髦變身有點猛

最近紐約最 “潮” 的男人?布拉德·皮特這波時髦變身有點猛

星Xin辰大海
2025-06-20 12:19:04
宋丹丹的直覺一點也沒錯!現在才發現,原來李雪琴的面相早就變了

宋丹丹的直覺一點也沒錯!現在才發現,原來李雪琴的面相早就變了

悠閑歷史
2025-06-20 08:06:40
伊朗10名核科學家睡覺時被“特殊武器”暗殺!以軍承認:攔截失敗!以色列“網絡首都”被炸,世界最大鉆石交易所遭破壞

伊朗10名核科學家睡覺時被“特殊武器”暗殺!以軍承認:攔截失敗!以色列“網絡首都”被炸,世界最大鉆石交易所遭破壞

每日經濟新聞
2025-06-20 15:12:13
徐州5萬斤桃子遭哄搶,這一次再也沒有借口,法治威嚴不容踐踏

徐州5萬斤桃子遭哄搶,這一次再也沒有借口,法治威嚴不容踐踏

胡言炫語
2025-06-20 03:36:50
四川17歲白血病男孩去世!臨終哀嚎不想死,曝最大遺憾讓人淚崩

四川17歲白血病男孩去世!臨終哀嚎不想死,曝最大遺憾讓人淚崩

楊哥歷史
2025-06-19 16:35:50
心疼!46歲周杰倫疾病纏身,走路緩慢需要人扶,曾仕強的話說對了

心疼!46歲周杰倫疾病纏身,走路緩慢需要人扶,曾仕強的話說對了

洲洲影視娛評
2025-06-20 21:23:53
前室友舉報、母校黑歷史翻出,李雪琴“北大才女”人設撐不住了?

前室友舉報、母校黑歷史翻出,李雪琴“北大才女”人設撐不住了?

山河月明史
2025-06-20 18:11:16
有錢飄了?肥娟夫婦帶貨月入250萬,瘋狂掉粉后攤牌:就是想賺錢

有錢飄了?肥娟夫婦帶貨月入250萬,瘋狂掉粉后攤牌:就是想賺錢

面包夾知識
2025-06-19 22:40:45
《731》上映在即,抵制的人卻越來越多,都是什么人害怕上映

《731》上映在即,抵制的人卻越來越多,都是什么人害怕上映

洲洲影視娛評
2025-06-18 13:14:43
大戰打響前,伊朗直言中國不提供武器,但給的東西,價值比武器大

大戰打響前,伊朗直言中國不提供武器,但給的東西,價值比武器大

小聰明說科普
2025-06-21 00:16:51
夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

夜場女孩為什么拒絕接吻?網友:這是行業內最后的一絲尊嚴!

特約前排觀眾
2025-06-10 00:05:09
馬來西亞總理呼吁東盟各國以團結應對挑戰

馬來西亞總理呼吁東盟各國以團結應對挑戰

新華社
2025-06-20 10:56:10
知名男星偷兩顆海膽被捕?本人發文道歉:已達成和解

知名男星偷兩顆海膽被捕?本人發文道歉:已達成和解

紅星新聞
2025-06-20 11:25:40
媒體人:鄭智除非有中超的執教機會,否則他還是會繼續在國家隊

媒體人:鄭智除非有中超的執教機會,否則他還是會繼續在國家隊

直播吧
2025-06-20 11:42:47
慘淡收場!囤了30多年郵票年冊,去市場問回收價,已淪為“廢紙”

慘淡收場!囤了30多年郵票年冊,去市場問回收價,已淪為“廢紙”

收藏大視界
2025-06-19 20:04:00
鏡報:阿莫林逐漸失去耐心,他希望曼聯盡快簽下新援趕上季前賽

鏡報:阿莫林逐漸失去耐心,他希望曼聯盡快簽下新援趕上季前賽

雷速體育
2025-06-20 23:39:33
即將畢業季,大學出現怪象:找不到工作的人,竟不是躺平、掛科的

即將畢業季,大學出現怪象:找不到工作的人,竟不是躺平、掛科的

明月聊史
2025-06-20 17:09:59
2025-06-21 01:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10686文章數 142341關注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

健康
游戲
房產
時尚
公開課

呼吸科專家破解呼吸道九大謠言!

《無主之地4》聽勸修改:新增功能平替小地圖

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

推廣中獎名單-更新至2025年6月5日推廣

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大埔区| 常德市| 安平县| 龙州县| 丰台区| 涟水县| 桦南县| 沈阳市| 潢川县| 甘德县| 汉沽区| 义马市| 曲周县| 冕宁县| 开封市| 双峰县| 深圳市| 西宁市| 四会市| 崇信县| 柞水县| 泗阳县| 阳东县| 民丰县| 湟中县| 巴彦淖尔市| 沧州市| 丘北县| 中阳县| 广南县| 宣威市| 盐山县| 吉安市| 刚察县| 湖口县| 东源县| 黎城县| 东丰县| 易门县| 南漳县| 永胜县|