99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

華為諾亞提出端側大模型新架構MoLE,內存搬運代價降低1000倍

0
分享至




Mixture-of-Experts(MoE)在推理時僅激活每個 token 所需的一小部分專家,憑借其稀疏激活的特點,已成為當前 LLM 中的主流架構。然而,MoE 雖然顯著降低了推理時的計算量,但整體參數(shù)規(guī)模依然大于同等性能的 Dense 模型,因此在顯存資源極為受限的端側部署場景中,仍然面臨較大挑戰(zhàn)。

現(xiàn)有的主流解決方案是專家卸載(Expert Offloading),即將專家模塊存儲在下層存儲設備(如 CPU 內存甚至磁盤)中,在推理時按需加載激活的專家到顯存進行計算。但這一方法存在兩大主要缺陷:

  1. 由于不同 token 通常激活的專家不同,每一步推理都需要頻繁加載不同的專家,導致顯著的推理延遲;
  2. 在批量解碼場景中,各 token 可能需要不同的專家,在最壞情況下,甚至需要將一整層的所有專家加載到顯存中,進一步加劇顯存壓力并帶來額外的推理延遲。

為了解決上述問題,來自北大和華為諾亞的研究人員提出了 Mixture-of-Lookup-Experts(MoLE),一種在推理階段可重參數(shù)化的新型 MoE 架構。



  • 論文鏈接:https://arxiv.org/pdf/2503.15798
  • 代碼鏈接:https://github.com/JieShibo/MoLE

思考

本文的核心思考是,在專家卸載方案中,需要將專家模塊加載到顯存,主要是為了在 GPU 上執(zhí)行高效的矩陣運算。換句話說,如果專家的計算過程能夠繞過矩陣運算的需求,就可以避免將專家權重加載到顯存,從而根本上規(guī)避頻繁加載帶來的開銷。直觀來看,專家模塊本質上是一個神經網絡,用于建模輸入到輸出的映射。如果能夠在推理前預先計算出所有可能的輸入 - 輸出對應關系,并將其存儲為查找表,那么在推理時即可用簡單的查找操作代替矩陣運算。

一般而言,神經網絡所建模的映射通常涉及無限多的輸入 - 輸出對,因此,要實現(xiàn)查找表替代矩陣運算,首先需要確保專家模塊的輸入來自一個離散且有限的集合,并且這一離散化方法能夠適配大規(guī)模預訓練任務。其次,由于查找操作發(fā)生在 GPU 之外,還需要保證檢索過程本身不依賴密集計算,避免引入新的性能瓶頸。

基于這一思考,作者注意到,大規(guī)模語言模型(LLM)中的 embedding token(即 embedding 層的輸出)天然具備離散且有限的特性,其數(shù)量與詞表大小一致,滿足了離散有限要求。并且 embedding token 可以通過 token ID 唯一確定,因此查找表的檢索可以采用高效的直接尋址。因此,MoLE 設計中將專家的輸入由中間特征改為 embedding token,從而滿足了查找表構建的所有要求。

訓練階段

在訓練階段,MoLE 相較于傳統(tǒng)的 MoE 架構存在三個主要區(qū)別:

  1. 輸入調整:將所有路由專家(routed experts)的輸入由上一層的輸出,改為淺層的 embedding token,以確保專家模塊可以被預計算并存儲為查找表。
  2. 激活策略:由于查找表檢索在推理時無需額外計算,MoLE 無需依賴稀疏激活來控制推理計算量,因此在訓練中選擇激活所有路由專家。
  3. 損失設計:鑒于不再需要通過稀疏激活實現(xiàn)負載均衡,MoLE 訓練時僅使用語言建模損失,不再引入額外的負載均衡損失項。

除此之外,MoLE 的其他設計與標準 MoE 保持一致,包括路由(router)模塊和共享專家(shared experts),依然使用上一層的輸出作為輸入。計算流程如下





推理階段

在推理前,MoLE 通過預先構建查找表來完成專家模塊的重參數(shù)化。具體而言,embedding 層的權重矩陣本身即包含了所有 embedding token 的向量表示,因此可以直接以該權重矩陣作為專家模塊的輸入,并通過各個路由專家分別計算對應的輸出。這樣,便可以高效地獲得完整的 token id 到專家輸出的映射集合,用于后續(xù)的查找操作。具體過程如下所示:





在查找表構建完成后,所有原始的路由專家模塊將被刪除,查找表則被存儲在下層存儲設備中。在推理階段,對于每個 token,根據(jù)其 token ID 直接在查找表中檢索對應的專家輸出,并將檢索到的輸出加載到顯存中,用于后續(xù)的推理計算。整體計算流程如下所示:



復雜度分析

如表所示,在推理階段,MoLE 的計算過程中僅保留了共享專家模塊,因此只有共享專家被激活并參與計算,其整體計算量與具有相同激活參數(shù)量的 Dense 模型和傳統(tǒng) MoE 模型相當。相比之下,MoLE 在推理時僅需傳輸專家輸出的結果向量,而傳統(tǒng) MoE 需要傳輸中間維度 D_r 的專家權重矩陣,因此 MoLE 的傳輸開銷相比 MoE 減少了數(shù)個量級。在存儲開銷方面,對于端側部署的模型,詞表大小 | V | 通常在數(shù)萬左右,與 D_r 為相同數(shù)量級,因此 MoLE 查找表的存儲需求與單個專家模塊的大小處于同一數(shù)量級,不會帶來顯著額外的存儲負擔。



實驗結果

本文在 Pile 數(shù)據(jù)集的 100B-token 子集上訓練了 160M、410M、1B 激活參數(shù)量的 Dense、MoE 和 MoLE 模型。對于 MoE 和 MoLE 模型,控制兩者的訓練階段參數(shù)量相等。由于實驗中以及近期 OLMoE 的結果都發(fā)現(xiàn)共享專家會降低 MoE 的性能,我們對 MoE 只采用了路由專家。MoLE 的專家大小與 Dense 的 FFN 保持一致,而 MoE 由于需要激活兩個專家,其專家大小為 dense FFN 的一半,但專家數(shù)量是 MoLE 的兩倍。



實驗結果表明 MoLE 在相同訓練參數(shù)量和推理激活參數(shù)量(即顯存使用量)下,具有與 MoE 相當?shù)男阅埽啾?Dense 有顯著提升。與專家卸載的 MoE 相比,MoLE 減少了千倍以上的傳輸開銷。



在 V100 上進行的評測結果表明,在顯存用量一定的前提下,MoLE 的推理延遲與 Dense 基本一致,顯著優(yōu)于專家卸載的 MoE。在批量解碼場景下,隨著 batch size 的增加,MoE 的推理延遲迅速上升,而 MoLE 與 Dense 模型的延遲則基本保持穩(wěn)定,進一步展現(xiàn)了 MoLE 在高吞吐量推理任務中的優(yōu)勢。





此外,消融實驗表明,MoLE 的訓練確實不需要輔助損失。

在專家數(shù)量提升時,模型性能也會提升



然而,如果僅增大專家的隱層維度,由于查找表的大小保持不變,當專家規(guī)模增大到一定程度時,推理性能將受限于查找表的固定大小,最終達到飽和。



作者通過將一個 MoE 模型逐步修改為 MoLE 模型,系統(tǒng)性地探索了 MoLE 各組成部分對性能的影響。實驗結果表明,使用淺層的 embedding token 作為專家輸入確實會削弱模型的表達能力,這是由于輸入中缺乏豐富的上下文信息所致。然而,激活所有專家有效彌補了這一損失,使得 MoLE 最終能夠達到與 MoE 相當?shù)男阅芩健?/p>



需要注意的是,路由專家的輸入不包含上下文信息,并不意味著專家無法影響模型對上下文的處理。實際上,專家可以通過改變其輸出,從而間接影響后續(xù)注意力層的輸入,實現(xiàn)對上下文的建模。此外,共享專家和路由仍然接收包含上下文信息的輸入,進一步保障了模型對上下文理解能力的保留。

最后,作者發(fā)現(xiàn)查找表中仍然存在較大程度的冗余。即使將查找表壓縮至 3-bit 精度(例如使用 NF3 格式),模型性能依然能夠基本保持不變。這表明查找表在存儲開銷上仍具有進一步壓縮和優(yōu)化的潛力。



總結

綜上,本文提出了 MoLE,一種面向端側部署優(yōu)化的新型 MoE 架構。通過將專家輸入改為淺層的 embedding token,并采用查找表替代傳統(tǒng)的矩陣運算,MoLE 有效解決了傳統(tǒng) MoE 在推理階段面臨的顯存開銷大、傳輸延遲高的問題。實驗結果表明,MoLE 在保持與 MoE 相當性能的同時,大幅降低了推理延遲,尤其在批量解碼場景中展現(xiàn)出顯著優(yōu)勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
查理.芒格:找結婚對象時,你不應該找容貌美麗或是個性好的

查理.芒格:找結婚對象時,你不應該找容貌美麗或是個性好的

清風拂心
2025-04-09 14:15:02
中美關稅談判出乎預料,中方發(fā)布聲明后,美方對華稱呼變了

中美關稅談判出乎預料,中方發(fā)布聲明后,美方對華稱呼變了

叮當當科技
2025-05-12 14:24:47
男子退租忘記帶走女朋友,男房東笑得合不攏嘴:二手也能賣1000元

男子退租忘記帶走女朋友,男房東笑得合不攏嘴:二手也能賣1000元

唐小糖說情感
2025-05-10 10:51:58
樂透抽簽消息匯總:火箭狀元簽3.8%前四17.3% 馬刺兩枚樂透簽

樂透抽簽消息匯總:火箭狀元簽3.8%前四17.3% 馬刺兩枚樂透簽

直播吧
2025-05-12 16:53:16
杭州25歲女教師被殘忍奸殺,整整慘叫了4個小時,禽獸在人間

杭州25歲女教師被殘忍奸殺,整整慘叫了4個小時,禽獸在人間

黑貓故事所
2025-05-04 09:15:06
33歲迪麗熱巴產后復出?近照臉發(fā)福似懷孕生產,遭寶媽圍觀引熱議

33歲迪麗熱巴產后復出?近照臉發(fā)福似懷孕生產,遭寶媽圍觀引熱議

八星人
2025-05-11 20:58:01
熱搜第一!男子打開飛機安全出口或賠十幾萬?回應來了

熱搜第一!男子打開飛機安全出口或賠十幾萬?回應來了

揚子晚報
2025-05-12 09:11:16
撒謊了?巴鐵公布殲10打敗陣風還原圖,現(xiàn)場有一款不該出現(xiàn)的軍機

撒謊了?巴鐵公布殲10打敗陣風還原圖,現(xiàn)場有一款不該出現(xiàn)的軍機

青輝
2025-05-07 21:45:06
十三屆全國政協(xié)經濟委員會副主任張效廉被逮捕

十三屆全國政協(xié)經濟委員會副主任張效廉被逮捕

環(huán)球網資訊
2025-05-12 12:38:10
特朗普對華服軟晚了一步,一架專機降落北京,來截胡美國訂單?

特朗普對華服軟晚了一步,一架專機降落北京,來截胡美國訂單?

悄悄史話
2025-05-12 15:31:06
歷史巨制《張居正》來襲!陳道明、胡歌主演,我敢說:開播就封神

歷史巨制《張居正》來襲!陳道明、胡歌主演,我敢說:開播就封神

草本紀年
2025-05-10 17:54:46
被哄搶,全運會下家3選1,袁心玥官宣決定,退役工作安置成關鍵

被哄搶,全運會下家3選1,袁心玥官宣決定,退役工作安置成關鍵

東球弟
2025-05-12 15:59:45
男生18cm有啥壞處?妹子現(xiàn)場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現(xiàn)場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
為阻擋雨果,王勵勤在封訓期間搬來救兵!唯一保持全勝的中國選手

為阻擋雨果,王勵勤在封訓期間搬來救兵!唯一保持全勝的中國選手

十點街球體育
2025-05-12 00:04:31
載入史冊,打出來的“聯(lián)合聲明”……

載入史冊,打出來的“聯(lián)合聲明”……

老趙復盤記
2025-05-12 16:11:46
立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力氣,精神飽滿!

立夏后,少吃雞肉和牛肉,多吃這3種肉,腿腳有力氣,精神飽滿!

秀廚娘
2025-05-10 17:51:06
打火箭的神氣勁去哪了,庫里傷缺都不把握機會,勇士非賣品就這?

打火箭的神氣勁去哪了,庫里傷缺都不把握機會,勇士非賣品就這?

懂個球
2025-05-12 17:06:01
【紫牛頭條】撿到一包證件,他用18年找到失主 當年聯(lián)系未果原來是主人在新疆支教

【紫牛頭條】撿到一包證件,他用18年找到失主 當年聯(lián)系未果原來是主人在新疆支教

揚子晚報
2025-05-11 18:08:55
皇社離隊轉會費榜:伊薩克7000萬歐居首,蘇比門迪有望成第二

皇社離隊轉會費榜:伊薩克7000萬歐居首,蘇比門迪有望成第二

懂球帝
2025-05-12 16:53:13
印度空軍中將宣稱擊落多架飛機,不確定有殲10c,評論區(qū)炸鍋了。

印度空軍中將宣稱擊落多架飛機,不確定有殲10c,評論區(qū)炸鍋了。

趣文說娛
2025-05-12 11:01:08
2025-05-12 17:40:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10473文章數(shù) 142308關注度
往期回顧 全部

科技要聞

“AGI實現(xiàn)路徑清晰了,世界模型不遠了”

頭條要聞

“美方取消了共計91%的加征關稅”

頭條要聞

“美方取消了共計91%的加征關稅”

體育要聞

最熱鬧的國家德比,除了防守什么都有

娛樂要聞

張杰爸媽現(xiàn)身演唱會,親和力滿滿

財經要聞

中美雙方降低超100%關稅

汽車要聞

大眾純電版GTI采用后置后驅 動力更加激進

態(tài)度原創(chuàng)

健康
時尚
教育
藝術
旅游

唇皰疹和口腔潰瘍是"同伙"嗎?

夏天一定要擁有這件單品,怎么搭都好看

教育要聞

溫州日報作文版作文選登:呂一正《我的書包》

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 明光市| 乳源| 南乐县| 澄江县| 颍上县| 东乌珠穆沁旗| 安化县| 东宁县| 安阳县| 芦山县| 合水县| 垦利县| 南京市| 连江县| 阜南县| 榆树市| 通榆县| 勃利县| 威宁| 嘉义县| 同心县| 澄城县| 景泰县| 中西区| 志丹县| 芦山县| 横峰县| 吴江市| 喀喇沁旗| 宝坻区| 江陵县| 博兴县| 平舆县| 苏尼特左旗| 秦安县| 斗六市| 郯城县| 贡山| 高青县| 忻州市| 青阳县|