99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Transformer+Mamba黃金組合!長文推理性能飆升3倍,性能還更強

0
分享至

來自:新智元

【導讀】Nemotron-H模型混合了Transformer和Mamba架構,使長文本推理速度提升3倍,同時還能保持高性能,開源版本包括8B和56B尺寸。訓練過程采用FP8訓練和壓縮技術,進一步提高了20%推理速度

過去幾年,Transformer雖穩坐AI架構「鐵王座」,但其二次方復雜度帶來的算力消耗和長序列處理瓶頸,限制了大模型在推理階段處理長文本。

Mamba憑借「線性復雜度」異軍突起,非常適合長序列任務,有望成為Transformer架構的替代品,但在處理全局關系上偏弱。

Mamba+Transformer混合架構可以將二者的優勢互補,實現「效率」和「性能」的雙豐收。

最近英偉達發布了Nemotron-H系列模型,模型尺寸為8B和56B(蒸餾版本47B),用Mamba-2層替換了Transformer中的自注意力層,關鍵創新在于對Transformer和Mamba的平衡,實現了高效處理長上下文的同時,還不犧牲模型性能,顯著提高了推理速度,并且內存占用更少。

論文鏈接:https://arxiv.org/pdf/2504.03624

實驗結果表明,Nemotron-H模型在準確度上優于同尺寸的開源Transformer模型(例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B),同時在推理速度上提速3倍。

為了進一步提高推理速度并降低推理時所需的內存量,研究人員使用一種剪枝和蒸餾壓縮技術MiniPuzzle,將56B尺寸的模型蒸餾為NemotronH-47B-Base,在基準的準確率上與56B模型相當,同時推理速度提升20%

論文中還提出了一種基于FP8的訓練方案,使56B模型實現了與BF16訓練相當的性能。

Nemotron-H架構

Nemotron-H模型由Mamba-2、自注意力層和前饋神經網絡(FFN)層組成,其中總層數的8%為自注意力層,均勻分布在模型中。

即,Nemotron-H-8B模型包含52層,其中4層為注意力層;Nemotron-H-56B模型包含118層,其中10層為注意力層,其余層平均分配為FFN層和Mamba-2層。

為了與標準Transformer模塊的結構一致,研究人員提出三條設計準則:模型的第一層必須是Mamba-2層,最后一層必須是FFN層,并且自注意力層總是位于FFN層之前。

模型的具體參數

需要注意的是,8B和56B模型在FFN隱藏維度、注意力查詢頭和狀態維度設置上存在差異;

  • 對于Mamba-2層,保持默認的頭維度(64)、擴展因子(2)和卷機窗口(4);

  • 使用RMSNorm進行歸一化;

  • 不適用位置嵌入;

  • 模型的嵌入層和輸出層使用了獨立的權重,沒有使用線性層的偏置權重,也沒有使用dropout;

  • 在每個Mamba-2層、自注意力層和FFN層周圍都加入了殘差跳躍連接。

訓練過程

數據準備

訓練數據從來源上大體上可以分為多語言、網絡爬取、學術、代碼、維基百科和數學數據,這種數據組合可以全面覆蓋通用知識,同時在編程和數學等領域培養強大的專業能力。

其中多語言數據涵蓋了九種語言:德語、西班牙語、法語、意大利語、葡萄牙語、中文、日語、韓語和俄語。

研究人員設計數據組合時,確保所有相同質量的數據源權重相似,而高質量的數據源權重會高于低質量的數據源。

在訓練56B尺寸的模型時,使用了大約20萬億個token的數據,其中,網頁爬取數據占比最大,達到了59%,其次是代碼數據,占20%,學術內容占8.8%

在預訓練Nemotron-H基礎模型時,研究人員采用了分階段的數據混合方法:

第一階段,使用一種促進數據多樣性的數據組合;在第二和第三階段,主要使用高質量的數據集(例如維基百科),其中第二階段為訓練進度達到60%時,第三階段為訓練進度達到80%時;第四階段則使用最后3800億個訓練token

在后訓練階段,研究人員調整了數據的分布,更加注重有監督的微調(SFT)樣本。

FP8訓練策略

Nemotron-H訓練的一個創新在于使用8位浮點數(FP8),在降低內存需求和計算成本的同時,還能保持模型的質量,主要包括以下關鍵點:

采用逐張量(per-tensor)的當前縮放技術,以提高訓練的穩定性。

將模型中最初的四個和最后四個矩陣乘法(GEMM)操作保持在BF16精度,以確保關鍵部分的高精度處理;

在訓練過程中,FP8訓練逐漸與BF16訓練收斂,最終達到類似的性能水平。

實驗結果表明,FP8訓練在多種基準測試中能夠達到或超過BF16訓練的性能,不僅提高了訓練效率,還通過在MMLU、常識理解、代碼生成和GSM8K等基準測試中的表現,證明了其在保持或提升模型質量方面的有效性

模型壓縮

為了進一步提高模型部署的效率,研究人員開發了一種新型壓縮框架MiniPuzzle的,結合了剪枝、神經架構搜索和知識蒸餾技術。

MiniPuzzle壓縮框架的工作流程如下圖所示,展示了從預訓練模型到壓縮模型的轉變過程,包括重要性評估、神經架構搜索和蒸餾等步驟。

MiniPuzzle方法包含五個階段:

1. 重要度估計:分析每一層對模型性能的貢獻。



def importance_estimation(model, dataset):
# Compute per-layer importance scores
    scores = []for layer in model.layers:
# Zero out layer outputs and measure impact on loss
        scores.append(measure_impact_on_loss(model, layer, dataset))return scores



2. 層重要度分析:研究人員需要分析出哪些層對模型性能的貢獻最大。

3. 條件神經架構搜索:探索不同壓縮架構方案,在每個候選壓縮模型中保留不同的層。

4. 內存與性能權衡:根據內存使用量和準確度對模型進行評估,對候選架構的內存負載與基準性能進行權衡。

5. 知識蒸餾:通過訓練,使壓縮后的模型能夠匹配甚至超越原始模型的能力。

通過這一過程,Nemotron-H-56B模型成功被壓縮為Nemotron-H-47B模型,參數減少了16%,同時保持了相當的準確度,并將推理吞吐量提高了20%。

實驗結果

Nemotron-H模型在性能和效率方面相較于其他基于Transformer的模型取得了顯著進步。

推理吞吐量

混合架構使得推理速度大幅提升,尤其是在處理長序列時:

  • Nemotron-H-56B的推理吞吐量比Qwen-2.5-72B和Llama-3.1-70B高出多達3倍。

  • Nemotron-H-8B在類似準確度水平下,比Qwen-2.5-7B的吞吐量高出1.8倍。

效率提升在處理長序列(例如65,536個token)時尤為明顯,突顯了Mamba層在輸出token時計算復雜度固定的優勢。

多基準測試中的準確度

盡管架構發生了變化,但Nemotron-H模型在廣泛的基準測試中仍保持了強勁的性能表現。

在評估的17項任務中,Nemotron-H-56B在16項任務中的表現優于Llama-3.1-70B,在數學推理任務上表現尤為出色。

應用與多功能性

Nemotron-H模型可以進行擴展,以適應各種應用場景。

  • 視覺-語言能力:基礎模型通過NVLM-D架構擴展,創建了視覺-語言模型(VLM),在VQAv2、GQA和VizWiz等基準測試中表現出色,顯示出混合架構對多模態任務的適應性。

  • 代碼生成:模型在與代碼相關的任務上表現尤為出色。訓練數據中包含大量代碼數據(占比20%),使得模型能夠理解和生成多種編程語言的高質量代碼。

  • 長文本處理:混合架構的一個顯著優勢是能夠高效處理長文本。Nemotron-H-8B模型經過專門的長文本處理能力微調,在RULER基準測試和其他長文本評估任務中表現出色。

  • 針對不同能力的數據分布:研究人員針對不同的訓練階段精心調整了數據分布,以培養特定的能力,通過調整不同數據類型(網頁爬取、代碼、數學、學術等)的比例,可以在不需要架構變更的情況下增強模型的特定能力。比如針對STEM能力優化時,訓練數據增加了數學和代碼內容的比重。

Mamba架構簡介

原版Mamba架構

Mamba是一種新型的序列建模架構,通過選擇性狀態空間模型(Selective State Space Model, SSM)和硬件優化算法,將計算復雜度降低到線性級別O(L),能夠高效處理長達百萬級的序列長度,推理速度比Transformer快5倍,在短序列任務中也實現了超越Transformer的性能。

選擇性SSM的思路是,通過讓模型參數依賴于輸入內容,實現對信息的選擇性傳播和遺忘,過濾無關信息,從而提高對密集模態(如語言和基因組)的建模能力。

Mamba中的硬件感知并行算法,可以避免顯式存儲擴展狀態,利用GPU的內存層次結構優化計算過程,實現線性時間復雜度,并顯著提升推理速度。

論文鏈接:https://arxiv.org/pdf/2312.00752

Mamba-2架構

Mamba-2結合了狀態空間模型(SSMs)和注意力機制,基于State Space Duality (SSD) 框架,通過結構化矩陣的分解和優化算法,實現了線性擴展的訓練效率。

與Mamba相比,Mamba-2對核心層進行了優化,簡化了狀態轉移矩陣的結構,并引入了更大的頭維度,從而顯著提高了訓練效率,速度提高了2-8倍;還引入了多頭結構和張量并行等技術,進一步增強了模型的表達能力和并行計算效率,在大規模訓練和推理中更加高效。

在實驗中,Mamba-2在語言建模和多查詢關聯回憶任務上均優于Mamba和基于注意力的模型。

論文鏈接:https://arxiv.org/abs/2405.21060

參考資料:

https://arxiv.org/pdf/2504.03624

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
記者:尼科沒告知巴薩續約的決定,這是不尊重且沒教養的行為

記者:尼科沒告知巴薩續約的決定,這是不尊重且沒教養的行為

懂球帝
2025-07-04 19:12:41
勇士兩個簽約動作,可打造死亡五小陣容,為庫里贏得第五冠

勇士兩個簽約動作,可打造死亡五小陣容,為庫里贏得第五冠

阿雄侃籃球
2025-07-04 23:55:57
官宣!武漢最牛商業街,啟動爆改!

官宣!武漢最牛商業街,啟動爆改!

匹夫來搞笑
2025-07-04 16:48:32
經紀人門德斯陪同若塔家屬處理遺體運回,接受采訪時激動流淚

經紀人門德斯陪同若塔家屬處理遺體運回,接受采訪時激動流淚

懂球帝
2025-07-04 11:54:09
瓦良格號給中國的震撼有多大?中國專家驚嘆:蘇聯用的鋼材太好了

瓦良格號給中國的震撼有多大?中國專家驚嘆:蘇聯用的鋼材太好了

鐵錘簡科
2025-07-03 17:07:12
40℃熱浪奪命,“不靠空調過夏”的歐洲人扛不住了,有中國產品被搶空

40℃熱浪奪命,“不靠空調過夏”的歐洲人扛不住了,有中國產品被搶空

每日經濟新聞
2025-07-04 19:30:12
英皇破產倒計時,容祖兒“白菜價”被收購,謝霆鋒也保不住了?

英皇破產倒計時,容祖兒“白菜價”被收購,謝霆鋒也保不住了?

情感大頭說說
2025-07-04 12:28:16
不甘心,3-1變成1-1!U16國足罕見與日本隊勢均力敵,憾平失3分

不甘心,3-1變成1-1!U16國足罕見與日本隊勢均力敵,憾平失3分

大秦壁虎白話體育
2025-07-04 21:48:24
《以法之名》結局:六位保護傘,4大惡人,原來這才是洪亮的結局

《以法之名》結局:六位保護傘,4大惡人,原來這才是洪亮的結局

喜歡歷史的阿繁
2025-07-04 16:41:02
泰國三天兩換總理,準備迎回佩通坦?

泰國三天兩換總理,準備迎回佩通坦?

新民周刊
2025-07-04 09:08:09
深圳衛健委官方號的小編應該開除掉!

深圳衛健委官方號的小編應該開除掉!

總在茶余后
2025-07-04 05:35:24
白玉蘭一場合照,世態炎涼、傲慢無禮,在曹可凡身上體現淋漓盡致

白玉蘭一場合照,世態炎涼、傲慢無禮,在曹可凡身上體現淋漓盡致

溫讀史
2025-07-02 13:38:06
2025上海高考狀元

2025上海高考狀元

戶外阿毽
2025-07-04 14:25:44
軍統最危險的雙面間諜:白天是戴笠的心腹,晚上是絕密情報傳遞者

軍統最危險的雙面間諜:白天是戴笠的心腹,晚上是絕密情報傳遞者

第四思維
2025-07-02 17:46:22
看完129斤白云小姐入圍國際光環小姐,大家不用糾結胖不胖了

看完129斤白云小姐入圍國際光環小姐,大家不用糾結胖不胖了

觀察鑒娛
2025-07-04 08:54:00
蘭德公司預測俄烏戰爭后果,并給特朗普政府提出建議,內容炸裂

蘭德公司預測俄烏戰爭后果,并給特朗普政府提出建議,內容炸裂

包明說
2025-07-04 17:02:01
網約車過剩有多嚴重?5月份最新數據來了,有城市閑置近10萬輛!

網約車過剩有多嚴重?5月份最新數據來了,有城市閑置近10萬輛!

網約車焦點
2025-07-03 10:16:58
家有3生肖,7 月開始,腳踩狗屎運,身邊貴人如云

家有3生肖,7 月開始,腳踩狗屎運,身邊貴人如云

人閒情事
2025-07-04 22:10:09
十大元帥與毛主席的關系親疏,分為三檔,誰在前,誰在后?

十大元帥與毛主席的關系親疏,分為三檔,誰在前,誰在后?

諾言卿史錄
2025-07-04 09:15:10
兩場戰爭曝光東大恐怖實力,美國匆忙下令:全場禁聲!

兩場戰爭曝光東大恐怖實力,美國匆忙下令:全場禁聲!

聽風聽你
2025-07-02 19:30:10
2025-07-05 00:32:49
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
276文章數 130關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

頭條要聞

美媒:特朗普的"大而美"法案讓14億中國人在笑話我們

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

藝術
本地
手機
旅游
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

手機要聞

澎湃OS 2發力:安卓16 Beta版已推送,你收到了嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大冶市| 余姚市| 库伦旗| 荆门市| 扎赉特旗| 德令哈市| 乐至县| 彭山县| 易门县| 肥乡县| 白山市| 宁陵县| 泸溪县| 南城县| 启东市| 塔河县| 珲春市| 木兰县| 鞍山市| 临西县| 永胜县| 贵州省| 开封县| 海阳市| 阜南县| 新巴尔虎左旗| 望都县| 中西区| 合川市| 霞浦县| 万荣县| 聂拉木县| 靖西县| 海南省| 新绛县| 礼泉县| 安吉县| 新宾| 云南省| 当阳市| 兴城市|