99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="n2s8h"><rt id="n2s8h"></rt></sub><pre id="n2s8h"></pre>

<sub id="n2s8h"><rt id="n2s8h"></rt></sub>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

微軟再放LLM量化大招！原生4bit量化，成本暴減，性能幾乎0損失

2025-06-01 12:30:01　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導讀】原生1bit大模型BitNet b1.58 2B4T再升級！微軟公布BitNet v2，性能幾乎0損失，而占用內存和計算成本顯著降低。

還沒過幾天，原班人馬帶著第二代BitNet v2來了！

這次性能幾乎0損失，但占用內存和計算成本顯著降低！

論文鏈接：https://arxiv.org/abs/2504.18415

先前的開創性研究，如BitNet b1.58，已經證明：

即使將權重量化到1.58位，也能在極大降低推理成本（延遲、內存占用、吞吐量、能耗）的同時，保持與全精度模型相當的性能。

然而，激活值異常點讓1比特大語言模型部署變得復雜。

BitNet v2框架，首次實現對1比特LLMs的原生4比特激活值量化。

針對注意力機制和前饋網絡中激活值的異常分布問題，在激活值量化前，H-BitLinear模塊施加在線Hadamard變換（Hadamard transformation）。

圖1上半部分：BitNet v2整體架構以及H-BitLinear模塊的概覽

這種變換能將尖銳的激活值分布轉化為更接近高斯形態的平滑分布，從而適配低比特表示。

原生4比特計算

得益于下一代GPU（如GB200）等硬件的進步，深度學習領域正迅速采用量化和低比特推理技術。

新硬件原生支持4比特計算，為大規模模型帶來顯著的效率提升。

計算機中32、16、8比特浮點數不同的表示方法

然而，盡管BitNet b1.58將權重量化為1.58比特，緩解了內存帶寬瓶頸，但它的激活值仍保持8比特精度。

模型無法充分利用新硬件的4比特計算能力。

實現更低比特寬度的激活值對于最大化硬件利用率至關重要，尤其是在批處理推理場景中，高效的內核設計尤為重要。

關鍵問題在于LLM內部激活值的不均勻分布。

雖然注意力機制和前饋網絡（FFN）層的輸入通常呈現類高斯分布，適合量化，但中間狀態（最終投影前的輸出）往往包含顯著的離群值，阻礙了激進的低比特量化。

圖1下半部分：注意力層中輸出投影Wo和前饋網絡中下投影Wdown的激活分布情況

對輸入采用4比特量化和對中間狀態使用8比特稀疏化，可以解決這一問題。

盡管性能損失較小，但稀疏化并不適合批處理推理場景的最大吞吐量需求，因為硬件更傾向于密集計算以提升效率。

為彌合這一差距并充分發揮1.58比特LLM在4比特計算中的潛力，研究團隊提出了BitNet v2框架，實現了模型全流程的原生4比特激活值，框架核心創新是H-BitLinear。

BitNet v2：原生4位激活

BitNet v2模型基于類似LLaMA的組件構建，包括RMS歸一化、SwishGLU激活函數，并完全移除了偏置項（bias）。

BitNet v2的整體架構

與先前的BitNet相比，BitNet v2在注意力模塊的輸出投影Wo和前饋網絡（FFN）的下投影Wdown中，引入了H-BitLinear模塊，以專門處理中間狀態中出現的異常通道（outlier channels）。

BitNet v2的訓練流程分為兩階段：

首先，從零開始使用1.58位權重和8位激活（INT8）進行預訓練；

隨后，在保持權重量化不變的基礎上,將所有線性層（除輸入/輸出embedding外）進一步微調為4位激活（INT4）。

H-BitLinear模塊

BitNet v2采用逐張量平均絕對值量化（per-tensor absmean）策略對權重進行三值量化（也就是{-1, 0, 1}）：

關于低比特激活的問題，已有研究指出：

注意力層和前饋網絡中前置線性變換的輸入激活，通常呈現高斯分布，較適合量化；
而注意力輸出（Wo）和FFN下投影（Wdown）的中間狀態激活，則往往包含大量離群通道（outlier channels），且大部分值集中于0附近，嚴重影響低位量化精度。

H-BitLinear可以取代注意力機制輸出投影和FFN下投影的標準線性層。

H-BitLinear在激活量化前應用在線哈達瑪變換），把中間狀態中尖銳、易產生離群值的分布重塑為更易處理的類高斯分布，顯著減少1.58比特模型中離群值的影響。

Hadamard變換定義如下：

其中的矩陣乘法采用快速Hadamard變換算法（Fast Hadamard Transform，FHT），其計算復雜度為O(nlogn)。

Hadamard矩陣是一類特殊的正交矩陣。

它的特點是每個元素只能是+1或-1，并且每行（或每列）之間的內積為0，表示彼此正交。

阿達馬矩陣的命名來自于法國數學家Jacques Solomon Hadamard。

法國數學家：Jacques Solomon Hadamard

如圖2和圖3所示，引入Hadamard變換后，中間狀態的分布更加接近高斯形態。

這顯著減少了離群值數量，使其更適合進行4位激活量化（INT4）。

圖2：在使用8位激活時，BitNet b1.58與BitNet v2的激活分布對比。

圖3：采用8比特激活值時，BitNet b1.58與BitNet v2在前饋網絡Wdown層和注意力機制Wo層的激活值分布對比。

對于8位激活（INT8）和4位激活（INT4）量化策略，分別采用下列策略：

綜上，H-BitLinear層的整體矩陣運算可表示為：

其中，LN(?)表示層歸一化（LayerNorm）。

研究團隊從頭開始使用8比特激活值訓練BitNet v2，與BitNet b1.58相比性能損失微乎其微。

隨后，通過少量數據高效微調，模型即可適配原生4比特激活值。

實驗結果

實驗表明，4比特BitNet v2變體在性能上與BitNet a4.8相當，但在批處理推理場景中提供更高的計算效率。

此外，與后訓練量化方法SpinQuant和QuaRot，則幾乎全面領先。

比BitNet b1.58更快

BitNet V2與BitNet b1.58比，性能幾乎0損失。

BitNet v2及其基線模型的詳細實驗結果，如表1所示。

在注意力機制和前饋網絡（FFN）層的量化前引入哈達瑪變換后，模型的困惑度（perplexity）下降極小。

對于8比特激活值，BitNet v2相較于BitNet b1.58表現出更高的性能，在1.3B、3B和7B模型規模上，終端任務的平均準確率分別提升了0.16%、0.49%和0.61%。

此外，BitNet v2支持所有線性層的原生4比特激活值，從而顯著提升了批處理推理的效率。

在使用INT4（4比特整數）激活值時，BitNet v2的困惑度與BitNet a4.8相當，同時在3B和7B模型的下游任務中展現出更優的性能。

表1：BitNet v2、BitNet a4.8與BitNet b1.58在終端任務上的困惑度及性能表現

表2和表3分別總結了BitNet v2（8比特激活，a8）和BitNet v2（4比特激活，a4）在低比特注意力機制下的詳細結果。

研究人員對QKV狀態采用了RoPE（旋轉位置編碼）后的量化方法。

QKV頭通過absmax函數直接量化為無符號整數，無需任何校準數據集。

如表2和表3所示，采用3比特KV緩存的BitNet v2在3B和7B模型上的準確率與使用全精度KV緩存的模型相當。

表2：BitNet v2在終端任務上的零樣本準確率，其中激活使用8位，而QKV狀態的位寬則有所不同。

表3：BitNet v2在終端任務上的零樣本準確率，其中激活使用4位，而QKV狀態的位寬則有所不同。

與其他后訓練量化方法的對比

BitNet v2 (a4)與主流的后訓練量化基線方法進行了對比，包括SpinQuant和QuaRot，在1.3B參數規模的模型上進行了評測。

QuaRot通過引入隨機Hadamard變換以緩解特征離群問題，SpinQuant則使用了可學習的旋轉矩陣（rotary matrix）。

隨后，這兩種方法分別采用GPTQ和absmax策略，將權重和激活量化到4位。

由于BitNet b1.58沿用訓練時使用的absmean函數進行權重量化，而非使用GPTQ。

在各項指標上，BitNet v2穩拿第一，具體結果見表4。

表4：BitNet v2、QuaRot和SpinQuant在各項下游任務上的困惑度（Perplexity）與零樣本準確率（Zero-shot Accuracy）對比

另外，在Hadamard變換對不同模型尺寸（1.3B和3B）影響的實驗（見表5）中，研究者發現：

沒有旋轉處理（No rotation）時，模型直接發散，無法正常訓練；

引入Hadamard旋轉（無論是權重+激活，還是僅激活），都能顯著穩定低位訓練，并提高最終準確率。

表5：不同規模下H-BitLinear的Hadamard變換的消融研究。

模型訓練、消融實驗等其他內容和細節，請參閱原文。

參考資料：

https://arxiv.org/abs/2504.18415

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0
DeepSeek用的GRPO占用大量內存？有人給出了些破解方法

機器之心Pro 2025-02-07 14:49:06
0 跟貼 0

微軟用AI改Bug翻車，全球程序員圍觀嘲笑

量子位 2025-05-31 12:36:26
0 跟貼 0

“印度電詐”就離譜！整整八年，AI全靠人、收入全靠刷，微軟納德拉被老鄉“殺豬盤”了

華爾街見聞官方 2025-05-31 17:45:35
79 跟貼 79
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

清華女老師、微軟高管，敦煌網創始人做電商

每日經濟新聞 2025-04-17 14:16:14
0 跟貼 0

前Xbox副總裁：微軟搞Xbox掌機完全沒意義

3DM游戲 2025-05-31 21:22:08
16 跟貼 16
蘋果微軟特斯拉，最大股東都是它！

華商韜略 2024-11-27 18:03:46
0 跟貼 0

小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
275 跟貼 275
小鵬絕地翻盤，頭號功臣是她！

華商韜略 2025-03-28 14:19:16
0 跟貼 0
臺媒美國發電欲趕超中國癡心妄想！美禁EDA！華為笑了！

觀云曉塵心 2025-06-02 11:26:46
1 跟貼 1
小米造芯的11年和玄戒O1

飯統戴老板 2025-05-31 19:55:52
0 跟貼 0
街霸2：捏哥火力全開用盡全力捏懵浪勝，第一本田果然名不虛！

凌風游戲達人 2025-06-02 21:14:48
1 跟貼 1
一周兩破18年數學紀錄！陶哲軒驚嘆：AlphaEvolve帶來久違「加速度」

新智元 2025-05-31 17:39:44
21 跟貼 21
比亞迪版圖大起底，實力超乎你的想象

華商韜略 2025-02-11 17:11:11
118 跟貼 118
上線Xbox？《異度之刃X》現身微軟游戲支持頁面！

游民星空 2025-05-31 16:08:36
1 跟貼 1
中方取消對波音禁令，美轉身翻臉，對華發布新禁令，中方還有底牌

瑩瑩觀點 2025-05-31 13:54:34
0 跟貼 0
科學家將R1技術遷移到多模態領域，只需10條數據就能提升模型性能

DeepTech深科技 2025-03-05 18:08:03
0 跟貼 0
京東全職也要穿上餓了么衣服了？聽聽京東外賣小哥是怎么說的

桃桃知識分享 2025-06-01 06:20:46
0 跟貼 0
AI竟會「自己認錯」？破解多智能體協作「羅生門」，斬獲ICML 2025 Spotlight

新智元 2025-06-02 16:48:08
0 跟貼 0
靜悄悄的餓了么，戰斗力到底有多強？

華商韜略 2025-04-30 14:18:35
0 跟貼 0
美停止向中國提供EDA，蔡正元：等于給華為EDA開拓出一片光

草莓不美啊 2025-06-02 17:47:59
0 跟貼 0
沃爾瑪悄悄漲價，部分商品加八成，謝寒冰：特朗普真的在胡搞

小武侃風云 2025-06-02 00:36:55
0 跟貼 0
蘋果套袋機放一年充不進電，部件之一鋰電源板損壞，修復攻略在此

手巧能干愛學習享生活 2025-05-31 11:17:30
0 跟貼 0
ICC懲戒騎一鍵宏7.0版，神圣風暴單獨使用 #魔獸世界# #網易大神# #我們比你們多一個世界#

我在右 2025-06-02 19:43:19
0 跟貼 0
從星巴克到中巴走廊：巴基斯坦的地緣政治抉擇

有你便是晴天呢 2025-06-02 03:23:38
0 跟貼 0
臺媒臺陸委會想管小紅書？要不然就改成小綠書吧！

錯過美好 2025-06-02 02:06:20
0 跟貼 0
美國會涉華會議火藥味十足！議員舉華為手機怒斥：我們輸了科技站

異環 2025-06-01 08:38:19
0 跟貼 0
持續約一小時后俄烏第二輪談判結束

財聯社 2025-06-02 21:00:51
12836 跟貼 12836
谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0
蔚來創始人李斌：除了技術，我們還會卷服務!

每日經濟新聞 2025-05-31 14:48:50
0 跟貼 0
沃爾瑪要求供應商承擔關稅！謝寒冰為您專業解讀 #中美博弈

金日中天 2025-06-01 17:30:14
0 跟貼 0
科大訊飛：AI孫悟空用日語回答日本老爺爺的提問

智東西 2025-04-18 23:31:04
0 跟貼 0
分手后的雙贏：從蔣欣到高斯的事業飛躍

小李娛樂丫 2025-06-01 14:41:03
1 跟貼 1
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
理想汽車李想：我們比傳統汽車廠商更懂大型軟件

每日經濟新聞 2025-03-29 12:03:06
44 跟貼 44
ICC滿破1400狂暴戰團本實測，爆發一刀20000+！ #ICC冰冠堡壘# #網易大神# #魔獸世

我在右 2025-05-30 13:05:26
0 跟貼 0
華為推出參數規模7180億全新模型；廣東穩居端午檔全國“第一票倉”丨大灣區財經早參

每日經濟新聞 2025-06-02 22:35:13
0 跟貼 0
黃金界愛馬仕，老鋪黃金憑啥爆火？

華商韜略 2025-05-07 16:05:00
0 跟貼 0
小紅書恐涉及統戰？綠黨擬立法封殺小紅書！禁止大陸APP在臺滲透

悅悅知識分享 2025-06-02 03:22:23
0 跟貼 0

第一個即將面臨消失的行業，不是幼師，更不是醫生，而是失業三寶

第一個即將面臨消失的行業，不是幼師，更不是醫生，而是失業三寶

界史

2025-04-22 11:13:08

貝佐斯對桑切斯真的是生理性喜歡，又一次在35億游輪上壓著她狂吻

貝佐斯對桑切斯真的是生理性喜歡，又一次在35億游輪上壓著她狂吻

毒舌小紅帽

2025-06-01 16:40:13

“高潮針”讓誰高潮

霹靂炮

2025-04-27 23:21:35

放假通知！連休5天！

魯中晨報

2025-06-02 13:19:03

廣東省能否效仿“蘇超”？博主：廣東不缺比賽，但缺良好的運營

廣東省能否效仿“蘇超”？博主：廣東不缺比賽，但缺良好的運營

直播吧

2025-06-02 20:05:24

德天空：維爾茨想要利物浦10號球衣埃利奧特不再是勒沃庫森目標

德天空：維爾茨想要利物浦10號球衣埃利奧特不再是勒沃庫森目標

直播吧

2025-06-03 01:25:14

震撼！一家長稱高中3年陪讀，每月5500元的房租，房租一共17萬多

震撼！一家長稱高中3年陪讀，每月5500元的房租，房租一共17萬多

火山詩話

2025-06-02 06:51:52

《碟中諜8》之后，一波王炸大片要來了

《碟中諜8》之后，一波王炸大片要來了

獨立魚

2025-06-02 23:17:13

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

內娛最大的笑話，一個連路都走不利索的歌手，78歲開演唱會撈錢？

書雁飛史oh

2025-05-08 21:22:23

最悲催的打工者馬斯克：為特朗普打工128天，個人財富蒸發四千億

最悲催的打工者馬斯克：為特朗普打工128天，個人財富蒸發四千億

正經說個事兒

2025-06-01 23:10:38

為什么強調要敬畏自然？看完分享，后背直冒冷汗，萬物都有靈性！

為什么強調要敬畏自然？看完分享，后背直冒冷汗，萬物都有靈性！

墻頭草

2025-06-01 09:35:53

大鵝的飛機，大鵝的飛機，被炸啦

大鵝的飛機，大鵝的飛機，被炸啦

歷史總在押韻

2025-06-03 02:31:51

鄭欽文對陣薩巴倫卡，CCTV5直播，勝者或創生涯新高排名

鄭欽文對陣薩巴倫卡，CCTV5直播，勝者或創生涯新高排名

7號觀察室

2025-06-03 01:21:47

山東滕州10歲男童家門口走失后續:警方通報，結果讓人無語

山東滕州10歲男童家門口走失后續:警方通報，結果讓人無語

小人物看盡人間百態

2025-06-02 22:20:36

薄一波的兩位親家，一位開國將軍，另一位官至副國級，分別是誰？

薄一波的兩位親家，一位開國將軍，另一位官至副國級，分別是誰？

獵火照狼山

2025-05-28 18:04:02

軒子巨2兔自曝脖子長疣有斑，已約醫院，網友：梅事吧

軒子巨2兔自曝脖子長疣有斑，已約醫院，網友：梅事吧

動物奇奇怪怪

2025-06-02 20:46:24

8年跑了95萬km，這輛大眾朗逸退役后，司機意識到事情有點不大對

8年跑了95萬km，這輛大眾朗逸退役后，司機意識到事情有點不大對

全金貓眼

2025-06-02 18:02:55

俄空軍被無人機打殘，一夜損失40架轟炸機？馬斯克稱打擊模式變了

俄空軍被無人機打殘，一夜損失40架轟炸機？馬斯克稱打擊模式變了

王五說說看

2025-06-02 15:05:18

李訥渾身腫的厲害，家里擺滿了父母親的照片，延安時期的居多

李訥渾身腫的厲害，家里擺滿了父母親的照片，延安時期的居多

大江

2025-05-28 08:50:31

“備胎轉正”震撼全球，華為芯片女王何庭波，撕開西方技術封鎖！

“備胎轉正”震撼全球，華為芯片女王何庭波，撕開西方技術封鎖！

宏哥談商道

2025-06-02 19:00:08

AI產業主平臺領航智能+時代

12807文章數 66058關注度

往期回顧全部

科技要聞

下周的WWDC，蘋果AI依舊不會有“驚喜”

頭條要聞

媒體:烏"奇襲"突破有核國家底線俄應作出最強烈反擊

頭條要聞

媒體:烏"奇襲"突破有核國家底線俄應作出最強烈反擊

體育要聞

傲了一輩子的恩里克，心中永遠住著一個小天使

娛樂要聞

大S女兒來北京！馬筱梅帶她喝下午茶

財經要聞

近期大火的"穩定幣、RWA"是什么？誰將受益？

汽車要聞

吉利汽車5月銷量23.52萬輛同比增長46%

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戲

時尚

家居

軍事航空

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

《荒野大鏢客》約翰演員首玩游戲：透露角色秘密

今年一定要擁有的10件“無齡感”單品，從20歲穿到70歲都很時髦！

家居要聞

原木純白邂逅自然本真

暖色復古溫馨小資情調
開闊實用技術控的大平層
個性重塑現代潮酷之家

軍事要聞

中國記者拿著美菲勾結證據對質菲律賓防長當場急了

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：五原县| 乌鲁木齐县| 普宁市| 淮阳县| 丰县| 昌黎县| 丹巴县| 得荣县| 康平县| 法库县| 长子县| 哈尔滨市| 固始县| 灵山县| 眉山市| 丰顺县| 乐安县| 岳西县| 鸡西市| 永清县| 太谷县| 清水县| 射洪县| 云和县| 温泉县| 资兴市| 大同市| 高台县| 弋阳县| 东丽区| 霍山县| 县级市| 房山区| 太仆寺旗| 阿瓦提县| 江津市| 万荣县| 保康县| 卢龙县| 昆山市| 郧西县|

<sub id="jxuj9"></sub>