99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

微軟發布全球首個1-bit大模型:內存縮至0.4 GB,參數只有0和±1,性能追平全精度

0
分享至


大數據文摘出品

微軟的BitNet b1.58 2B4T 的技術報告悄然上線。

其實在開源社區里,關于極致低比特量化的大模型早就有各種傳聞,這次微軟研究院終于亮出底牌。

——全球首個原生1-bit、規模高達20億參數的開源大模型。


圖注:這張圖表明,在同等內存占用下,BitNet b1.58 2B模型取得了更高的性能分數,比當前主流開源模型更高效

別看名字有點拗口,b1.58 2B4T,背后可不簡單,這玩意不僅在性能上追平甚至部分超越同級別全精度模型,更是把內存、能耗和推理速度都拉低到令人發指的地步。

而且,模型權重直接上 Hugging Face,推理代碼 GPU、CPU 雙版本全開源,門檻之低,真是讓人有點小震撼。

01 BitNet b1.58 2B4T 到底是什么?

一句話總結:
這是世界首個原生1-bit、20億參數、性能媲美全精度的開源大模型。

大家都知道,大模型開源越來越卷,LLaMA、Qwen、Gemma、MiniCPM 各種百花齊放。但有個痛點始終沒解決——太吃資源。


于是,極致量化被推上風口——1-bit(極端比特化,只允許權重取-1、0、+1)。

說起來簡單,真要規模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得讓人心疼。

BitNet b1.58 2B4T 這次直接原生1-bit訓練,參數上到2B,訓練數據高達4萬億token,目標就是:

做到極致高效的同時,性能絕不妥協。


圖注:在蘋果M2 CPU上都能快速運行

02 架構和訓練怎么煉成的?

核心創新點有三:

1.BitLinear 層

用自研 BitLinear 替換掉傳統 Transformer 的全精度線性層。權重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。這樣不僅模型文件暴減,推理也能用比特操作加速。

2.訓練方案極致調優

  • 預訓練用兩階段學習率+權重衰減,先大步快走,再精細收斂。

  • 數據集涵蓋超大規模網頁、代碼、數學合成數據,兩階段分別喂不同質量的數據。

  • SFT(監督微調)和 DPO(直接偏好優化)全都用上,還專門調大了學習率和輪數,讓1-bit模型也能吃透任務。

3.推理實現

為了讓1.58-bit和8-bit混合矩陣乘法在GPU/CPU上都能跑起來,團隊還專門造了 CUDA kernel 和 C++ 庫,模型權重直接高效打包,能在普通筆電、服務器、邊緣設備都無壓力上線。


03 性能表現:效率+能力雙豐收

  • 內存占用:0.4GB(非embedding部分),是同級全精度模型的1/4甚至更低。

  • 推理延遲:29ms/Token(CPU上),比LLaMA 1B等快出一大截。

  • 能耗:僅0.028J/Token,低到離譜。

  • 綜合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同級模型。

  • 單項指標:在 ARC-Challenge、GSM8K、CommonsenseQA 等關鍵任務上還反超大部分對手。


圖注:如圖所示,BitNet b1.58 2B 在內存、延遲、能耗三項指標上全面領先

更狠的是,和常見的 INT4 量化模型比,BitNet b1.58 2B4T 在內存進一步壓縮的情況下,性能反而更穩,幾乎沒有明顯損失。

而且,不只是干掉傳統PTQ量化,放到同類1-bit模型里,BitNet b1.58 2B4T 也是一騎絕塵,甚至比部分更大參數、后量化的模型還強。

04 one more thing

BitNet b1.58 2B4T 已經是1-bit模型的天花板,但團隊還留了不少懸念:

  • 如何實現更大規模擴展(7B、13B)?

  • 怎樣支持更長上下文,挑戰大段落、復雜推理任務?

  • 多語言、多模態集成,讓1-bit模型也能“看圖說話”

  • 軟硬件協同,期待新一代AI芯片為低比特模型量身定做

  • 理論層面,1-bit訓練為啥能這么有效?還有哪些魔法值得挖掘?

附:模型和推理工具全開源

技術報告:https://arxiv.org/abs/2504.12285

GPU/CPU推理庫:https://aka.ms/bitnet

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
壽命與體重的關系被發現!60歲后,體重越接近“這個數”,越長壽

壽命與體重的關系被發現!60歲后,體重越接近“這個數”,越長壽

健康八條
2025-04-28 22:17:42
小米官方限速來了!1548匹馬力被“上鎖”,車主質疑“付費性能遭閹割”

小米官方限速來了!1548匹馬力被“上鎖”,車主質疑“付費性能遭閹割”

瀟湘晨報
2025-05-02 07:46:09
5月2日俄烏:美國不再充當調解人,烏無人機大規模襲擊克里米亞

5月2日俄烏:美國不再充當調解人,烏無人機大規模襲擊克里米亞

山河路口
2025-05-02 18:13:01
大公報再次聲討李嘉誠,口吻已經發生極大變化

大公報再次聲討李嘉誠,口吻已經發生極大變化

V記錄號
2025-05-02 22:35:13
國家衛健委介入中日友好醫院醫生輿情!協和4+4項目受爭議

國家衛健委介入中日友好醫院醫生輿情!協和4+4項目受爭議

南方都市報
2025-05-01 09:35:05
中美貿易戰現轉機信號!5月3日,凌晨的三大重要消息正式傳來!

中美貿易戰現轉機信號!5月3日,凌晨的三大重要消息正式傳來!

風口招財豬
2025-05-03 01:26:52
“提供關鍵零部件支持”,美媒:美軍證實從“飛機墳場”調撥退役F-16支援烏克蘭

“提供關鍵零部件支持”,美媒:美軍證實從“飛機墳場”調撥退役F-16支援烏克蘭

環球網資訊
2025-05-02 11:51:21
烏軍開始刷積分打仗了,擊斃1名俄軍得6分,摧毀1輛坦克得40分!

烏軍開始刷積分打仗了,擊斃1名俄軍得6分,摧毀1輛坦克得40分!

凱撒談兵
2025-05-02 07:59:33
中國宣告,新冠是美惡意制造并且傳播,必須給全球一個交代

中國宣告,新冠是美惡意制造并且傳播,必須給全球一個交代

低調看天下
2025-05-02 19:45:23
深夜!人民幣狂拉,中國資產大爆發!

深夜!人民幣狂拉,中國資產大爆發!

證券時報
2025-05-02 22:54:04
趙心童創造世界紀錄,超越希金斯,對奧沙利文連贏9局歷史第一人

趙心童創造世界紀錄,超越希金斯,對奧沙利文連贏9局歷史第一人

楊華評論
2025-05-02 21:39:30
如果趙心童奪冠,下賽季重獲職業身份的他將直接進入世界前16

如果趙心童奪冠,下賽季重獲職業身份的他將直接進入世界前16

懂球帝
2025-05-03 04:40:09
熱搜第一!“每份菜3元至18元”,7000名游客擠爆政府食堂!“米飯蒸了1000多斤,每次飯一端上來就秒空,飯碗都不夠用了”

熱搜第一!“每份菜3元至18元”,7000名游客擠爆政府食堂!“米飯蒸了1000多斤,每次飯一端上來就秒空,飯碗都不夠用了”

每日經濟新聞
2025-05-02 16:00:08
盧克文:500萬白砸了!最郁悶的應該是在巴納德沒有畢業的學生

盧克文:500萬白砸了!最郁悶的應該是在巴納德沒有畢業的學生

小人物看盡人間百態
2025-05-02 14:29:39
特訊!特朗普簽署總統令,豁免25%關稅,5月3日正式生效

特訊!特朗普簽署總統令,豁免25%關稅,5月3日正式生效

智觀科技
2025-05-02 09:54:10
18場0球!英超第3人又啞火,1.3億巨星急速隕落,身價嚴重虛高

18場0球!英超第3人又啞火,1.3億巨星急速隕落,身價嚴重虛高

足球狗說
2025-05-02 14:59:39
深度:普通民眾既看不到大事的真相,也不能影響上層的決策

深度:普通民眾既看不到大事的真相,也不能影響上層的決策

子墨君
2025-05-02 23:08:06
農戶27年前承包的“荒沙地”變“天然牧草地”,因未退耕獲刑6個月,當地回應

農戶27年前承包的“荒沙地”變“天然牧草地”,因未退耕獲刑6個月,當地回應

中國能源網
2025-05-02 09:11:04
當“腫脹臉”混進央視劇,盛世美顏被打回原形,張魯一再強也沒用

當“腫脹臉”混進央視劇,盛世美顏被打回原形,張魯一再強也沒用

追風小狗
2025-04-30 22:10:42
特朗普重申:美聯儲應該降低利率

特朗普重申:美聯儲應該降低利率

財聯社
2025-05-02 20:50:07
2025-05-03 05:11:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

體育要聞

北京3-0橫掃山西晉級總決賽戰廣廈 杰曼43分周琦19+11

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

游戲
家居
親子
藝術
公開課

海外網友熱議BLG擊敗WBG:再見wei,北川更適合!支持BLG解雇茂凱

家居要聞

意式輕奢 低飽和質感美學

親子要聞

陪伴孩子一起面對痛苦,生發其應當承擔的責任

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临西县| 漳浦县| 雷山县| 龙江县| 宁德市| 东阿县| 搜索| 新安县| 荆门市| 神农架林区| 息烽县| 梧州市| 麻城市| 丰城市| 进贤县| 宁武县| 五家渠市| 定西市| 镇雄县| 江陵县| 惠安县| 山东| 黄陵县| 遂溪县| 扬州市| 奈曼旗| 航空| 荆门市| 顺平县| 元阳县| 深圳市| 伊金霍洛旗| 资源县| 斗六市| 双桥区| 广昌县| 山东| 望谟县| 东宁县| 沐川县| 集贤县|