Microsoft 的研究人員稱他們已經開發(fā)出了迄今為止最大的 1-bit AI 模型,也被稱為 “bitnet”。該模型名為 BitNet b1.58 2B4T,在 MIT 許可證下公開發(fā)布,并且可以在包括 Apple M2 在內的 CPU 上運行。
Bitnets 本質上是為輕量級硬件設計的壓縮模型。在標準模型中,定義模型內部結構的數(shù)值即權重,通常經過量化處理,以便模型在各種設備上均能良好運行。對權重進行量化減少了表示這些權重所需的比特數(shù) —— 比特是計算機能處理的最小單位 —— 這使得模型可以在內存較少、運行速度更快的芯片上運行。
Bitnets 將權重量化為僅三個值:-1、0 和 1。理論上,這使它們在內存和計算效率上遠超當今大多數(shù)模型。
Microsoft 的研究人員表示,BitNet b1.58 2B4T 是首個擁有 20 億參數(shù)的 bitnet(“參數(shù)”在這里基本上與“權重”同義)。據(jù)稱,該模型在一個包含 4 萬億 Token 的數(shù)據(jù)集上訓練 —— 一項估計相當于約 3300 萬本書 —— 使其在性能上優(yōu)于同類規(guī)模的傳統(tǒng)模型。
需要明確的是,BitNet b1.58 2B4T 并未徹底超越所有競品的 20 億參數(shù)模型,但它似乎能夠與之抗衡。根據(jù)研究人員的測試結果,該模型在 GSM8K(一組小學水平的數(shù)學問題)和 PIQA(測試物理常識推理能力)等基準測試中,表現(xiàn)均超過了 Meta 的 Llama 3.2 1B、Google 的 Gemma 3 1B 和 Alibaba 的 Qwen 2.5 1.5B。
更為引人注目的是,BitNet b1.58 2B4T 的運行速度比同等規(guī)模的其他模型更快 —— 在某些情況下,其速度是對方的兩倍,而所需內存卻只有極小的一部分。
然而,這也有一個前提條件。
實現(xiàn)這種性能需要使用 Microsoft 自研的框架 bitnet.cpp,而該框架目前僅支持某些特定硬件。支持芯片列表中并未包括統(tǒng)治 AI 基礎設施格局的 GPU。
總的來說,bitnets 可能存在希望,尤其適用于資源受限的設備。但兼容性問題 —— 并且很可能將繼續(xù)成為一個主要障礙。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.