在存儲驅動大語言模型底層神經網絡的數值權重時,大多數現代AI模型依賴于16位或32位浮點數的精度。但這種精度往往會導致巨大的內存占用(最大模型可能需要數百GB內存)以及在響應提示時所需處理復雜矩陣乘法所消耗的大量運算資源。
現今,Microsoft 的 General Artificial Intelligence 團隊的研究人員發布了一種全新的神經網絡模型,該模型只使用三個不同的權值:-1、0 或 1。在此前 Microsoft Research 于2023年發表的工作基礎上,新模型的“ternary”架構降低了整體復雜性,并帶來了顯著的計算效率優勢,使其能夠在簡單的桌面CPU上高效運行。盡管權重精度大幅降低,研究人員仍宣稱該模型“能夠在廣泛任務中實現與同等規模先進開放權重、全精度模型相媲美的性能”。
關注你的權重
簡化模型權重的概念在AI研究中并非全新。多年來,研究人員一直在嘗試利用量化技術將神經網絡權重壓縮至更小的內存空間。近年來,最極端的量化嘗試集中于所謂的 “BitNets”,這種方法將每個權重表示為一個Bit ( 表示 +1 或 -1 )。
新的 BitNet b1.58b 模型沒有達到那種極端——這種三元系統被稱為 “1.58-bit”,因為這是表示三個數值所需的平均位數 ( log(3)/log(2) )。但它通過成為“首個以原生方式、在大規模訓練下實現1-bit大語言模型的開源模型”而與以往的研究區別開來,研究人員寫道,該模型基于包含4萬億 tokens 的訓練數據集構建了一個擁有20億 tokens 的模型。
這里的“原生”至關重要,因為許多以往的量化嘗試只是對使用全精度大浮點數預先訓練好的模型進行事后尺寸縮減。研究人員寫道,這種訓練后量化可能會導致與原始模型相比出現“顯著的性能下降”。與此同時,其他原生訓練的 BitNet 模型規模較小,“可能尚未達到大型全精度模型的能力”。
規模是否重要?
減少模型內部權重復雜度最明顯的優勢是降低內存需求。與同等參數規模的其他開放權重模型需要大約2到5GB內存不同,BitNet b1.58 模型僅需0.4GB內存即可運行。
但這種簡化的權重系統也使得模型在推理時運行更為高效,其內部操作更多地依賴簡單的加法指令,而較少使用計算成本高昂的乘法指令。研究人員估計,這些效率提升使得 BitNet b1.58 模型相比類似的全精度模型,能耗下降了85%到96%。
通過使用專為 BitNet 架構設計的高度優化內核,BitNet b1.58 模型的運行速度也比標準全精度 Transformer 上運行的相似模型快了數倍。研究人員寫道,該系統足夠高效,單個CPU即可達到“媲美人類閱讀速度(每秒5至7個Token)”的速度(你可以在多款ARM和x86 CPU上下載并運行這些優化內核,或通過該網絡演示進行體驗)。
關鍵的是,研究人員表示這些改進并未以犧牲在各種測試推理、數學及“知識”能力的基準測試中的性能為代價(盡管這一說法尚未被獨立驗證)。在多個常見基準測試上的平均結果表明,BitNet“在能力上幾乎與同類領先模型持平,同時提供了顯著提高的效率”。
盡管內存占用更小,BitNet 在許多基準測試中的表現仍與“全精度”權重模型相似。
盡管這一“概念驗證”型 BitNet 模型取得了顯著成功,研究人員寫道,他們尚未完全理解為什么這種極簡化的權重設定能使模型表現如此出色。“深入探討大規模1-bit訓練為何能奏效的理論基礎仍然是一個未解之謎,”他們寫道。而且,仍需要更多研究使這些 BitNet 模型在整體規模和上下文窗口“記憶”方面與當今最大的模型競爭。
盡管如此,這項新研究展示了一種潛在的替代方案,適用于那些因運行在昂貴且強大的GPU上而面臨硬件及能耗飆升問題的AI模型。或許現今的“全精度”模型就像浪費大量能量和資源的肌肉車,而一款精致的小型車也許就能交付類似的效果。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.