大數據文摘出品
Gemma 3 的“低門檻 AI”計劃露面了,谷歌這次直接把 Gemma 3 做成了“跑得動的”AI。
—Gemma-3-27b-it-qat-q4_0-gguf 聽上去像個 Wi-Fi 密碼,其實卻是谷歌迄今為止最精簡的大模型
是的,不再只屬于高端服務器和土豪顯卡,普通玩家的游戲卡,甚至手機,都能一試身手。
這波操作的核心是三個字:量化訓練(Quantization-Aware Training, QAT)。
為什么量化訓練讓 AI 變“親民”?
以前的 Gemma 3需要“天花板配置”:NVIDIA H100,BFloat16 精度,普通人家根本用不起。
而這次,Google 把量化訓練用到了極致。簡單說,就是讓模型在訓練階段就習慣低精度(比如 int4、int8),以后部署時直接“瘦身”,幾乎不掉智商。
顯存節省效果非常明顯。以 27B 參數的模型為例,原本需要 54 GB 的顯存,在 int4(4 位整型)格式下只需 14.1 GB;12B 版本從 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明顯:4B 版本僅需 2.6 GB,1B 版本甚至只要 0.5 GB 顯存。
量化訓練的“魔法”到底在哪里?
普通的量化是什么?后處理。模型訓完了,直接把參數壓縮成低精度,代價就是:掉分,掉智商。
Google 這次玩的是 QAT —— 訓練過程直接讓模型在低精度環境下“吃苦頭”,提前適應精度損失。Google 自己也說了:“因為 QAT,這些模型對量化魯棒,性能和原版近乎持平。”
當然,benchmark 數據沒公開,多少有點賣關子,但社區已經開始實測和玩梗。
不過,僅看顯存和推理速度的變化,這次量化訓練確實把大模型帶進了“民用領域”。
抱抱臉地址:https://huggingface.co/ubergarm/gemma-3-27b-it-qat-GGUF
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.