谷歌發(fā)布了開(kāi)源模型Gemma 3。在部署效率上完勝DeepSeek-R1/3V。
下圖評(píng)分排名中,圓點(diǎn)表示估算的英偉達(dá) H100 GPU 需求。Gemma 3 27B 排名較高,僅需一塊 GPU(TPU也可),而DeepSeek-V3/Ri模型各需要32 塊。
下面是它的八大亮點(diǎn):
1,基于 Gemini 2.0 技術(shù)打造 。
2,全家桶:1B、4B、12B 和 27B。
3,“世界上最好的單芯片模型”(單 GPU 或 TPU )。
4,最好的非推理開(kāi)源模型:LMArena 表現(xiàn)優(yōu)于 Llama-405B、DeepSeek-V3 和 o3-mini,僅次于DeepSeek R1。
5,多模態(tài):擁有“高級(jí)文本和視覺(jué)推理能力”,可以在 4B+ 規(guī)模上“分析圖像、文本和短視頻”。
6,128k token上下文窗口,開(kāi)箱即用。
7,支持超過(guò) 35 種語(yǔ)言,預(yù)訓(xùn)練支持超過(guò) 140 種語(yǔ)言。
8,無(wú)需GPU:訓(xùn)練27B用了6144張TPUv5P卡。
值得注意的是,整個(gè)訓(xùn)練沒(méi)有用GPU卡。
關(guān)于訓(xùn)練成本,技術(shù)報(bào)告稱每種模型配置都經(jīng)過(guò)優(yōu)化,以最小化訓(xùn)練步驟的時(shí)間。 對(duì)于視覺(jué)編碼器(vision encoder),預(yù)先計(jì)算每張圖片的嵌入(embeddings),并直接使用這些嵌入進(jìn)行訓(xùn)練,因此不會(huì)增加語(yǔ)言模型的訓(xùn)練成本。 但報(bào)告并沒(méi)有給出具體的訓(xùn)練成本金額。
Gemma-3 27B是一個(gè)密集模型,打敗了DeepSeek-3V 671B/37B,成為非推理開(kāi)源模型第一,但不及推理的DeepSeek-R1。與那些前沿閉源大模型同臺(tái)競(jìng)技,它也能打入前十。
(對(duì) Gemma 3 27B IT 模型在 Chatbot Arena 中的評(píng)估(Chiang 等,2024)。所有模型均通過(guò)盲測(cè)進(jìn)行對(duì)比評(píng)估,由人工評(píng)審員以并排對(duì)比的方式進(jìn)行評(píng)分。每個(gè)模型的評(píng)分基于 Elo 評(píng)級(jí)系統(tǒng)。Gemma-3-27B-IT 的數(shù)據(jù)為初步結(jié)果,于 2025 年 3 月 8 日 收到。)
關(guān)于訓(xùn)練數(shù)據(jù),Gemma-3 27B 訓(xùn)練了 14 萬(wàn)億tokens,12B 版本訓(xùn)練了 12萬(wàn)億 tokens,4B 版本訓(xùn)練了 4萬(wàn)億 tokens,1B 版本訓(xùn)練了 2萬(wàn)億tokens。訓(xùn)練 token 數(shù)量的增加是為了適應(yīng)圖像與文本混合數(shù)據(jù)在預(yù)訓(xùn)練過(guò)程中的使用。此外,還增加了多語(yǔ)言數(shù)據(jù)的比例,以提升語(yǔ)言覆蓋范圍。引入了單語(yǔ)數(shù)據(jù)(monolingual data)和平行數(shù)據(jù)(parallel data),并采用了一種受Chung 等(2023)啟發(fā)的策略,以處理不同語(yǔ)言數(shù)據(jù)的分布不均衡問(wèn)題。
谷歌有從一開(kāi)始就有比較明確的開(kāi)源策略,即發(fā)布專有的前沿模型Gemini的同時(shí),發(fā)布開(kāi)源的小模型Gemma,用于在安卓操作系統(tǒng)的端側(cè)部署。這次體現(xiàn)了一貫思路,Gemma 3目前成為最適于在端側(cè)部署的開(kāi)源模型。
目前為止,谷歌實(shí)現(xiàn)了在閉源大模型API使用成本及閉源模型部署效率均勝過(guò)DeepSeek-V3/R1。
接下來(lái),等DeepSeek-R2盡快出手了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.