99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌開源Gemma-3:媲美DeepSeek,算力暴降10倍

0
分享至

昨晚,谷歌CEO Sundar Pichai宣布,開源最新多模態(tài)大模型Gemma-3,主打低成本高性能。

Gemma-3共有10億、40億、120億和270億四種參數(shù)。但即便最大的270億參數(shù),只需要一張H100就能高效推理,同類模型要達(dá)到這個效果最少要提升10倍算力,也是目前最強小參數(shù)模型。

根據(jù)盲測LMSYS ChatbotArena數(shù)據(jù)顯示,Gemma-3僅次于DeepSeek的R1-671B,高于OpenAI的o3-mini,Llama3-405B等知名模型。

DeepSeek的R1是相當(dāng)有排面,國內(nèi)外發(fā)布高性能低成本模型時都得和它比較一下。其實,前幾天阿里也開源了一個比肩R1,參數(shù)大降20倍的QwQ-32B模型。現(xiàn)在谷歌也要開始卷低成本模型了。


開源地址:https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

Gemma-3架構(gòu)與技術(shù)亮點

在架構(gòu)設(shè)計上,Gemma-3采用了與前兩代一樣的通用解碼器Transformer架構(gòu),但進行了眾多創(chuàng)新和優(yōu)化。

為了應(yīng)對長上下文帶來的內(nèi)存爆炸難題,Gemma-3采用了局部和全局自注意力層交錯的架構(gòu),每5個局部層之間插入1個全局層,局部層的跨度僅為1024個token。因為只有全局層負(fù)責(zé)處理長上下文,局部層僅關(guān)注1024個token的小跨度,從而降低了內(nèi)存占用。


為了支持長上下文,Gemma-3模型將上下文長度擴展到了128Ktoken(10億參數(shù)模型為32K)。模型提高了全局自注意力層的RoPE基礎(chǔ)頻率,從10k提升到1M,而局部層頻率保持在10k。

同時,采用了類似位置插值的方法來擴展全局自注意力層的跨度,使模型在長上下文場景下能夠更好地捕捉信息提升性能。

多模態(tài)能力是Gemma-3的一大技術(shù)亮點,能夠同時處理文本和圖像。還集成了定制版的SigLIP視覺編碼器,這是一個基于VisionTransformer的編碼器,通過CLIP損失的變體進行訓(xùn)練。


為了降低圖像處理的推理成本,Gemma-3采用了創(chuàng)新的圖像嵌入壓縮技術(shù),將視覺嵌入壓縮為固定大小的256個向量,從而在不損失關(guān)鍵信息的前提下,顯著減少了計算資源的消耗。

Gemma-3還引入了Pan&Scan方法,允許模型靈活處理不同分辨率和寬高比的圖像。在實際應(yīng)用中,Pan&Scan通過將圖像分割成多個固定大小的區(qū)域,并將這些區(qū)域調(diào)整到統(tǒng)一的分辨率后輸入編碼器,從而避免了因圖像尺寸不一致而導(dǎo)致的信息丟失或變形問題。這種靈活的圖像處理方式不僅提高了模型對圖像內(nèi)容的理解能力,還使其在處理復(fù)雜圖像場景時表現(xiàn)得更加出色。

高效訓(xùn)練過程

在預(yù)訓(xùn)練階段,Gemma-3采用了與Gemma 2相似的方法并融入新的改進。為適應(yīng)圖像和文本混合數(shù)據(jù)的訓(xùn)練需求,模型使用了比Gemma 2更大的token預(yù)算。

270億參數(shù)的模型訓(xùn)練使用14Ttoken,120億參數(shù)模型使用12T,40億參數(shù)模型使用4T,10億參數(shù)模型使用2T

同時,增加了多語言數(shù)據(jù),包括單語和并行數(shù)據(jù),并借鑒特定策略處理語言表示不平衡的問題,以此提升模型的語言覆蓋范圍和多語言處理能力。所以,Gemma-3支持140種語言,其中35種語言開箱即用。


Gemma-3使用與Gemini2.0相同的SentencePiece分詞器,具備分割數(shù)字、保留空格和字節(jié)級編碼的特性,生成的詞匯表包含262k個條目,使得模型在處理非英語語言時更加平衡。

在訓(xùn)練優(yōu)化上,Gemma-3運用知識蒸餾技術(shù)。每個token采樣256個logits,按照教師概率進行加權(quán),學(xué)生模型通過交叉熵?fù)p失來學(xué)習(xí)教師模型在這些樣本中的分布。在這個過程中,對于未采樣的logits,教師模型的目標(biāo)分布被設(shè)為零概率并重新歸一化,從而引導(dǎo)學(xué)生模型學(xué)習(xí)到更優(yōu)的分布,提升模型的性能。

完成預(yù)訓(xùn)練后,Gemma-3進入后訓(xùn)練階段,該階段聚焦于提升模型的特定能力并整合新特性。后訓(xùn)練采用了改進版的知識蒸餾技術(shù),從大型指令微調(diào)教師模型中獲取知識,同時結(jié)合基于改進版BOND、WARM和WARP的強化學(xué)習(xí)微調(diào)階段

通過多種獎勵函數(shù)來優(yōu)化模型,這些獎勵函數(shù)旨在提升模型的幫助性、數(shù)學(xué)能力、編碼能力、推理能力、指令遵循能力和多語言能力,同時最小化模型產(chǎn)生有害輸出的可能性。獎勵來源包括從人類反饋數(shù)據(jù)訓(xùn)練的加權(quán)平均獎勵模型、代碼執(zhí)行反饋以及解決數(shù)學(xué)問題的真實獎勵等。

測試數(shù)據(jù)

為了測試Gemma-3的性能,谷歌在MGSM、Global-MMLU-Lite、WMT24++、RULER、MRCR等眾多主流平臺進行了評估。

結(jié)果顯示,Gemma-3在多模態(tài)任務(wù)中表現(xiàn)出色,例如在DocVQA、InfoVQA和TextVQA等任務(wù)中,其性能顯著優(yōu)于前代模型。在長文本處理方面,Gemma-3的27B模型在RULER128K上達(dá)到了66.0%的準(zhǔn)確率,展現(xiàn)了強大的長文本處理能力。


在多語言支持上,Gemma-3在MGSM和Global-MMLU-Lite等任務(wù)中也取得了優(yōu)異成績。在對話能力評估中,Gemma-3的27B指令調(diào)優(yōu)版本在ChatbotArena中的Elo分?jǐn)?shù)為1338,排名進入前10,接近DeepSeek-R1等大型模型。

本文素材來源谷歌,如有侵權(quán)請聯(lián)系刪除

報告下載

大 佬觀點分享

關(guān)于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點擊文字即可閱讀)

| |

| | |

| | |

| | |

| |

行業(yè)知識交流分享,結(jié)識擴展人脈圈層

公眾號后臺回復(fù)【RPA】或者【流程挖掘】

可受邀加入相關(guān)的交流群

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
奈雪被曝“喝出整只青蛙”,當(dāng)事人:監(jiān)管部門已介入

奈雪被曝“喝出整只青蛙”,當(dāng)事人:監(jiān)管部門已介入

大象新聞
2025-06-23 14:58:04
看到伊朗發(fā)威,特朗普意識到什么,衛(wèi)星圖顯示,美軍艦連夜撤了?

看到伊朗發(fā)威,特朗普意識到什么,衛(wèi)星圖顯示,美軍艦連夜撤了?

空天力量
2025-06-22 20:10:25
美媒:衛(wèi)星照片顯示,美國空襲伊朗福爾多核設(shè)施留下至少6個巨大彈坑

美媒:衛(wèi)星照片顯示,美國空襲伊朗福爾多核設(shè)施留下至少6個巨大彈坑

環(huán)球網(wǎng)資訊
2025-06-23 06:59:17
國運來了!中國德州發(fā)現(xiàn)全球首個超富鐵礦!專家:世界罕見

國運來了!中國德州發(fā)現(xiàn)全球首個超富鐵礦!專家:世界罕見

南宗歷史
2025-06-23 12:32:08
首戰(zhàn)中國隊!韓國隊東亞杯名單:20位本土聯(lián)賽球員+3位J聯(lián)賽球員

首戰(zhàn)中國隊!韓國隊東亞杯名單:20位本土聯(lián)賽球員+3位J聯(lián)賽球員

直播吧
2025-06-23 13:53:34
伊朗新一輪對以色列空襲持續(xù)40分鐘

伊朗新一輪對以色列空襲持續(xù)40分鐘

財聯(lián)社
2025-06-23 16:22:20
釋新聞|伊朗核設(shè)施在美軍空襲中受損情況如何?

釋新聞|伊朗核設(shè)施在美軍空襲中受損情況如何?

澎湃新聞
2025-06-23 09:48:28
歷史首人,亞歷山大成首位單賽季拿到MVP、西決MVP和FMVP球員

歷史首人,亞歷山大成首位單賽季拿到MVP、西決MVP和FMVP球員

懂球帝
2025-06-23 11:12:21
伊朗守國神器上場,特朗普連夜發(fā)了3條推文,美國最難的時候到了

伊朗守國神器上場,特朗普連夜發(fā)了3條推文,美國最難的時候到了

博覽歷史
2025-06-23 14:14:14
那爾那茜造假實錘!108萬片酬蒸發(fā)!不過這通報很多人可能沒看懂

那爾那茜造假實錘!108萬片酬蒸發(fā)!不過這通報很多人可能沒看懂

派大星紀(jì)錄片
2025-06-23 15:35:00
美國轟炸伊朗核設(shè)施背后:B-2為何能連飛44小時不燒發(fā)動機?

美國轟炸伊朗核設(shè)施背后:B-2為何能連飛44小時不燒發(fā)動機?

徐德文科學(xué)頻道
2025-06-23 12:47:48
不跪了,哈梅內(nèi)伊亮終極王炸,大不了同歸于盡,號召8000萬人血戰(zhàn)

不跪了,哈梅內(nèi)伊亮終極王炸,大不了同歸于盡,號召8000萬人血戰(zhàn)

大白話瞰世界
2025-06-23 13:26:40
霍啟仁低調(diào)完婚,網(wǎng)友扒出南風(fēng)背景:不簡單

霍啟仁低調(diào)完婚,網(wǎng)友扒出南風(fēng)背景:不簡單

丫頭舫
2025-06-22 15:52:02
休斯敦雷霆夕陽紅隊網(wǎng)友P圖 三少+海王+杰夫-格林齊聚火箭

休斯敦雷霆夕陽紅隊網(wǎng)友P圖 三少+海王+杰夫-格林齊聚火箭

直播吧
2025-06-23 15:18:41
全國理發(fā)店陷入倒閉潮,不是沒生意,是你把顧客“勸退”了!

全國理發(fā)店陷入倒閉潮,不是沒生意,是你把顧客“勸退”了!

李博世財經(jīng)
2025-06-23 11:13:16
男子刷20萬后,不滿女主播只陪他3天,怒而將他們開房照片曝光

男子刷20萬后,不滿女主播只陪他3天,怒而將他們開房照片曝光

漢史趣聞
2025-06-23 10:26:20
剛剛,阿里發(fā)布全員通知,大調(diào)整

剛剛,阿里發(fā)布全員通知,大調(diào)整

大廠往事爆料
2025-06-23 14:02:23
越南副總理會見中企高管:歡迎參與南北高鐵項目,技術(shù)轉(zhuǎn)讓條款需納入合同

越南副總理會見中企高管:歡迎參與南北高鐵項目,技術(shù)轉(zhuǎn)讓條款需納入合同

小星球探索
2025-06-23 08:27:21
明日花綺羅凌晨發(fā)聲!揭與「周鶴年性交易」真相

明日花綺羅凌晨發(fā)聲!揭與「周鶴年性交易」真相

ETtoday星光云
2025-06-23 11:16:02
男子車內(nèi)熱死后續(xù)!內(nèi)臟“蒸熟”,曾有2次自救機會,家屬曝更多

男子車內(nèi)熱死后續(xù)!內(nèi)臟“蒸熟”,曾有2次自救機會,家屬曝更多

奇思妙想草葉君
2025-06-22 22:38:43
2025-06-23 17:11:00
RPA中國 incentive-icons
RPA中國
RPA行業(yè)生態(tài)平臺
2695文章數(shù) 1247關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內(nèi)部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經(jīng)要聞

關(guān)稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態(tài)度原創(chuàng)

教育
游戲
旅游
藝術(shù)
數(shù)碼

教育要聞

上海2025年本科錄取分?jǐn)?shù)線公布!402分!

角逐MMO巔峰?《劍靈》巔峰服上線;《冒險島》開啟首個賽季服

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

洗碗機要成“剛需”了 618銷量暴增

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 贡觉县| 胶南市| 英德市| 双辽市| 来凤县| 威宁| 横峰县| 昌宁县| 延津县| 永平县| 东乡| 康乐县| 延边| 汤阴县| 镶黄旗| 彩票| 临夏市| 巴塘县| 米林县| 宽城| 临汾市| 敦煌市| 新平| 沙坪坝区| 沁阳市| 尖扎县| 舒城县| 台山市| 万宁市| 西盟| 义乌市| 罗源县| 秦皇岛市| 嵊州市| 绍兴市| 宕昌县| 瓦房店市| 互助| 临澧县| 泰和县| 河南省|