網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

谷歌T5Gemma重燃架構(gòu)之戰(zhàn)！「套殼」反殺Gemma本尊，9B推理快得離譜

2025-07-14 17:22:49　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：海貍

【新智元導(dǎo)讀】Google雙線出擊！T5Gemma重燃encoder-decoder架構(gòu)戰(zhàn)火，性能暴漲12分；MedGemma堅(jiān)守decoder-only路線，強(qiáng)攻醫(yī)療多模態(tài)，擊穿閉源壁壘。Gemma體系完成「架構(gòu)+落地」雙重進(jìn)化，打響Google開源反擊戰(zhàn)。

2023年以來，大模型的戰(zhàn)場(chǎng)由decoder-only架構(gòu)一統(tǒng)江湖。

從GPT家族到LLaMA、Gemma、Mistral，再到Claude、Command-R、Yi系列，

能叫得出名字的主流LLM，幾乎都是清一色的「純解碼器」（decoder-only）。

但今天，Google帶著T5Gemma殺回來了——

不僅重啟了encoder-decoder的技術(shù)路線，還略施小技就讓它原地起飛，暴打原版Gemma 2。

T5Gemma本身基于decoder-only的Gemma 2框架。

神奇的是，通過簡(jiǎn)單的「適配」轉(zhuǎn)換成encoder-decoder架構(gòu)后，T5Gemma一舉實(shí)現(xiàn)性能飛躍。

T5Gemma 9B-9B在GSM8K（數(shù)學(xué)推理）上得分?原始Gemma 2 9B?出9分，在DROP（閱讀理解）上?出4分。

進(jìn)一步縮小參數(shù)量，結(jié)果反而更驚人！

T5Gemma 2B-2B IT的MMLU得分?Gemma 2 2B提高了近12分，GSM8K準(zhǔn)確率暴漲到70.7%。

T5Gemma主要面向文本生成任務(wù)，包括問答系統(tǒng)、數(shù)學(xué)推理、閱讀理解等。

并且encoder-decoder的架構(gòu)支持「不平衡」配置。如9B編碼器配2B解碼器，可以在質(zhì)量和效率之間游刃有余。

在相同的計(jì)算量下，T5Gemma性能優(yōu)于僅解碼器模型，靈活度也更勝一籌，可以根據(jù)具體任務(wù)調(diào)整編碼器和解碼器的大小。

除了Gemma 2的技術(shù)回馬槍之外，Gemma 3系列也有重大更新！

Google這次專攻醫(yī)療多模態(tài)任務(wù)，基于Gemma 3架構(gòu)，推出了MedGemma和MedSigLIP兩款多模態(tài)模型。

MedGemma支持圖文輸入，輸出是醫(yī)學(xué)自由文本；MedSigLIP則是輕量圖文編碼器。

Google把「低資源友好」貫徹到底，MedGemma僅需4B模型即可逼近SoTA，部署門檻極低，單卡、甚至移動(dòng)端也能輕松跑起來。

4億參數(shù)的MedSigLIP也是全能王者，不僅擅長(zhǎng)醫(yī)學(xué)圖像，檢索、零樣本分類等非醫(yī)學(xué)下游任務(wù)也手拿把掐。

在Med系列「開源雙子星」的轟炸下，醫(yī)療模型閉源壁壘岌岌可危，同行紛紛對(duì)Google表示祝賀和期待。

「架構(gòu)+落地」雙王炸，Google的開源LLM體系戰(zhàn)略殺瘋了。

四兩撥千斤

重燃encoder-decoder架構(gòu)之戰(zhàn)

T5Gemma基于Gemma 2框架，包括適配后的Gemma 2 2B和9B模型，以及?組新訓(xùn)練的T5尺寸模型（Small、Base、Large 和 XL）。

Google已經(jīng)將預(yù)訓(xùn)練模型和指令微調(diào)模型的T5Gemma系列在huggingface上開源，助?社區(qū)在研究與開發(fā)中挖掘新的機(jī)會(huì)。

一招適配，暴打原版

不少網(wǎng)友在T5Gemma發(fā)布后紛紛表示，encoder-decoder其實(shí)也具有很強(qiáng)的輸入理解、上下文建模和推理能力。

然而，它卻因?yàn)閐ecoder-only架構(gòu)的風(fēng)頭無兩而被雪藏已久。

Google四兩撥千斤，僅憑一招「適配」，把encoder-decoder架構(gòu)重新帶到聚光燈下。

在技術(shù)報(bào)告中，Google所提出的「模型適配」（Model Adaptation）理念其實(shí)非常直觀：

直接利用已完成預(yù)訓(xùn)練的decoder-only模型權(quán)重，初始化encoder-decoder模型的參數(shù)，然后基于UL2或PrefixLM進(jìn)行進(jìn)一步訓(xùn)練。

具體而言，如圖所示。

Google首先使用一個(gè)已經(jīng)預(yù)訓(xùn)練完成的decoder-only模型，比如Gemma 2 9B或2B。

這個(gè)模型包含前饋網(wǎng)絡(luò)模塊（FFN）和一個(gè)因果自注意力+旋轉(zhuǎn)位置編碼（ROPE）模塊

原本decoder-only模型中的「因果自注意力」模塊會(huì)被替換為「雙頭注意力」以適配encoder。在encoder中，F(xiàn)FN和ROPE參數(shù)繼續(xù)沿用原模型。

原始decoder-only中的模塊中間新增一層 Cross-Attention之后，作為新架構(gòu)的decoder，用于解碼器從encoder輸出中獲取信息。

在上述結(jié)構(gòu)完成初始化后，模型可以使用UL2或PrefixLM來適應(yīng)encoder-decoder的信息流、masking策略和解碼方式。

這種適配?法具有很?的靈活性，允許在模型尺寸之間進(jìn)?創(chuàng)造性的組合。

想法簡(jiǎn)單，效果驚人

實(shí)驗(yàn)證明，T5Gemma的想法非常有效。

在相同的推理FLOPs下，T5Gemma的表現(xiàn)（星形點(diǎn)）始終高于或等于decoder-only模型（圓形點(diǎn)）。

在SuperGLUE基準(zhǔn)上，T5Gemma的最高分超過90，顯著領(lǐng)先于大多數(shù)decoder-only模型。

IT（信息提取）與PT（推理任務(wù)）指標(biāo)同樣展現(xiàn)出encoder-decoder架構(gòu)的穩(wěn)健性，特別是在中低FLOPs區(qū)間內(nèi)性能提升尤為顯著，說明它對(duì)計(jì)算資源的利用效率更高。

在真實(shí)場(chǎng)景下，T5Gemma的高效計(jì)算優(yōu)勢(shì)也一路狂飆，穩(wěn)坐開源性能「性價(jià)比之王」。

以GSM8K（數(shù)學(xué)推理）為例，T5Gemma 9B-9B的準(zhǔn)確率?于Gemma 2 9B，但延遲卻相近。

T5Gemma 9B-2B在準(zhǔn)確率上遠(yuǎn)超2B-2B模型，但其延遲卻幾乎與較?的Gemma 2 2B模型相同。

全方位碾壓！T5Gemma不止于快

T5Gemma在預(yù)訓(xùn)練前后都展現(xiàn)出強(qiáng)?能?。

例如，T5Gemma 9B-9B在GSM8K（數(shù)學(xué)推理）上得分?原始Gemma 2 9B?出超過9分，在DROP（閱讀理解）上?出4分。

這些提高意味著，通過「適配」進(jìn)行初始化的encoder-decoder架構(gòu)潛力更大。

進(jìn)行指令微調(diào)后，Gemma 2與T5Gemma的性能差距在多個(gè)任務(wù)上進(jìn)一步顯著擴(kuò)大。

T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分，GSM8K準(zhǔn)確率從58.0%躍升到70.7%。

MedGemma

擊破醫(yī)療AI開源壁壘

Google這次盯上了醫(yī)療多模態(tài)場(chǎng)景，一口氣發(fā)布兩款模型：MedGemma和MedSigLIP。

Med系列多模態(tài)模型延續(xù)了「低資源友好」的策略。

基于 Gemma 3 打造的MedGemma生成式多模態(tài)模型，支持圖像+文本輸入，輸出醫(yī)學(xué)自由文本。

該模型提供 4B 和 27B 兩種尺寸，4B 多模態(tài)版本可在單卡甚至移動(dòng)設(shè)備上運(yùn)行，一舉把醫(yī)學(xué)級(jí)模型推下了高算力「神壇」。

不管是放射報(bào)告生成，還是圖像問答和病例摘要，它都能輕松勝任。

在 MedQA 等權(quán)威評(píng)測(cè)中，MedGemma 27B拿下 87.7% 高分，精度接近DeepSeek R1，但推理成本僅為十分之一！

圖文編碼器MedSigLIP更加短小精悍。

只有 4 億參數(shù)，卻能穩(wěn)穩(wěn)處理胸片、皮膚病、眼底等多種醫(yī)學(xué)圖像，并輸出與文本對(duì)齊的語義嵌入。

圖像分類、零樣本識(shí)別和語義圖像檢索，統(tǒng)統(tǒng)一「模」搞定。

在開發(fā)過程中，團(tuán)隊(duì)首先把MedSigLIP訓(xùn)了出來，作為醫(yī)學(xué)優(yōu)化圖像編碼器。

然后在醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練了4B和27B版本的Gemma 3模型。

通過訓(xùn)練流程解耦，Gemma 3很好地保留了通用能力。MedGemma在融合醫(yī)學(xué)與非醫(yī)學(xué)信息、遵循指令、支持非英文語言等任務(wù)上依然表現(xiàn)良好。

單獨(dú)訓(xùn)出來的MedSigLIP是一款僅 4 億參數(shù)的輕量醫(yī)學(xué)圖像編碼器，采用Sigmoid損失的SigLIP架構(gòu)，如下圖所示。

它的訓(xùn)練是通過胸片、病理切片、皮膚病圖像與眼底圖像等多樣醫(yī)學(xué)圖像數(shù)據(jù)調(diào)優(yōu)完成的。

MedSigLIP的核心目標(biāo)是，將醫(yī)學(xué)圖像與文本編碼為「同一語義空間嵌入向量」。

它在多種醫(yī)學(xué)圖像任務(wù)中的分類效果可媲美專用模型，同時(shí)通用性也不拜下風(fēng)，完美勝任傳統(tǒng)圖像分類、零樣本分類、檢索等任務(wù)。

Gemma路線大升級(jí)

Google開源吹響反攻號(hào)角

Google這波開源一舉把「反攻號(hào)角」吹到了醫(yī)療AI最前線。

無論是圖文融合的MedSigLIP，還是醫(yī)療多語種全能選手MedGemma，全都以safetensors格式上線Hugging Face，直接拉低使用門檻。

開發(fā)者可以一鍵下載、靈活部署，還能在本地或自定義云平臺(tái)完成推理與微調(diào)，隱私合規(guī)和數(shù)據(jù)安全輕松搞定。

不少醫(yī)療機(jī)構(gòu)已經(jīng)驗(yàn)證了Med系列醫(yī)療AI「開源雙子星」的有效性。

例如，美國(guó)DeepHealth已開始使用 MedSigLIP 優(yōu)化胸片分診與結(jié)節(jié)檢測(cè)；臺(tái)灣長(zhǎng)庚紀(jì)念醫(yī)院稱MedGemma能很好理解繁體中文醫(yī)學(xué)文獻(xiàn)，并有效回應(yīng)醫(yī)護(hù)問題。

對(duì)于醫(yī)療機(jī)構(gòu)的不同需求，Google還給出了對(duì)應(yīng)的模型選擇建議。

Hugging Face上已經(jīng)提供了32個(gè)版本的T5Gemma全家桶。

用戶可以根據(jù)推理速度、內(nèi)存預(yù)算、精度等個(gè)性化需求，自由選擇模型型號(hào)，也可以選擇預(yù)訓(xùn)練版、指令微調(diào)版、RLHF版，或基于不同目標(biāo)（PrefixLM / UL2）訓(xùn)練的各種變體。

不止如此，Google還貼心給出全套使用手冊(cè)、Colab示例和Vertex AI部署方案，從下載到上線一路暢通，開發(fā)效率直接拉滿。

Gemma路線已經(jīng)從「架構(gòu)革新」延伸到「產(chǎn)業(yè)落地」。

Google這波上場(chǎng)更新，不止打破了閉源神話，更是為整個(gè)AI社區(qū)作出了「工具+自由+性能」的表率。

從T5Gemma到MedGemma，世界級(jí)開源模型已來，接下來，是開發(fā)者的上場(chǎng)。

參考資料：

https://developers.googleblog.com/en/t5gemma/

https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

https://x.com/_philschmid/status/1943013171389780341

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.