新智元報(bào)道
編輯:海貍
【新智元導(dǎo)讀】Google雙線出擊!T5Gemma重燃encoder-decoder架構(gòu)戰(zhàn)火,性能暴漲12分;MedGemma堅(jiān)守decoder-only路線,強(qiáng)攻醫(yī)療多模態(tài),擊穿閉源壁壘。Gemma體系完成「架構(gòu)+落地」雙重進(jìn)化,打響Google開源反擊戰(zhàn)。
2023年以來,大模型的戰(zhàn)場(chǎng)由decoder-only架構(gòu)一統(tǒng)江湖。
從GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,
能叫得出名字的主流LLM,幾乎都是清一色的「純解碼器」(decoder-only)。
但今天,Google帶著T5Gemma殺回來了——
不僅重啟了encoder-decoder的技術(shù)路線,還略施小技就讓它原地起飛,暴打原版Gemma 2。
T5Gemma本身基于decoder-only的Gemma 2框架。
神奇的是,通過簡(jiǎn)單的「適配」轉(zhuǎn)換成encoder-decoder架構(gòu)后,T5Gemma一舉實(shí)現(xiàn)性能飛躍。
T5Gemma 9B-9B在GSM8K(數(shù)學(xué)推理)上得分?原始Gemma 2 9B?出9分,在DROP(閱讀理解)上?出4分。
進(jìn)一步縮小參數(shù)量,結(jié)果反而更驚人!
T5Gemma 2B-2B IT的MMLU得分?Gemma 2 2B提高了近12分,GSM8K準(zhǔn)確率暴漲到70.7%。
T5Gemma主要面向文本生成任務(wù),包括問答系統(tǒng)、數(shù)學(xué)推理、閱讀理解等。
并且encoder-decoder的架構(gòu)支持「不平衡」配置。如9B編碼器配2B解碼器,可以在質(zhì)量和效率之間游刃有余。
在相同的計(jì)算量下,T5Gemma性能優(yōu)于僅解碼器模型,靈活度也更勝一籌,可以根據(jù)具體任務(wù)調(diào)整編碼器和解碼器的大小。
除了Gemma 2的技術(shù)回馬槍之外,Gemma 3系列也有重大更新!
Google這次專攻醫(yī)療多模態(tài)任務(wù),基于Gemma 3架構(gòu),推出了MedGemma和MedSigLIP兩款多模態(tài)模型。
MedGemma支持圖文輸入,輸出是醫(yī)學(xué)自由文本;MedSigLIP則是輕量圖文編碼器。
Google把「低資源友好」貫徹到底,MedGemma僅需4B模型即可逼近SoTA,部署門檻極低,單卡、甚至移動(dòng)端也能輕松跑起來。
4億參數(shù)的MedSigLIP也是全能王者,不僅擅長(zhǎng)醫(yī)學(xué)圖像,檢索、零樣本分類等非醫(yī)學(xué)下游任務(wù)也手拿把掐。
在Med系列「開源雙子星」的轟炸下,醫(yī)療模型閉源壁壘岌岌可危,同行紛紛對(duì)Google表示祝賀和期待。
「架構(gòu)+落地」雙王炸,Google的開源LLM體系戰(zhàn)略殺瘋了。
四兩撥千斤
重燃encoder-decoder架構(gòu)之戰(zhàn)
T5Gemma基于Gemma 2框架,包括適配后的Gemma 2 2B和9B模型,以及?組新訓(xùn)練的T5尺寸模型(Small、Base、Large 和 XL)。
Google已經(jīng)將預(yù)訓(xùn)練模型和指令微調(diào)模型的T5Gemma系列在huggingface上開源,助?社區(qū)在研究與開發(fā)中挖掘新的機(jī)會(huì)。
一招適配,暴打原版
不少網(wǎng)友在T5Gemma發(fā)布后紛紛表示,encoder-decoder其實(shí)也具有很強(qiáng)的輸入理解、上下文建模和推理能力。
然而,它卻因?yàn)閐ecoder-only架構(gòu)的風(fēng)頭無兩而被雪藏已久。
Google四兩撥千斤,僅憑一招「適配」,把encoder-decoder架構(gòu)重新帶到聚光燈下。
在技術(shù)報(bào)告中,Google所提出的「模型適配」(Model Adaptation)理念其實(shí)非常直觀:
直接利用已完成預(yù)訓(xùn)練的decoder-only模型權(quán)重,初始化encoder-decoder模型的參數(shù),然后基于UL2或PrefixLM進(jìn)行進(jìn)一步訓(xùn)練。
具體而言,如圖所示。
Google首先使用一個(gè)已經(jīng)預(yù)訓(xùn)練完成的decoder-only模型,比如Gemma 2 9B或2B。
這個(gè)模型包含前饋網(wǎng)絡(luò)模塊(FFN)和一個(gè)因果自注意力+旋轉(zhuǎn)位置編碼(ROPE)模塊
原本decoder-only模型中的「因果自注意力」模塊會(huì)被替換為「雙頭注意力」以適配encoder。在encoder中,F(xiàn)FN和ROPE參數(shù)繼續(xù)沿用原模型。
原始decoder-only中的模塊中間新增一層 Cross-Attention之后,作為新架構(gòu)的decoder,用于解碼器從encoder輸出中獲取信息。
在上述結(jié)構(gòu)完成初始化后,模型可以使用UL2或PrefixLM來適應(yīng)encoder-decoder的信息流、masking策略和解碼方式。
這種適配?法具有很?的靈活性,允許在模型尺寸之間進(jìn)?創(chuàng)造性的組合。
想法簡(jiǎn)單,效果驚人
實(shí)驗(yàn)證明,T5Gemma的想法非常有效。
在相同的推理FLOPs下,T5Gemma的表現(xiàn)(星形點(diǎn))始終高于或等于decoder-only模型(圓形點(diǎn))。
在SuperGLUE基準(zhǔn)上,T5Gemma的最高分超過90,顯著領(lǐng)先于大多數(shù)decoder-only模型。
IT(信息提取)與PT(推理任務(wù))指標(biāo)同樣展現(xiàn)出encoder-decoder架構(gòu)的穩(wěn)健性,特別是在中低FLOPs區(qū)間內(nèi)性能提升尤為顯著,說明它對(duì)計(jì)算資源的利用效率更高。
在真實(shí)場(chǎng)景下,T5Gemma的高效計(jì)算優(yōu)勢(shì)也一路狂飆,穩(wěn)坐開源性能「性價(jià)比之王」。
以GSM8K(數(shù)學(xué)推理)為例,T5Gemma 9B-9B的準(zhǔn)確率?于Gemma 2 9B,但延遲卻相近。
T5Gemma 9B-2B在準(zhǔn)確率上遠(yuǎn)超2B-2B模型,但其延遲卻幾乎與較?的Gemma 2 2B模型相同。
全方位碾壓!T5Gemma不止于快
T5Gemma在預(yù)訓(xùn)練前后都展現(xiàn)出強(qiáng)?能?。
例如,T5Gemma 9B-9B在GSM8K(數(shù)學(xué)推理)上得分?原始Gemma 2 9B?出超過9分,在DROP(閱讀理解)上?出4分。
這些提高意味著,通過「適配」進(jìn)行初始化的encoder-decoder架構(gòu)潛力更大。
進(jìn)行指令微調(diào)后,Gemma 2與T5Gemma的性能差距在多個(gè)任務(wù)上進(jìn)一步顯著擴(kuò)大。
T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分,GSM8K準(zhǔn)確率從58.0%躍升到70.7%。
MedGemma
擊破醫(yī)療AI開源壁壘
Google這次盯上了醫(yī)療多模態(tài)場(chǎng)景,一口氣發(fā)布兩款模型:MedGemma和MedSigLIP。
Med系列多模態(tài)模型延續(xù)了「低資源友好」的策略。
基于 Gemma 3 打造的MedGemma生成式多模態(tài)模型,支持圖像+文本輸入,輸出醫(yī)學(xué)自由文本。
該模型提供 4B 和 27B 兩種尺寸,4B 多模態(tài)版本可在單卡甚至移動(dòng)設(shè)備上運(yùn)行,一舉把醫(yī)學(xué)級(jí)模型推下了高算力「神壇」。
不管是放射報(bào)告生成,還是圖像問答和病例摘要,它都能輕松勝任。
在 MedQA 等權(quán)威評(píng)測(cè)中,MedGemma 27B拿下 87.7% 高分,精度接近DeepSeek R1,但推理成本僅為十分之一!
圖文編碼器MedSigLIP更加短小精悍。
只有 4 億參數(shù),卻能穩(wěn)穩(wěn)處理胸片、皮膚病、眼底等多種醫(yī)學(xué)圖像,并輸出與文本對(duì)齊的語義嵌入。
圖像分類、零樣本識(shí)別和語義圖像檢索,統(tǒng)統(tǒng)一「模」搞定。
在開發(fā)過程中,團(tuán)隊(duì)首先把MedSigLIP訓(xùn)了出來,作為醫(yī)學(xué)優(yōu)化圖像編碼器。
然后在醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練了4B和27B版本的Gemma 3模型。
通過訓(xùn)練流程解耦,Gemma 3很好地保留了通用能力。MedGemma在融合醫(yī)學(xué)與非醫(yī)學(xué)信息、遵循指令、支持非英文語言等任務(wù)上依然表現(xiàn)良好。
單獨(dú)訓(xùn)出來的MedSigLIP是一款僅 4 億參數(shù)的輕量醫(yī)學(xué)圖像編碼器,采用Sigmoid損失的SigLIP架構(gòu),如下圖所示。
它的訓(xùn)練是通過胸片、病理切片、皮膚病圖像與眼底圖像等多樣醫(yī)學(xué)圖像數(shù)據(jù)調(diào)優(yōu)完成的。
MedSigLIP的核心目標(biāo)是,將醫(yī)學(xué)圖像與文本編碼為「同一語義空間嵌入向量」。
它在多種醫(yī)學(xué)圖像任務(wù)中的分類效果可媲美專用模型,同時(shí)通用性也不拜下風(fēng),完美勝任傳統(tǒng)圖像分類、零樣本分類、檢索等任務(wù)。
Gemma路線大升級(jí)
Google開源吹響反攻號(hào)角
Google這波開源一舉把「反攻號(hào)角」吹到了醫(yī)療AI最前線。
無論是圖文融合的MedSigLIP,還是醫(yī)療多語種全能選手MedGemma,全都以safetensors格式上線Hugging Face,直接拉低使用門檻。
開發(fā)者可以一鍵下載、靈活部署,還能在本地或自定義云平臺(tái)完成推理與微調(diào),隱私合規(guī)和數(shù)據(jù)安全輕松搞定。
不少醫(yī)療機(jī)構(gòu)已經(jīng)驗(yàn)證了Med系列醫(yī)療AI「開源雙子星」的有效性。
例如,美國(guó)DeepHealth已開始使用 MedSigLIP 優(yōu)化胸片分診與結(jié)節(jié)檢測(cè);臺(tái)灣長(zhǎng)庚紀(jì)念醫(yī)院稱MedGemma能很好理解繁體中文醫(yī)學(xué)文獻(xiàn),并有效回應(yīng)醫(yī)護(hù)問題。
對(duì)于醫(yī)療機(jī)構(gòu)的不同需求,Google還給出了對(duì)應(yīng)的模型選擇建議。
Hugging Face上已經(jīng)提供了32個(gè)版本的T5Gemma全家桶。
用戶可以根據(jù)推理速度、內(nèi)存預(yù)算、精度等個(gè)性化需求,自由選擇模型型號(hào),也可以選擇預(yù)訓(xùn)練版、指令微調(diào)版、RLHF版,或基于不同目標(biāo)(PrefixLM / UL2)訓(xùn)練的各種變體。
不止如此,Google還貼心給出全套使用手冊(cè)、Colab示例和Vertex AI部署方案,從下載到上線一路暢通,開發(fā)效率直接拉滿。
Gemma路線已經(jīng)從「架構(gòu)革新」延伸到「產(chǎn)業(yè)落地」。
Google這波上場(chǎng)更新,不止打破了閉源神話,更是為整個(gè)AI社區(qū)作出了「工具+自由+性能」的表率。
從T5Gemma到MedGemma,世界級(jí)開源模型已來,接下來,是開發(fā)者的上場(chǎng)。
參考資料:
https://developers.googleblog.com/en/t5gemma/
https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/
https://x.com/_philschmid/status/1943013171389780341
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.