99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌T5Gemma重燃架構(gòu)之戰(zhàn)!「套殼」反殺Gemma本尊,9B推理快得離譜

0
分享至


新智元報(bào)道

編輯:海貍

【新智元導(dǎo)讀】Google雙線出擊!T5Gemma重燃encoder-decoder架構(gòu)戰(zhàn)火,性能暴漲12分;MedGemma堅(jiān)守decoder-only路線,強(qiáng)攻醫(yī)療多模態(tài),擊穿閉源壁壘。Gemma體系完成「架構(gòu)+落地」雙重進(jìn)化,打響Google開源反擊戰(zhàn)。

2023年以來,大模型的戰(zhàn)場(chǎng)由decoder-only架構(gòu)一統(tǒng)江湖。

從GPT家族到LLaMA、Gemma、Mistral,再到Claude、Command-R、Yi系列,

能叫得出名字的主流LLM,幾乎都是清一色的「純解碼器」(decoder-only)。

但今天,Google帶著T5Gemma殺回來了——


不僅重啟了encoder-decoder的技術(shù)路線,還略施小技就讓它原地起飛,暴打原版Gemma 2。

T5Gemma本身基于decoder-only的Gemma 2框架。

神奇的是,通過簡(jiǎn)單的「適配」轉(zhuǎn)換成encoder-decoder架構(gòu)后,T5Gemma一舉實(shí)現(xiàn)性能飛躍。

T5Gemma 9B-9B在GSM8K(數(shù)學(xué)推理)上得分?原始Gemma 2 9B?出9分,在DROP(閱讀理解)上?出4分。

進(jìn)一步縮小參數(shù)量,結(jié)果反而更驚人!

T5Gemma 2B-2B IT的MMLU得分?Gemma 2 2B提高了近12分,GSM8K準(zhǔn)確率暴漲到70.7%。


T5Gemma主要面向文本生成任務(wù),包括問答系統(tǒng)、數(shù)學(xué)推理、閱讀理解等。

并且encoder-decoder的架構(gòu)支持「不平衡」配置。如9B編碼器配2B解碼器,可以在質(zhì)量和效率之間游刃有余。

在相同的計(jì)算量下,T5Gemma性能優(yōu)于僅解碼器模型,靈活度也更勝一籌,可以根據(jù)具體任務(wù)調(diào)整編碼器和解碼器的大小。

除了Gemma 2的技術(shù)回馬槍之外,Gemma 3系列也有重大更新!

Google這次專攻醫(yī)療多模態(tài)任務(wù),基于Gemma 3架構(gòu),推出了MedGemma和MedSigLIP兩款多模態(tài)模型。

MedGemma支持圖文輸入,輸出是醫(yī)學(xué)自由文本;MedSigLIP則是輕量圖文編碼器。

Google把「低資源友好」貫徹到底,MedGemma僅需4B模型即可逼近SoTA,部署門檻極低,單卡、甚至移動(dòng)端也能輕松跑起來。

4億參數(shù)的MedSigLIP也是全能王者,不僅擅長(zhǎng)醫(yī)學(xué)圖像,檢索、零樣本分類等非醫(yī)學(xué)下游任務(wù)也手拿把掐。

在Med系列「開源雙子星」的轟炸下,醫(yī)療模型閉源壁壘岌岌可危,同行紛紛對(duì)Google表示祝賀和期待。


「架構(gòu)+落地」雙王炸,Google的開源LLM體系戰(zhàn)略殺瘋了。

四兩撥千斤

重燃encoder-decoder架構(gòu)之戰(zhàn)

T5Gemma基于Gemma 2框架,包括適配后的Gemma 2 2B和9B模型,以及?組新訓(xùn)練的T5尺寸模型(Small、Base、Large 和 XL)。

Google已經(jīng)將預(yù)訓(xùn)練模型和指令微調(diào)模型的T5Gemma系列在huggingface上開源,助?社區(qū)在研究與開發(fā)中挖掘新的機(jī)會(huì)。


一招適配,暴打原版

不少網(wǎng)友在T5Gemma發(fā)布后紛紛表示,encoder-decoder其實(shí)也具有很強(qiáng)的輸入理解、上下文建模和推理能力。


然而,它卻因?yàn)閐ecoder-only架構(gòu)的風(fēng)頭無兩而被雪藏已久。

Google四兩撥千斤,僅憑一招「適配」,把encoder-decoder架構(gòu)重新帶到聚光燈下。

在技術(shù)報(bào)告中,Google所提出的「模型適配」(Model Adaptation)理念其實(shí)非常直觀:

直接利用已完成預(yù)訓(xùn)練的decoder-only模型權(quán)重,初始化encoder-decoder模型的參數(shù),然后基于UL2或PrefixLM進(jìn)行進(jìn)一步訓(xùn)練。

具體而言,如圖所示。


Google首先使用一個(gè)已經(jīng)預(yù)訓(xùn)練完成的decoder-only模型,比如Gemma 2 9B或2B。

這個(gè)模型包含前饋網(wǎng)絡(luò)模塊(FFN)和一個(gè)因果自注意力+旋轉(zhuǎn)位置編碼(ROPE)模塊

原本decoder-only模型中的「因果自注意力」模塊會(huì)被替換為「雙頭注意力」以適配encoder。在encoder中,F(xiàn)FN和ROPE參數(shù)繼續(xù)沿用原模型。

原始decoder-only中的模塊中間新增一層 Cross-Attention之后,作為新架構(gòu)的decoder,用于解碼器從encoder輸出中獲取信息。

在上述結(jié)構(gòu)完成初始化后,模型可以使用UL2或PrefixLM來適應(yīng)encoder-decoder的信息流、masking策略和解碼方式。

這種適配?法具有很?的靈活性,允許在模型尺寸之間進(jìn)?創(chuàng)造性的組合。

想法簡(jiǎn)單,效果驚人

實(shí)驗(yàn)證明,T5Gemma的想法非常有效。

在相同的推理FLOPs下,T5Gemma的表現(xiàn)(星形點(diǎn))始終高于或等于decoder-only模型(圓形點(diǎn))。

在SuperGLUE基準(zhǔn)上,T5Gemma的最高分超過90,顯著領(lǐng)先于大多數(shù)decoder-only模型。

IT(信息提取)與PT(推理任務(wù))指標(biāo)同樣展現(xiàn)出encoder-decoder架構(gòu)的穩(wěn)健性,特別是在中低FLOPs區(qū)間內(nèi)性能提升尤為顯著,說明它對(duì)計(jì)算資源的利用效率更高。


在真實(shí)場(chǎng)景下,T5Gemma的高效計(jì)算優(yōu)勢(shì)也一路狂飆,穩(wěn)坐開源性能「性價(jià)比之王」。

以GSM8K(數(shù)學(xué)推理)為例,T5Gemma 9B-9B的準(zhǔn)確率?于Gemma 2 9B,但延遲卻相近。

T5Gemma 9B-2B在準(zhǔn)確率上遠(yuǎn)超2B-2B模型,但其延遲卻幾乎與較?的Gemma 2 2B模型相同。

全方位碾壓!T5Gemma不止于快

T5Gemma在預(yù)訓(xùn)練前后都展現(xiàn)出強(qiáng)?能?。

例如,T5Gemma 9B-9B在GSM8K(數(shù)學(xué)推理)上得分?原始Gemma 2 9B?出超過9分,在DROP(閱讀理解)上?出4分。

這些提高意味著,通過「適配」進(jìn)行初始化的encoder-decoder架構(gòu)潛力更大。

進(jìn)行指令微調(diào)后,Gemma 2與T5Gemma的性能差距在多個(gè)任務(wù)上進(jìn)一步顯著擴(kuò)大。

T5Gemma 2B-2B IT的MMLU得分狂超Gemma 2 2B近12分,GSM8K準(zhǔn)確率從58.0%躍升到70.7%。

MedGemma

擊破醫(yī)療AI開源壁壘

Google這次盯上了醫(yī)療多模態(tài)場(chǎng)景,一口氣發(fā)布兩款模型:MedGemma和MedSigLIP。


Med系列多模態(tài)模型延續(xù)了「低資源友好」的策略。

基于 Gemma 3 打造的MedGemma生成式多模態(tài)模型,支持圖像+文本輸入,輸出醫(yī)學(xué)自由文本。


該模型提供 4B 和 27B 兩種尺寸,4B 多模態(tài)版本可在單卡甚至移動(dòng)設(shè)備上運(yùn)行,一舉把醫(yī)學(xué)級(jí)模型推下了高算力「神壇」。

不管是放射報(bào)告生成,還是圖像問答和病例摘要,它都能輕松勝任。

在 MedQA 等權(quán)威評(píng)測(cè)中,MedGemma 27B拿下 87.7% 高分,精度接近DeepSeek R1,但推理成本僅為十分之一!


圖文編碼器MedSigLIP更加短小精悍。

只有 4 億參數(shù),卻能穩(wěn)穩(wěn)處理胸片、皮膚病、眼底等多種醫(yī)學(xué)圖像,并輸出與文本對(duì)齊的語義嵌入。

圖像分類、零樣本識(shí)別和語義圖像檢索,統(tǒng)統(tǒng)一「模」搞定。


在開發(fā)過程中,團(tuán)隊(duì)首先把MedSigLIP訓(xùn)了出來,作為醫(yī)學(xué)優(yōu)化圖像編碼器。

然后在醫(yī)學(xué)數(shù)據(jù)上訓(xùn)練了4B和27B版本的Gemma 3模型。

通過訓(xùn)練流程解耦,Gemma 3很好地保留了通用能力。MedGemma在融合醫(yī)學(xué)與非醫(yī)學(xué)信息、遵循指令、支持非英文語言等任務(wù)上依然表現(xiàn)良好。


單獨(dú)訓(xùn)出來的MedSigLIP是一款僅 4 億參數(shù)的輕量醫(yī)學(xué)圖像編碼器,采用Sigmoid損失的SigLIP架構(gòu),如下圖所示。


它的訓(xùn)練是通過胸片、病理切片、皮膚病圖像與眼底圖像等多樣醫(yī)學(xué)圖像數(shù)據(jù)調(diào)優(yōu)完成的。

MedSigLIP的核心目標(biāo)是,將醫(yī)學(xué)圖像與文本編碼為「同一語義空間嵌入向量」。

它在多種醫(yī)學(xué)圖像任務(wù)中的分類效果可媲美專用模型,同時(shí)通用性也不拜下風(fēng),完美勝任傳統(tǒng)圖像分類、零樣本分類、檢索等任務(wù)。

Gemma路線大升級(jí)

Google開源吹響反攻號(hào)角

Google這波開源一舉把「反攻號(hào)角」吹到了醫(yī)療AI最前線。

無論是圖文融合的MedSigLIP,還是醫(yī)療多語種全能選手MedGemma,全都以safetensors格式上線Hugging Face,直接拉低使用門檻。


開發(fā)者可以一鍵下載、靈活部署,還能在本地或自定義云平臺(tái)完成推理與微調(diào),隱私合規(guī)和數(shù)據(jù)安全輕松搞定。

不少醫(yī)療機(jī)構(gòu)已經(jīng)驗(yàn)證了Med系列醫(yī)療AI「開源雙子星」的有效性。

例如,美國(guó)DeepHealth已開始使用 MedSigLIP 優(yōu)化胸片分診與結(jié)節(jié)檢測(cè);臺(tái)灣長(zhǎng)庚紀(jì)念醫(yī)院稱MedGemma能很好理解繁體中文醫(yī)學(xué)文獻(xiàn),并有效回應(yīng)醫(yī)護(hù)問題。

對(duì)于醫(yī)療機(jī)構(gòu)的不同需求,Google還給出了對(duì)應(yīng)的模型選擇建議。


Hugging Face上已經(jīng)提供了32個(gè)版本的T5Gemma全家桶。

用戶可以根據(jù)推理速度、內(nèi)存預(yù)算、精度等個(gè)性化需求,自由選擇模型型號(hào),也可以選擇預(yù)訓(xùn)練版、指令微調(diào)版、RLHF版,或基于不同目標(biāo)(PrefixLM / UL2)訓(xùn)練的各種變體。


不止如此,Google還貼心給出全套使用手冊(cè)、Colab示例和Vertex AI部署方案,從下載到上線一路暢通,開發(fā)效率直接拉滿。

Gemma路線已經(jīng)從「架構(gòu)革新」延伸到「產(chǎn)業(yè)落地」。

Google這波上場(chǎng)更新,不止打破了閉源神話,更是為整個(gè)AI社區(qū)作出了「工具+自由+性能」的表率。

從T5Gemma到MedGemma,世界級(jí)開源模型已來,接下來,是開發(fā)者的上場(chǎng)。

參考資料:

https://developers.googleblog.com/en/t5gemma/

https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

https://x.com/_philschmid/status/1943013171389780341


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
44.2℃!河南真的熱“炸”了!居民家中玻璃裂成“蜘蛛網(wǎng)”,農(nóng)莊5只大鵝熱死在水塘

44.2℃!河南真的熱“炸”了!居民家中玻璃裂成“蜘蛛網(wǎng)”,農(nóng)莊5只大鵝熱死在水塘

極目新聞
2025-07-15 20:58:41
誰多誰少 鹽城牛皮 越窮越折騰嗎 江蘇13市罰沒收入兩年對(duì)比 1升12降

誰多誰少 鹽城牛皮 越窮越折騰嗎 江蘇13市罰沒收入兩年對(duì)比 1升12降

奇思妙想生活家
2025-07-14 16:06:47
遺產(chǎn)爭(zhēng)奪戰(zhàn)再升級(jí)!娃哈哈老員工曝更多內(nèi)幕,私生子只是冰山一角

遺產(chǎn)爭(zhēng)奪戰(zhàn)再升級(jí)!娃哈哈老員工曝更多內(nèi)幕,私生子只是冰山一角

曉林說娛
2025-07-15 13:54:43
特朗普50天最后通牒已下,俄專家:我們不怕,他也不敢得罪死中印

特朗普50天最后通牒已下,俄專家:我們不怕,他也不敢得罪死中印

掌青說歷史
2025-07-15 09:49:52
長(zhǎng)沙警方通報(bào)“男子砸記者采訪設(shè)備”:刑拘

長(zhǎng)沙警方通報(bào)“男子砸記者采訪設(shè)備”:刑拘

界面新聞
2025-07-15 23:41:53
萬億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

萬億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

楓冷慕詩
2025-07-15 12:34:17
百萬粉網(wǎng)紅張教官塌房,長(zhǎng)城汽車實(shí)錘!

百萬粉網(wǎng)紅張教官塌房,長(zhǎng)城汽車實(shí)錘!

TOP電商
2025-07-15 18:22:51
美財(cái)長(zhǎng)最新放風(fēng):無需擔(dān)憂美中暫停加征部分關(guān)稅截止日期,雙方談判“態(tài)勢(shì)良好”

美財(cái)長(zhǎng)最新放風(fēng):無需擔(dān)憂美中暫停加征部分關(guān)稅截止日期,雙方談判“態(tài)勢(shì)良好”

環(huán)球網(wǎng)資訊
2025-07-15 23:27:09
秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

寒士之言本尊
2025-07-15 19:10:18
董璇自曝再婚了!二婚老公被扒是張維伊,兩人6月在老家領(lǐng)證結(jié)婚

董璇自曝再婚了!二婚老公被扒是張維伊,兩人6月在老家領(lǐng)證結(jié)婚

萌神木木
2025-07-15 16:04:13
不經(jīng)意間,網(wǎng)友們又發(fā)現(xiàn)了三組秘密

不經(jīng)意間,網(wǎng)友們又發(fā)現(xiàn)了三組秘密

清暉有墨
2025-07-15 14:08:59
宗馥莉私生子DNA鑒定結(jié)果出爐,勝算高

宗馥莉私生子DNA鑒定結(jié)果出爐,勝算高

李摻窮游天下
2025-07-15 19:53:28
三名“私生子”已申請(qǐng)鑒定,宗馥莉用三字表明態(tài)度,恐怕是一場(chǎng)空

三名“私生子”已申請(qǐng)鑒定,宗馥莉用三字表明態(tài)度,恐怕是一場(chǎng)空

奇思妙想草葉君
2025-07-16 01:53:42
美國(guó)電臺(tái)主持人確認(rèn):楊瀚森原本會(huì)在首輪17順位被選中!

美國(guó)電臺(tái)主持人確認(rèn):楊瀚森原本會(huì)在首輪17順位被選中!

愛體育
2025-07-15 23:30:18
宗馥莉后,「江浙滬獨(dú)生女」的夢(mèng)該幻滅了

宗馥莉后,「江浙滬獨(dú)生女」的夢(mèng)該幻滅了

蛙蛙和洼
2025-07-15 18:22:04
文班:在少林寺每天要做1000多次踢腿拉伸,這次修行讓我成長(zhǎng)很多

文班:在少林寺每天要做1000多次踢腿拉伸,這次修行讓我成長(zhǎng)很多

雷速體育
2025-07-15 19:11:09
兩位單身陪讀媽媽,為引導(dǎo)青春期兒子,達(dá)成了瘋狂而齷齪的決定

兩位單身陪讀媽媽,為引導(dǎo)青春期兒子,達(dá)成了瘋狂而齷齪的決定

金花食雜店秘聞
2025-07-13 15:49:58
澳大利亞放水失敗,送日本決戰(zhàn)中國(guó)!2米26張子宇,首次考驗(yàn)來了

澳大利亞放水失敗,送日本決戰(zhàn)中國(guó)!2米26張子宇,首次考驗(yàn)來了

嘴炮體壇
2025-07-15 20:24:02
日本1-0韓國(guó)!衛(wèi)冕東亞杯+3次奪冠超國(guó)足,30歲混血射手5球奪金靴

日本1-0韓國(guó)!衛(wèi)冕東亞杯+3次奪冠超國(guó)足,30歲混血射手5球奪金靴

我愛英超
2025-07-15 20:23:16
中國(guó)香港隊(duì)主帥:中國(guó)隊(duì)最后時(shí)刻故意拖時(shí)間 不確定是否被公平對(duì)待

中國(guó)香港隊(duì)主帥:中國(guó)隊(duì)最后時(shí)刻故意拖時(shí)間 不確定是否被公平對(duì)待

直播吧
2025-07-15 17:30:05
2025-07-16 07:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13068文章數(shù) 66094關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)H20解禁,黃仁勛嚇壞平替?

頭條要聞

娃哈哈老員工:"影子夫人"和宗慶后05年在美國(guó)領(lǐng)證

頭條要聞

娃哈哈老員工:"影子夫人"和宗慶后05年在美國(guó)領(lǐng)證

體育要聞

在中國(guó)效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財(cái)經(jīng)要聞

國(guó)貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內(nèi)飾亮相

態(tài)度原創(chuàng)

數(shù)碼
本地
時(shí)尚
健康
公開課

數(shù)碼要聞

Apple大中華區(qū)董事總經(jīng)理葛越:教育是Apple回饋社區(qū)工作的重中之重

本地新聞

褲子那里鼓鼓的,當(dāng)代都市麗人都被女裝做局了

7次拒絕潛規(guī)則!萬茜的逆襲之路,給內(nèi)娛上了一課!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 松溪县| 剑阁县| 滨州市| 玉田县| 福建省| 射洪县| 禹州市| 胶州市| 枣庄市| 承德市| 手游| 察隅县| 西吉县| 广平县| 南投市| 凯里市| 英德市| 九江县| 泊头市| 阳春市| 赣榆县| 遵化市| 晋宁县| 东安县| 大连市| 兴海县| 大冶市| 喀喇沁旗| 富川| 巧家县| 东山县| 乌什县| 团风县| 鄂伦春自治旗| 固安县| 巧家县| 东乌珠穆沁旗| 黄浦区| 海原县| 大名县| 睢宁县|