99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

編碼器-解碼器架構的復興?谷歌一口氣發布32個T5Gemma模型

0
分享至



機器之心報道

編輯:Panda

今天是 xAI 的大日子,伊隆?馬斯克早早就宣布了會在今天發布 Grok 4 大模型,AI 社區的眼球也已經向其聚攏,就等著看他的直播(等了挺久)。當然,考慮到 Grok 這些天的「失控」表現,自然也有不少人是在等著看笑話。

盡管如此,谷歌似乎也并不在意被奪走的目光,接連對 Gemma 系列模型進行了更新。

首先,谷歌發布了一系列用于健康 AI 開發的多模態模型MedGemma,其中包含 4B 和 27B 兩個大小的幾個不同模型:MedGemma 4B Multimodal、MedGemma 27B Text 和 MedGemma 27B Multimodal。

該系列模型能夠根據醫療圖像和文本描述輔助診斷并提供醫療建議,整體表現也是相當不錯。



Hugging Face:https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4

而本文的重點并不是它,而是谷歌今天發布的編碼器-解碼器架構的 Gemma 系列模型:T5Gemma



從名字也能看出來,這個 Gemma 系列模型與 T5(The Text-to-Text Transfer Transformer)模型關系密切。而 T5 模型實際上就是編碼器-解碼器(encoder-decoder)架構的模型,并不同于目前主流的僅解碼器(decoder-only)架構。

當然,雖然僅解碼器架構是目前 LLM 的主流,但實際上,編碼器-解碼器憑借高推理效率、設計靈活性以及更豐富的編碼器表征,在某些實際任務中其實非常好用,比如摘要、翻譯、問答等。

似乎正因為此,谷歌一直沒有放棄編碼器-解碼器架構,T5Gemma 便是其最新成果。

具體來說,T5Gemma 使用了一種名為「適應(adaptation)」的技術來將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構。

T5Gemma 基于 Gemma 2 框架,包含經過適應的 Gemma 2 2B 和 9B 模型,以及一組全新訓練的 T5 尺寸模型(Small、Base、Large 和 XL)。另外還包含預訓練和指令微調模型的多種變體版本。此外,T5Gemma 還提供了多種大小的編碼器與解碼器配置。不僅如此,谷歌還發布了使用 PrefixLM 或 UL2 這兩個不同目標訓練的模型。

總的算下來,谷歌這一次就發布了32個不同的 T5Gemma 模型。



  • Hugging Face:https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86
  • Kaggle:https://www.kaggle.com/models/google/t5gemma

雖然熱度遠不及 Grok 4,但 T5Gemma 依然備受好評:



有人更是認為它是「LLM 時代編碼器-解碼器模型的強勢回歸」。



不過也有人吐嘈模型太多,讓人不知道怎么選。



從僅解碼器到編碼器-解碼器

對于 T5Gemma,谷歌研究的問題是:能否基于經過預訓練的僅解碼器模型構建頂級編碼器-解碼器模型?

谷歌為此探索了上述的適應技術,其核心思想是使用已預訓練的僅解碼器模型的權重來初始化編碼器-解碼器模型的參數,然后通過基于 UL2 或 PrefixLM 的預訓練進一步調整這些參數。



方法概況,展示了如何使用經過預訓練的僅解碼器模型的參數初始化新的編碼器-解碼器模型。

這種適應方法高度靈活,并且支持組合不同大小的模型。例如,可以將大型編碼器與小型解碼器(例如,9B 編碼器與 2B 解碼器)配對,創建一個「不平衡」模型。

如此一來,便可以針對具體任務權衡地選擇質量與效率,比如在摘要任務中,對輸入的深度理解比生成輸出的復雜性更為重要。

實際上,谷歌已經在今年 4 月份發布了關于適應技術的論文



  • 論文標題:Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation
  • 論文地址:https://arxiv.org/pdf/2504.06225

T5Gemma 的表現如何?

在谷歌的實驗中,T5Gemma 模型的性能與僅解碼器的 Gemma 模型相當,甚至更勝一籌,在多個基準測試(例如用于衡量所學習到的表征質量的 SuperGLUE)中,T5Gemma 幾乎主導了質量-推理效率的帕累托邊界。



在給定的推理計算水平下,編碼器-解碼器模型始終能提供更佳性能,并且在一系列基準測試中引領質量-效率邊界。

這種性能優勢并非僅限于理論層面,它也能轉化為實際的質量和速度。在測量在 GSM8K(數學推理任務)上的實際延遲時,T5Gemma 取得了顯著優勢。

例如,T5Gemma 9B-9B 的準確度高于 Gemma 2 9B,但延遲時間相似。更驚人是,T5Gemma 9B-2B 的準確度顯著高于 2B-2B 模型,但其延遲時間幾乎與規模小得多的 Gemma 2 2B 模型相同。

總體而言,這些實驗表明,編碼器-解碼器適應確實是一種靈活而強大的方法,可以更好地平衡質量和推理速度。

編碼器-解碼器模型能否獲得與僅解碼器模型類似的能力?

谷歌的答案是:可以!

T5Gemma 在指令微調前后都表現優良。

經過預訓練后,T5Gemma 在需要推理的復雜任務上取得了亮眼的進步。

例如,T5Gemma 9B-9B 在 GSM8K 上的得分比 Gemma 2 9B 模型高出 9 分以上,在 DROP(閱讀理解任務)上的得分比 Gemma 2 9B 模型高出 4 分。這表明,通過適應初始化的編碼器 - 解碼器架構有潛力創建更強大、性能更佳的基礎模型。



經過微調的 T5Gemma 模型在多個推理密集型基準測試上相比僅解碼器的 Gemma 2 取得了顯著提升。

這些預訓練帶來的基礎性改進奠定了基礎,支撐起指令微調后更顯著的提升。

例如,如果對比 Gemma 2 IT 與 T5Gemma IT,可以看到性能差距全面顯著擴大。T5Gemma 2B-2B IT 的 MMLU 得分比 Gemma 2 2B 提高了近 12 分,其 GSM8K 得分也從 58.0% 提升至 70.7%。看起來,經過適應后的架構不僅可能提供更好的起點,而且還能更有效地響應指令微調。最終構建出一個功能更強大、更實用的最終模型。



經過微調 + RLHF 后的模型的詳細結果,表明后訓練可以顯著提升編碼器-解碼器架構的性能。

你認為 T5Gemma 能帶來編碼器-解碼器模型的復興嗎?

https://developers.googleblog.com/en/t5gemma/

https://x.com/googleaidevs/status/1942977474339496208

https://research.google/blog/medgemma-our-most-capable-open-models-for-health-ai-development/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
三德子趙亮公開得7年重度抑郁癥,一只雞賺3毛,還虧1500萬沒回本

三德子趙亮公開得7年重度抑郁癥,一只雞賺3毛,還虧1500萬沒回本

尋墨閣
2025-07-10 15:51:19
1942年,預備10師爆冷擊敗日軍王牌師團,所有團師長全部晉升

1942年,預備10師爆冷擊敗日軍王牌師團,所有團師長全部晉升

豆包史館
2025-07-02 14:05:09
我們抽干了伊拉克的油,也抽干了它的希望,一個90后外派中東的真實經歷

我們抽干了伊拉克的油,也抽干了它的希望,一個90后外派中東的真實經歷

駐外之家
2025-07-05 14:38:38
深入中國腹地,獵殺東風-26眼中釘?美軍新戰術已經走了兩步

深入中國腹地,獵殺東風-26眼中釘?美軍新戰術已經走了兩步

一個有靈魂的作者
2025-07-10 09:09:30
80萬鉆戒借表姐結婚,第二天卻說被偷了,我微笑說是塑料的,她愣了

80萬鉆戒借表姐結婚,第二天卻說被偷了,我微笑說是塑料的,她愣了

眼淚博物
2025-07-08 17:36:15
特朗普稱將對未接到關稅函的國家征收15%或20%“統一關稅”

特朗普稱將對未接到關稅函的國家征收15%或20%“統一關稅”

澎湃新聞
2025-07-11 10:01:02
1-3爆冷淘汰4小時后,孫穎莎首度回應單打失利,直面失敗不找借口

1-3爆冷淘汰4小時后,孫穎莎首度回應單打失利,直面失敗不找借口

二哥聊球
2025-07-11 14:08:43
發現很多驚人相似點:扒一扒俄烏戰爭投下反對票的5個國家

發現很多驚人相似點:扒一扒俄烏戰爭投下反對票的5個國家

林子說事
2025-07-11 10:01:37
李小璐沒想到,二胎風波越鬧越大后,13歲的女兒甜馨為自己撐腰了

李小璐沒想到,二胎風波越鬧越大后,13歲的女兒甜馨為自己撐腰了

大笑江湖史
2025-07-10 11:54:08
楊少華出殯現場曝光,四人抬棺,多輛豪車送別,非常氣派

楊少華出殯現場曝光,四人抬棺,多輛豪車送別,非常氣派

史書無明
2025-07-11 10:28:46
養老金漲2%?別慌!手把手教你算,笑到錢包鼓起來!

養老金漲2%?別慌!手把手教你算,笑到錢包鼓起來!

水泥土的搞笑
2025-07-11 10:20:09
養兒真能防老嗎?94歲楊少華告別儀式,惡心的一幕出現了

養兒真能防老嗎?94歲楊少華告別儀式,惡心的一幕出現了

木子愛娛樂大號
2025-07-10 20:53:58
曹格17歲兒子戀愛,曬妹妹與女友合照,女友長著一張知性臉很漂亮

曹格17歲兒子戀愛,曬妹妹與女友合照,女友長著一張知性臉很漂亮

八怪娛
2025-07-11 09:10:20
楊少華葬禮場面宏大!長子楊威扛幡,楊議手捧骨灰盒,紅色棺木

楊少華葬禮場面宏大!長子楊威扛幡,楊議手捧骨灰盒,紅色棺木

180視角
2025-07-11 10:48:06
有了朝鮮援兵還不夠,俄羅斯再次瞄上了中國鄰國?中方須警惕起來

有了朝鮮援兵還不夠,俄羅斯再次瞄上了中國鄰國?中方須警惕起來

肖茲探秘說
2025-07-11 13:12:42
美國辣醬巨頭:年入450億,潛伏我國30年,至今仍被誤認是國貨

美國辣醬巨頭:年入450億,潛伏我國30年,至今仍被誤認是國貨

古史青云啊
2025-06-15 21:05:07
捷克之星,三次獲得 AVN 獎年度最佳的Little Caprice

捷克之星,三次獲得 AVN 獎年度最佳的Little Caprice

吃瓜黨二號頭目
2025-07-11 12:05:10
皇馬慘敗大巴黎高層震怒,各自為戰,姆巴佩和維尼修斯必走一人

皇馬慘敗大巴黎高層震怒,各自為戰,姆巴佩和維尼修斯必走一人

姜大叔侃球
2025-07-11 13:50:11
今年閏六月不一般,老人說“一年兩六月,三伏不見天”,伏天熱嗎

今年閏六月不一般,老人說“一年兩六月,三伏不見天”,伏天熱嗎

小談食刻美食
2025-07-10 10:25:16
周五,A股為何突然加速上漲?原因有三點!

周五,A股為何突然加速上漲?原因有三點!

明心
2025-07-11 11:19:15
2025-07-11 14:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10839文章數 142365關注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

男生因室友電動車燃爆全身90%燒傷 治療花了290萬元

頭條要聞

男生因室友電動車燃爆全身90%燒傷 治療花了290萬元

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

楊少華靈堂細節 楊家兒子榨干老父親?

財經要聞

"它經濟"崛起 國產品牌快速追趕國際巨頭

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態度原創

教育
時尚
房產
數碼
軍事航空

教育要聞

六年級思考題:無一人答對!添加符號444=17

裙子專場|| 如果夏天只買一條裙,我毫不猶豫會選它(已下單)

房產要聞

重磅!招商+平安出手,拿下海南440畝灣區大盤!

數碼要聞

慧榮首次曝光 PCIe 6.0 企業級 SSD 主控 SM8466,順序讀 28GB/s

軍事要聞

俄羅斯對烏克蘭發動最大規模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 方正县| 中宁县| 阳山县| 敦煌市| 安远县| 伊宁县| 青神县| 玉溪市| 夏津县| 仁寿县| 丰顺县| 夹江县| 若羌县| 图们市| 八宿县| 十堰市| 固原市| 迁安市| 山东| 文成县| 莱州市| 东山县| 青阳县| 建阳市| 皮山县| 安多县| 洪雅县| 卢湾区| 深州市| 灵寿县| 临潭县| 双桥区| 新津县| 宜良县| 新丰县| 亳州市| 姚安县| 民权县| 榆树市| 绥德县| 营山县|