99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ETT:打破原生多模態學習視覺瓶頸,重塑視覺tokenizer優化范式

0
分享至



本文由北京智源研究院多模態大模型研究中心(團隊負責人王鑫龍,團隊代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自動化所和大連理工大學聯合完成。

在多模態學習蓬勃發展的當下,視覺 tokenizer 作為連接視覺信息與下游任務的關鍵橋梁,其性能優劣直接決定了多模態模型的表現。然而,傳統的視覺tokenization方法存在一個致命缺陷:視覺 tokenizer 的優化與下游任務的訓練是相互割裂的。

這種分離式的訓練范式假設視覺 tokens 能夠在不同任務間無縫通用,但現實情況是,為低級重建任務優化的視覺 tokenizer 往往難以滿足諸如圖像生成、視覺問答等需要豐富語義表示的下游任務需求,導致下游任務的性能受限。

針對這一亟待解決的問題,我們提出了 ETT(End-to-End Vision Tokenizer Tuning),一種全新的端到端視覺 tokenizer 調優方法。



  • 論文標題:End-to-End Vision Tokenizer Tuning
  • arXiv 鏈接:https://arxiv.org/abs/2505.10562

ETT 創新性地實現了視覺 tokenization 與目標自回歸任務的聯合優化,打破了傳統方法中視覺 tokenizer 一旦訓練完成便固定的常規,充分釋放了視覺 tokenizer 在多模態學習中的潛力,為多模態任務帶來了顯著的性能提升。

傳統方法的局限與 ETT 的突破

在現有的多模態預訓練框架中,如 Emu3 等工作,雖然通過將圖像、文本等多模態數據編碼為離散 tokens 實現了統一的序列建模,但在實際操作中,這些方法僅僅利用了凍結的視覺 tokenizer 的離散索引,這不僅極大地浪費了視覺 tokenizer 的豐富特征表示能力,還阻礙了端到端訓練的實現,使得視覺 tokenizer 無法根據下游任務的具體需求進行針對性優化。

ETT 的出現徹底改變了這一局面。我們巧妙地引入視覺 tokenizer 的碼本嵌入,取代了以往僅使用離散索引的方式,并結合 token 級別的字幕損失函數,對視覺 tokenizer 和下游任務進行聯合優化。這樣一來,ETT 不僅能夠充分利用視覺 tokenizer 內部的豐富特征表示,還能讓視覺 tokenizer 根據下游任務的反饋不斷調整自身參數,從而更好地適應多模態理解與生成任務的需求。



ETT 的核心架構與訓練策略

ETT 的核心架構基于改進的 IBQ 框架。我們通過精心調整碼本大小至 131,072 并將特征維度設置為 256,成功構建了一個高效的視覺 tokenizer。

在訓練初期,我們利用編碼器將輸入圖像映射到特征空間,經量化器將特征映射到離散碼本后,再由解碼器重建圖像,這一過程奠定了視覺 tokenizer 的基礎重構能力。我們還引入了多層感知機作為投影層,將視覺嵌入與預訓練大型語言模型的隱藏層維度相匹配,從而實現視覺信息到語言模型的有效映射。

ETT 的訓練策略層次分明且重點突出。前期對齊學習階段,我們在保持預訓練的大型語言模型和視覺 tokenizer 參數凍結的狀態下,僅訓練視覺投影層,利用圖像到文本的 caption 損失函數,使語言模型能夠從視覺 tokenizer 中直接獲取視覺概念和實體,從而建立起視覺與語言模態之間的初步聯系。

緊接著,在語義學習階段,我們解凍大型語言模型、投影層以及視覺 tokenizer 的權重,通過聯合優化 caption 損失函數和重建損失函數,對它們進行端到端的訓練,使視覺 tokenizer 能夠在保持圖像重建能力的同時,學習到更強大的感知能力,以支持多模態理解和重建任務。

第二階段是 ETT 方法的核心創新,讓視覺 tokenizer 得以根據下游任務需求深度調優,大幅提升其感知和表征能力。最后是后訓練階段,我們進一步對兩個專業模型進行微調,以增強其在特定多模態任務中的表現。



ETT 的卓越性能表現

多模態理解

ETT 在多模態理解任務中展現出了卓越的性能。在 GQA、TextVQA等特定任務評估,以及 POPE、MME、MMBench、SEED-Bench、MMVet 等廣泛基準測試中均取得了優異成績,與現有最先進的視覺語言模型相比,在模型參數和數據規模更小的情況下,依然能夠取得更好的或具有競爭力的結果。

例如,在 MMBench 多模態理解基準測試中,ETT 的性能表現與連續編碼器基礎的視覺語言模型相當,甚至在某些子任務上更勝一籌,而無需額外的復雜視覺編碼器。這表明 ETT 通過端到端的視覺 tokenization 訓練方法,在減少計算開銷的同時,簡化了模型架構,并有效提升了多模態理解能力。



多模態生成

在視覺生成任務中,ETT 同樣表現出色。在 GenEval 和 T2I-CompBench 等廣泛使用的文本到圖像生成基準數據集上,ETT 實現了與其他最先進的基于擴散模型和自回歸模型的方法相媲美的性能,同時在模型參數和訓練數據規模上更具優勢。特別是在 T2I-CompBench 數據集的顏色、形狀和紋理模式等子任務上,ETT 取得了令人滿意的成績,充分證明了其在文本到圖像生成任務中的強大能力。



此外,ETT 在定性結果方面也展現出了其優勢。通過生成的圖像樣本可以看出,ETT 能夠準確地遵循文本提示,生成風格多樣、細節豐富的視覺內容,涵蓋了不同的藝術風格、主題和背景,并能夠適應不同的構圖結構和審美偏好。



視覺重構

ETT 在視覺重構任務中的表現同樣令人矚目。通過對比引入 ETT 前后的視覺重構結果,我們可以看到,ETT 不僅保留了原始視覺 tokenizer 的豐富低級細節表示,還有效提升了高級語義表示能力。



如上圖所示,經過 ETT 調優后的視覺 tokenizer 在保留原始視覺細節的同時,顯著提升了特定方面的表現,例如文本渲染效果更好。這表明 ETT 能夠在保持圖像重建質量的同時,增強視覺 tokenizer 的語義表達能力,為進一步的多模態任務提供更優質的視覺表示。

ETT 的潛在局限與未來發展

盡管 ETT 在多模態任務中取得了顯著的性能提升,但我們也意識到當前方法存在一定的局限性。

首先,ETT 的端到端微調所使用的數據規模和模型容量仍有進一步擴大的潛力,以進一步提升視覺表示質量和下游任務性能。其次,ETT 主要側重于利用大型語言模型的語義能力優化現有視覺 tokenizer 的視覺特征,而非從頭開始設計一個同時適用于理解和生成的視覺 tokenizer。

未來,我們計劃探索從頭開始端到端訓練視覺 tokenizer,以創建一個更全面、更適應多模態任務的表示方法。此外,將 ETT 的方法擴展到圖像和文本之外的其他模態,如視頻和音頻,也是一個令人興奮的研究方向。

總的來說,ETT 作為一種簡單而有效的端到端視覺 tokenizer 調優方法,易于實現和集成,為原生多模態學習領域帶來了新的突破。通過優化視覺 tokenizer 的特征表示,ETT 為提升多模態模型的性能提供了新的思路和方法,有望推動多模態基礎模型在更廣泛的領域的應用和發展。我們期待 ETT 的出現能夠激發更多關于視覺 tokenization 和多模態學習的研究,共同探索這一充滿潛力的領域。

作者介紹

王文軒,中科院自動化所-北京智源研究院聯培博士,研究方向為視覺語言模型、多模態理解生成等,在 ICLR、CVPR、ECCV、ACL 等頂級會議上發表過多篇論文;

張帆、崔玉峰,智源研究院研究員,研究方向為原生多模態模型、視覺生成等,Emu 系列工作核心作者;

刁海文,大連理工大學博士,研究方向包括大模型高效遷移、多模態基座大模型等,在 NeurIPS、ICLR、CVPR、ECCV 等頂級會議上發表過多篇論文;

羅卓彥,清華大學碩士,研究方向為視覺生成等,在 NeurIPS、CVPR 等頂級會議上發表過論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
尋親圈風向變了,曾經是團寵的孫卓,如今被罵嘴歪眼斜

尋親圈風向變了,曾經是團寵的孫卓,如今被罵嘴歪眼斜

阿廢冷眼觀察所
2025-05-28 03:52:47
中國輸巴西,痛失29年世乒賽舉辦權!遭遇4項損失,王勵勤虧大了

中國輸巴西,痛失29年世乒賽舉辦權!遭遇4項損失,王勵勤虧大了

嘴炮體壇
2025-05-28 01:12:57
美媒:兩名美國特勤局女警官被拍到在奧巴馬住所前發生肢體沖突,涉事警官被停職

美媒:兩名美國特勤局女警官被拍到在奧巴馬住所前發生肢體沖突,涉事警官被停職

環球網資訊
2025-05-28 10:25:12
深夜,美股跳水!現貨黃金短線走低

深夜,美股跳水!現貨黃金短線走低

第一財經資訊
2025-05-29 00:58:19
爺爺臨終前把存款都給了我,讓我別告訴爸媽,一年后我:爺爺英明

爺爺臨終前把存款都給了我,讓我別告訴爸媽,一年后我:爺爺英明

澤澤先生
2025-05-26 13:56:17
剛剛,昆明市氣象臺發布暴雨Ⅲ級預警!

剛剛,昆明市氣象臺發布暴雨Ⅲ級預警!

開屏新聞客戶端
2025-05-28 22:56:57
綠地現重要人事變動 董事長張玉良再度連任

綠地現重要人事變動 董事長張玉良再度連任

中國房地產報官方號
2025-05-28 18:01:15
外交部答澎湃:中方已實現對海合會國家免簽全覆蓋

外交部答澎湃:中方已實現對海合會國家免簽全覆蓋

澎湃新聞
2025-05-28 15:24:32
寧波一棟獨棟別墅降價第二次拍賣,10報名,1150萬成交

寧波一棟獨棟別墅降價第二次拍賣,10報名,1150萬成交

天天話事
2025-05-27 15:57:04
河南商丘設“企業寧靜日”:每月1日—20日,一般不得進入企業執法

河南商丘設“企業寧靜日”:每月1日—20日,一般不得進入企業執法

每日經濟新聞
2023-07-14 15:47:15
太無語,這群大媽究竟有多貪心,一盆糯米就讓人看得清清楚楚。

太無語,這群大媽究竟有多貪心,一盆糯米就讓人看得清清楚楚。

史書無明
2025-05-28 21:28:00
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
亞朵,擠滿了偷偷開房的中年女人

亞朵,擠滿了偷偷開房的中年女人

快刀財經
2025-05-20 22:21:25
女子一天送66單外賣后去世,法醫尸檢后驚呼:不是累死的!

女子一天送66單外賣后去世,法醫尸檢后驚呼:不是累死的!

懸案解密檔案
2025-05-23 09:34:33
“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

“火箭軍女神”李莉:因多次預判美軍陰謀,被美國列入制裁黑名單

跳跳歷史
2025-05-14 10:24:39
年薪600萬歐&不想回巴薩!記者:朗格萊想留馬競只能和巴薩解約

年薪600萬歐&不想回巴薩!記者:朗格萊想留馬競只能和巴薩解約

直播吧
2025-05-28 23:54:18
一次又一次挑戰底線,終于引起公憤了!

一次又一次挑戰底線,終于引起公憤了!

末名先生
2025-05-22 16:07:40
好消息!“一車一人一號”新規來了,不要考駕照,解決出行難題

好消息!“一車一人一號”新規來了,不要考駕照,解決出行難題

電動車小辣椒
2025-05-26 07:06:24
2場輸了31分,無奈吞下2連敗,鞏曉彬復出也枉然,山東輸得真難看

2場輸了31分,無奈吞下2連敗,鞏曉彬復出也枉然,山東輸得真難看

萌蘭聊個球
2025-05-28 22:01:30
陜西高二女生操場生子,調查后發現,孩子父親身份令人傻眼

陜西高二女生操場生子,調查后發現,孩子父親身份令人傻眼

青絲人生
2023-11-30 18:09:24
2025-05-29 05:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10547文章數 142325關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

家居
房產
時尚
公開課
軍事航空

家居要聞

開闊實用 技術控的大平層

房產要聞

看完這份數據,你應該對海南樓市有信心!

“背心+半裙”今年夏天爆火!這樣穿時髦又減齡

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏均稱遭對方大規模無人機襲擊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浦城县| 安乡县| 太康县| 诏安县| 临安市| 中江县| 江川县| 绥滨县| 衡阳县| 九龙坡区| 左贡县| 历史| 长沙市| 城步| 汉寿县| 墨竹工卡县| 繁昌县| 彩票| 宣汉县| 荔浦县| 大兴区| 乌兰察布市| 叶城县| 博白县| 绿春县| 巫山县| 长沙市| 密山市| 洛扎县| 武义县| 二连浩特市| 鲁甸县| 钟祥市| 普兰店市| 呼伦贝尔市| 玉龙| 江北区| 靖安县| 任丘市| 康马县| 城市|