網易首頁 > 網易號 > 正文申請入駐

ETT：打破原生多模態學習視覺瓶頸，重塑視覺tokenizer優化范式

2025-05-27 17:52:38　來源: 機器之心Pro

天津舉報

分享至

本文由北京智源研究院多模態大模型研究中心（團隊負責人王鑫龍，團隊代表作 EMU 系列、EVA 系列、Painter & SegGPT）、中科院自動化所和大連理工大學聯合完成。

在多模態學習蓬勃發展的當下，視覺 tokenizer 作為連接視覺信息與下游任務的關鍵橋梁，其性能優劣直接決定了多模態模型的表現。然而，傳統的視覺tokenization方法存在一個致命缺陷：視覺 tokenizer 的優化與下游任務的訓練是相互割裂的。

這種分離式的訓練范式假設視覺 tokens 能夠在不同任務間無縫通用，但現實情況是，為低級重建任務優化的視覺 tokenizer 往往難以滿足諸如圖像生成、視覺問答等需要豐富語義表示的下游任務需求，導致下游任務的性能受限。

針對這一亟待解決的問題，我們提出了 ETT（End-to-End Vision Tokenizer Tuning），一種全新的端到端視覺 tokenizer 調優方法。

論文標題：End-to-End Vision Tokenizer Tuning
arXiv 鏈接：https://arxiv.org/abs/2505.10562

ETT 創新性地實現了視覺 tokenization 與目標自回歸任務的聯合優化，打破了傳統方法中視覺 tokenizer 一旦訓練完成便固定的常規，充分釋放了視覺 tokenizer 在多模態學習中的潛力，為多模態任務帶來了顯著的性能提升。

傳統方法的局限與 ETT 的突破

在現有的多模態預訓練框架中，如 Emu3 等工作，雖然通過將圖像、文本等多模態數據編碼為離散 tokens 實現了統一的序列建模，但在實際操作中，這些方法僅僅利用了凍結的視覺 tokenizer 的離散索引，這不僅極大地浪費了視覺 tokenizer 的豐富特征表示能力，還阻礙了端到端訓練的實現，使得視覺 tokenizer 無法根據下游任務的具體需求進行針對性優化。

ETT 的出現徹底改變了這一局面。我們巧妙地引入視覺 tokenizer 的碼本嵌入，取代了以往僅使用離散索引的方式，并結合 token 級別的字幕損失函數，對視覺 tokenizer 和下游任務進行聯合優化。這樣一來，ETT 不僅能夠充分利用視覺 tokenizer 內部的豐富特征表示，還能讓視覺 tokenizer 根據下游任務的反饋不斷調整自身參數，從而更好地適應多模態理解與生成任務的需求。

ETT 的核心架構與訓練策略

ETT 的核心架構基于改進的 IBQ 框架。我們通過精心調整碼本大小至 131,072 并將特征維度設置為 256，成功構建了一個高效的視覺 tokenizer。

在訓練初期，我們利用編碼器將輸入圖像映射到特征空間，經量化器將特征映射到離散碼本后，再由解碼器重建圖像，這一過程奠定了視覺 tokenizer 的基礎重構能力。我們還引入了多層感知機作為投影層，將視覺嵌入與預訓練大型語言模型的隱藏層維度相匹配，從而實現視覺信息到語言模型的有效映射。

ETT 的訓練策略層次分明且重點突出。前期對齊學習階段，我們在保持預訓練的大型語言模型和視覺 tokenizer 參數凍結的狀態下，僅訓練視覺投影層，利用圖像到文本的 caption 損失函數，使語言模型能夠從視覺 tokenizer 中直接獲取視覺概念和實體，從而建立起視覺與語言模態之間的初步聯系。

緊接著，在語義學習階段，我們解凍大型語言模型、投影層以及視覺 tokenizer 的權重，通過聯合優化 caption 損失函數和重建損失函數，對它們進行端到端的訓練，使視覺 tokenizer 能夠在保持圖像重建能力的同時，學習到更強大的感知能力，以支持多模態理解和重建任務。

第二階段是 ETT 方法的核心創新，讓視覺 tokenizer 得以根據下游任務需求深度調優，大幅提升其感知和表征能力。最后是后訓練階段，我們進一步對兩個專業模型進行微調，以增強其在特定多模態任務中的表現。

ETT 的卓越性能表現

多模態理解

ETT 在多模態理解任務中展現出了卓越的性能。在 GQA、TextVQA等特定任務評估，以及 POPE、MME、MMBench、SEED-Bench、MMVet 等廣泛基準測試中均取得了優異成績，與現有最先進的視覺語言模型相比，在模型參數和數據規模更小的情況下，依然能夠取得更好的或具有競爭力的結果。

例如，在 MMBench 多模態理解基準測試中，ETT 的性能表現與連續編碼器基礎的視覺語言模型相當，甚至在某些子任務上更勝一籌，而無需額外的復雜視覺編碼器。這表明 ETT 通過端到端的視覺 tokenization 訓練方法，在減少計算開銷的同時，簡化了模型架構，并有效提升了多模態理解能力。

多模態生成

在視覺生成任務中，ETT 同樣表現出色。在 GenEval 和 T2I-CompBench 等廣泛使用的文本到圖像生成基準數據集上，ETT 實現了與其他最先進的基于擴散模型和自回歸模型的方法相媲美的性能，同時在模型參數和訓練數據規模上更具優勢。特別是在 T2I-CompBench 數據集的顏色、形狀和紋理模式等子任務上，ETT 取得了令人滿意的成績，充分證明了其在文本到圖像生成任務中的強大能力。

此外，ETT 在定性結果方面也展現出了其優勢。通過生成的圖像樣本可以看出，ETT 能夠準確地遵循文本提示，生成風格多樣、細節豐富的視覺內容，涵蓋了不同的藝術風格、主題和背景，并能夠適應不同的構圖結構和審美偏好。

視覺重構

ETT 在視覺重構任務中的表現同樣令人矚目。通過對比引入 ETT 前后的視覺重構結果，我們可以看到，ETT 不僅保留了原始視覺 tokenizer 的豐富低級細節表示，還有效提升了高級語義表示能力。

如上圖所示，經過 ETT 調優后的視覺 tokenizer 在保留原始視覺細節的同時，顯著提升了特定方面的表現，例如文本渲染效果更好。這表明 ETT 能夠在保持圖像重建質量的同時，增強視覺 tokenizer 的語義表達能力，為進一步的多模態任務提供更優質的視覺表示。

ETT 的潛在局限與未來發展

盡管 ETT 在多模態任務中取得了顯著的性能提升，但我們也意識到當前方法存在一定的局限性。

首先，ETT 的端到端微調所使用的數據規模和模型容量仍有進一步擴大的潛力，以進一步提升視覺表示質量和下游任務性能。其次，ETT 主要側重于利用大型語言模型的語義能力優化現有視覺 tokenizer 的視覺特征，而非從頭開始設計一個同時適用于理解和生成的視覺 tokenizer。

未來，我們計劃探索從頭開始端到端訓練視覺 tokenizer，以創建一個更全面、更適應多模態任務的表示方法。此外，將 ETT 的方法擴展到圖像和文本之外的其他模態，如視頻和音頻，也是一個令人興奮的研究方向。

總的來說，ETT 作為一種簡單而有效的端到端視覺 tokenizer 調優方法，易于實現和集成，為原生多模態學習領域帶來了新的突破。通過優化視覺 tokenizer 的特征表示，ETT 為提升多模態模型的性能提供了新的思路和方法，有望推動多模態基礎模型在更廣泛的領域的應用和發展。我們期待 ETT 的出現能夠激發更多關于視覺 tokenization 和多模態學習的研究，共同探索這一充滿潛力的領域。

作者介紹

王文軒，中科院自動化所-北京智源研究院聯培博士，研究方向為視覺語言模型、多模態理解生成等，在 ICLR、CVPR、ECCV、ACL 等頂級會議上發表過多篇論文；

張帆、崔玉峰，智源研究院研究員，研究方向為原生多模態模型、視覺生成等，Emu 系列工作核心作者；

刁海文，大連理工大學博士，研究方向包括大模型高效遷移、多模態基座大模型等，在 NeurIPS、ICLR、CVPR、ECCV 等頂級會議上發表過多篇論文；

羅卓彥，清華大學碩士，研究方向為視覺生成等，在 NeurIPS、CVPR 等頂級會議上發表過論文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.