網易首頁 > 網易號 > 正文申請入駐

當AI同時精通"看"與"畫"：阿里巴巴團隊多模態AI模型的驚人進展

2025-05-12 21:02:44　來源: 科技行者

北京舉報

分享至

在人工智能領域，有兩類模型一直沿著不同的軌道發展：一類擅長"理解"圖像和文字，就像一個能看懂圖片并回答問題的智能助手；另一類則擅長"創造"圖像，就像一位根據文字描述作畫的數字藝術家。直到最近，這兩種能力很少能在同一個AI系統中完美共存。這正是阿里巴巴集團聯合多所高校研究人員在最新綜述論文中探討的熱門話題。

這篇題為《統一多模態理解與生成模型：進展、挑戰與機遇》的重要綜述論文由阿里巴巴集團的研究團隊主導，作者包括來自阿里巴巴集團的Xinjie Zhang（同時隸屬于香港科技大學）、Jintao Guo（同時隸屬于南京大學）、Shanshan Zhao，以及Minghao Fu（同時隸屬于南京大學）、Lunhao Duan（同時隸屬于武漢大學）、Guo-Hua Wang、Qing-Guo Chen（項目負責人）、Zhao Xu、Weihua Luo和Kaifu Zhang。該論文于2025年5月發表在arXiv預印本平臺，編號為arXiv:2505.02567v2。

一、為什么我們需要"全能型"AI系統？

想象一下，如果你家里有兩位外國朋友：一位只能聽懂你說的話并回答問題，另一位則只能根據你的描述畫畫，但不能回答你的問題。雖然他們各自都很有才華，但你必須在兩人之間不斷切換才能完成復雜任務。這就是當今人工智能領域的現狀——我們有出色的"理解型"模型（如能看圖回答問題的GPT-4V）和"生成型"模型（如能畫圖的Stable Diffusion），但它們像兩個分離的世界，很少能融為一體。

最近，研究人員開始探索一個令人興奮的方向：能否創造一個既能理解圖像和文字，又能創作高質量圖像的"全能型"AI系統？就像一位既能欣賞藝術品并對其發表見解，又能親自創作藝術的全能藝術大師。這樣的系統不僅能讓我們與AI的交流更自然，還能實現前所未有的復雜任務，如根據詳細指令修改圖像、創建連貫的圖文故事，或將視覺分析轉化為直觀的圖像輸出。

2025年3月，OpenAI推出的GPT-4o展示了這一方向的巨大潛力，它不僅能理解多種模態的輸入，還能生成各類輸出，引發了學術界和工業界對統一多模態模型的廣泛興趣。然而，創建這樣的統一系統面臨著巨大的挑戰，正如阿里巴巴的研究團隊在本文中深入探討的那樣。

二、為什么構建統一模型如此困難？

要理解構建統一模型的難度，我們可以想象兩種完全不同的烹飪技巧：西式烘焙和中式炒菜。雖然兩者都能做出美食，但它們使用的工具、原料處理方法和烹飪流程完全不同。同樣，目前的AI世界也分為兩大陣營，使用著截然不同的"烹飪方法"。

在"理解"這邊，主流模型采用所謂的"自回歸"方法，就像寫小說一樣，一個詞接一個詞地生成內容。這些模型，如GPT家族，通常采用"解碼器"結構，擅長的是文本處理和邏輯推理。當它們需要處理圖像時，會把圖像轉換成一種類似文本的表示，然后用處理文本的方式來理解圖像。

而在"生成圖像"這邊，主流技術則基于"擴散模型"，這是一種完全不同的方法。想象你有一張充滿噪點的照片，擴散模型就像一位專業修圖師，能一步步去除噪點，最終呈現出清晰的圖像。這種方法使用的是名為UNet或DiT的特殊架構，配合像CLIP這樣的先進文本編碼器。

這兩種方法就像烹飪中的烘焙和炒菜，各有所長，但融合起來卻異常困難。自回歸模型在圖像生成方面的表現不如擴散模型，但它們與大語言模型共享結構，更適合構建統一系統。因此，關鍵挑戰在于：如何讓這兩種不同"烹飪流派"的優勢在同一個"廚房"中發揮作用？

此外，還有一個關鍵問題：如何有效地將圖像轉換成適合自回歸模型處理的"標記"。有些方法使用像VQGAN這樣的像素級編碼器，另一些則使用像CLIP這樣的語義編碼器，每種方法都有其優缺點。就像要決定是將蔬菜切成丁還是切成絲，不同的處理方式會影響最終的烹飪效果。

三、統一模型的三大架構流派

在這個新興的統一模型領域，研究者們提出了三種主要的架構方向，就像建筑師嘗試不同的設計理念來建造同一座橋梁。阿里巴巴的研究團隊將這些方法分為三大類：基于擴散的模型、基于自回歸的模型，以及結合兩者的混合模型。

基于擴散的統一模型

基于擴散的統一模型就像一位既會修復老照片又能根據描述創作新照片的數字藝術家。在這類模型中，代表作是Dual Diffusion，它引入了一個雙分支的擴散過程，同時處理文本和圖像。

想象一下，當你給這位藝術家一對照片和文字描述，他會先使用專業工具（如T5編碼器處理文字，SD-VAE編碼器處理圖像）將它們轉換成特殊的"創作草稿"。然后，他會在這些草稿上添加一些隨機的"藝術噪點"，使它們變得模糊不清。

接下來，神奇的部分開始了：藝術家開始同時"修復"這兩份帶有噪點的草稿，逐步使它們變得清晰。關鍵是，在修復過程中，文字草稿和圖像草稿會相互"交流"——文字會指導圖像的修復，圖像也會幫助文字表達更加精確。這種雙向交流確保了最終的文字和圖像在內容上高度一致。

完成修復后，藝術家會用特殊工具（T5解碼器和VAE解碼器）將修復好的草稿轉換成最終的作品：一段自然流暢的文字和一幅高清的圖像。

雖然這種方法能產生高質量的圖像和文本，但它也面臨一些挑戰：多輪擴散迭代會導致處理速度較慢；雙分支架構增加了模型的復雜性；而且對噪點水平很敏感，可能影響輸出質量。

基于自回歸的統一模型

基于自回歸的統一模型則像一位擅長講故事的藝術家，他能一段一段地創作出連貫的文字和圖像。這類模型通?；谙馤LaMA、Vicuna或Qwen這樣的大語言模型，將文本和圖像視為一種統一的"序列"來處理。

根據處理圖像的方式不同，這類模型又可以細分為四種類型：

第一種是像素編碼模型，如LWM、Chameleon和ANOLE。這些模型使用VQGAN等工具將圖像壓縮成一系列離散的"圖像單詞"，然后像處理文本一樣逐個生成這些"圖像單詞"。這就像藝術家先將復雜的畫面概念化為一系列簡單的視覺元素，然后一步步構建完整畫面。

第二種是語義編碼模型，如Emu、DreamLLM和VL-GPT。這些模型使用CLIP等工具提取圖像的高級語義特征，然后使用擴散模型將這些特征轉換回圖像。這更像是藝術家先理解畫面的整體概念和情感，然后才開始具體創作。

第三種是可學習查詢編碼模型，如SEED系列和MetaQueries。這些模型不是直接編碼整個圖像，而是學習一組"查詢令牌"來提取圖像中最重要的信息。這就像藝術家不會記住畫面的每個細節，而是抓住關鍵的構圖元素和視覺重點。

第四種是混合編碼模型，如Janus和VARGPT。這些模型結合了像素級和語義級的編碼方法，試圖兼顧兩種方法的優勢。這就像藝術家同時關注畫面的整體概念和具體細節，既不失大局觀，又不忽視精細之處。

每種方法都有其優缺點。像素編碼保留了更多細節但產生的序列更長；語義編碼更簡潔但可能丟失低級視覺信息；可學習查詢更靈活但可能難以處理復雜場景；混合編碼更全面但也更復雜。

融合自回歸和擴散的混合模型

第三種架構是混合模型，如Transfusion、Show-o和MonoFormer，它們試圖將自回歸和擴散這兩種"烹飪方法"融合在一起。這就像一位創新的廚師，將東西方烹飪技巧融為一體，創造出前所未有的美食體驗。

在這類模型中，文本內容是通過自回歸方式一個詞一個詞地生成的，保留了大語言模型的強大推理能力；而圖像則是通過多步擴散過程生成的，利用了擴散模型在視覺質量方面的優勢。這種組合讓模型既能進行復雜的語言推理，又能生成高質量的圖像。

比如，在Transfusion模型中，當你描述"一只戴著墨鏡的貓坐在海灘上"時，模型會先用自回歸方式理解這個描述，然后通過擴散過程逐步從噪點中"浮現"出符合描述的圖像。整個過程中，文本理解和圖像生成相互指導，確保最終生成的圖像準確反映文本描述的內容。

這種混合方法雖然結合了兩種技術的優勢，但也面臨計算成本高、架構復雜等挑戰。不過，它代表了一個極具前景的研究方向。

四、超越圖文：走向全模態統一模型

隨著研究的深入，一些前沿工作開始探索不僅限于文本和圖像的統一模型，而是能夠處理音頻、視頻、語音等多種模態的"全能型"AI系統。這就像從訓練雙語翻譯官，發展到培養精通十幾種語言的語言大師。

例如，Spider利用ImageBind（一種將六種模態映射到統一空間的模型）支持文本、圖像、視頻、音頻等多種模態的輸入和輸出。OmniFlow集成了HiFiGen用于音頻和音樂生成，SD-VAE用于圖像處理，使用MMDiT作為骨干網絡。AnyGPT則利用EnCodec進行音頻標記化，SpeechTokenizer處理語音，訓練了一個帶有模態特定前綴的統一Transformer。

這些"全能型"模型展示了人工智能向通用基礎模型發展的趨勢，能夠理解和生成人類感官輸入和交流的全部范圍。然而，它們也面臨著諸多挑戰，如模態不平衡（文本和圖像模態往往占主導地位）、可擴展性問題（支持更多模態會增加模型復雜性）以及跨模態語義一致性等。

五、數據集與評測：統一模型的"訓練場"與"考場"

要訓練一個既能理解又能生成的統一模型，就需要大量高質量、多樣化的訓練數據，就像培養一位全能藝術家需要接觸各種藝術形式和風格。研究者們根據不同用途，開發了多種數據集。

在多模態理解方面，有像LAION-5B這樣包含近60億圖文對的龐大數據集，還有COYO（約7.47億樣本）和DataComp（14億樣本）等經過精心篩選的高質量數據集。這些就像藝術家的基礎學習材料，幫助模型理解圖像和文本之間的關聯。

對于文本到圖像生成任務，研究者們使用了LAION-Aesthetics（篩選出具有較高"美學價值"的1.2億圖像）、JourneyDB（400萬由Midjourney平臺生成的高質量圖像-提示對）等數據集。這些相當于藝術創作的示范作品，展示了如何根據文字描述創作出精美圖像。

在圖像編輯方面，MagicBrush提供了約1萬個手動標注的真實圖像編輯樣本，HQ-Edit包含約20萬高分辨率編輯樣本，這些就像教導藝術家如何根據指令修改已有作品。

此外，還有像Multimodal C4這樣包含超過1億文檔和5.71億圖像的交錯圖文數據集，以及針對特定任務（如人臉生成、可控生成等）的專門數據集。這些豐富多樣的數據集為統一模型提供了全面的"訓練材料"。

評估統一模型的性能也需要專門的基準測試，這些測試覆蓋了從基礎理解到復雜推理、從圖像生成到圖像編輯等各個方面。比如，MMBench提供了3千個雙語多選題來評估模型的跨語言比較能力；MMMU增加了1.15萬個大學水平的多模態問題來測試領域知識和邏輯推理；而T2I-CompBench則專門評估模型生成符合復雜文本描述的圖像的能力。

這些數據集和基準測試就像藝術學院的課程和考試，全面評估模型在各個方面的能力，推動著統一模態模型的不斷進步。

六、統一模型面臨的挑戰與未來機遇

盡管統一多模態模型取得了令人印象深刻的進展，但這個領域仍處于起步階段，面臨著幾個關鍵挑戰。

首先是標記化和壓縮策略的效率問題。視覺和文本數據維度極高，導致極長的標記序列。想象一下，如果一張普通圖片需要用成千上萬個"詞"來描述，那么處理起來就會非常耗時且占用大量內存。研究者需要找到更有效的方法來壓縮這些信息，同時保持表達的準確性。

其次是跨模態注意力的性能瓶頸。隨著圖像分辨率和上下文長度的增加，計算成本急劇上升。這就像讓一個人同時關注一本厚書和一幅復雜畫作中的每個細節，幾乎是不可能的任務。稀疏或層次化注意力機制可能是解決這一問題的方向。

第三是預訓練數據集的噪聲和偏見問題。特別是對于復雜圖像構圖和交錯圖文數據，現有數據集常常包含噪聲或偏見。這就像用不準確或有偏見的教材來培訓學生，inevitably會影響最終的學習成果?？煽康臄祿^濾、去偏見和合成技術對于確保模型的公平性和穩健性至關重要。

第四是評估協議的局限性。目前的評估通常針對單一任務進行，缺乏對統一模型在整體上的綜合評估。特別是對于圖像編輯和交錯圖文生成等復雜任務，尤其需要更全面的基準測試。

未來，統一多模態模型有望在幾個方向取得突破：首先是架構設計的創新，包括新型標記化方法、更高效的訓練策略等；其次是數據集策略的優化，如混合真實和合成數據、去除偏見等；最后是評估方法的改進，發展更全面、更公平的基準測試。

值得注意的是，當前的統一多模態模型主要關注圖像理解和文本到圖像生成，而像圖像編輯這樣的復雜功能通常需要通過后期微調才能實現。更高級的功能，如空間控制的圖像生成、多主體驅動的圖像生成以及交錯圖文生成，在統一框架中仍有很大的探索空間。

結語：AI的全能時代即將到來

歸根結底，統一多模態模型代表了AI發展的一個激動人心的新方向——從專注于單一能力的"專家系統"向集成多種能力的"全能系統"過渡。就像人類不僅可以理解所見所聞，還能表達思想和創造藝術，未來的AI系統也將能夠無縫地理解和生成各種形式的內容。

阿里巴巴研究團隊的這篇綜述不僅系統地梳理了當前統一多模態模型的研究現狀，還指出了未來的發展方向和機遇。隨著像GPT-4o這樣的模型展示出越來越強大的多模態能力，我們可以期待在不久的未來，AI將能夠更自然、更直觀地與人類交流和創造。

這不僅對技術本身是一個重大進步，也將為內容創作、教育、醫療、設計等眾多領域帶來革命性的變化。想象一下，未來的AI助手不僅能理解你的問題并用文字回答，還能即時創建符合你需求的圖像、視頻或音頻，甚至能根據你的反饋進行精確的編輯和調整。

對于有興趣深入了解這一領域的讀者，可以訪問阿里巴巴研究團隊在GitHub上提供的相關資料，包括論文引用、數據集和基準測試等信息。隨著研究的不斷深入和技術的快速迭代，統一多模態模型必將迎來更加光明的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.