網易首頁 > 網易號 > 正文申請入駐

TransDiff：最簡潔的AR Transformer+Diffusion圖像生成方法

2025-06-24 08:25:04　來源: 將門創投

北京舉報

分享至

大家好，很高興為大家介紹我們的新工作--Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression，后面我們簡稱TransDiff。

首先，TransDiff是目前最簡潔的、將AR Transformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入（如類別、文本等）、連續輸入（圖像等）經過AR Transformer編碼為圖像語義表征，而后將表征通過一個較小的Diffusion Deocder解碼為圖片。

其次，我們提出了一種新的自回歸范式--MRAR（Multi-Reference Autoregression）。此范式類似NLP領域的In-context Learning（ICL）：通過學習上文同類別圖片生成質量更好、更多樣的圖片，唯一的區別是上文的圖片是模型自己生成的。

論文標題： Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression 論文鏈接： https://arxiv.org/pdf/2506.09482 代碼鏈接： https://github.com/TransDiff/TransDiff 模型： https://huggingface.co/zhendch/Transdiff

一、具體介紹

為了節省讀者的時間，我們拋棄論文的結構，用Q&A這種更‘人話’方式介紹TransDiff。這些問題也是我們研究的動機。

問：為什么使用Transformer？我們工作中AR Transformer編碼出了什么信息？

答：早期的CLIP工作以及后來大模型時代層出不窮的VL模型已經證明Transformer在圖像理解領域的優勢。尤其是在CLIP工作中，ViT模型可以將圖片的表征對齊到語義空間（文字bert表征與圖片的ViT表征cosine相似度）。

相似的，實驗證明：TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級（對比像素）語義空間。以下將不同類別的256維特征隨機進行拼接后生成得到圖片，不同于其他模型（VAR、LlamaGen等）的像素編輯，定性實驗展現出了模型的語義編輯能力。

問：TransDiff使用較小Diffusion Deocder是否有制約？是否優于單純Diffusion和AR Transformer方法？

答：TransDiff的deocder使用DiT結構，使用Flow Matching范式。diffusion占總體參數的1/3，參數量顯著低于主流diffusion模型。但是對比能夠搜集到的所有單純Diffusion和AR Transformer方法，TransDiff在Benchmark上還是有一定優勢，至少是“打的有來有回”。

問：TransDiff很像MAR，是否只是MAR的簡單模仿？

答：TransDiff與MAR雖然結構上很像，但是模型展現的特點截然不同。首先，MAR是在像素（或patch）上生成，沒有顯性的語義表征，其次由于MAR使用的Diffusion Deocder過于簡單（n層MLP Layer）導致decoder表現力有制約。因此，從下圖可以看出：MAR無法“一步生圖”，且圖像patch是在自回歸過程中逐步迭代“完善”。

問：MRAR好在哪里？對比AR Transformer中常用的Token-Level AR 和 Scale-Level AR優勢嗎？

答：首先對比Token-Level AR和Scale-Level AR，TransDiff with MRAR在在Benchmark上有著較大的優勢。其次，我們發現語義表征多樣性越高，圖像質量越高。而MRAR相較于Scale-Level AR可以顯著提升語義表征多樣性。

二、最后放一些demo

三、One More Thing

TransDiff with MRAR在未經視頻數據訓練的情況下，展現出了連續幀生成的潛力。所以后續也會將TransDiff應用在視頻生成領域，大家敬請期待。

llustration From IconScout By Scout Stores

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.