99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

TransDiff:最簡潔的AR Transformer+Diffusion圖像生成方法

0
分享至

大家好,很高興為大家介紹我們的新工作--Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression,后面我們簡稱TransDiff。

首先,TransDiff是目前最簡潔的、將AR Transformer與Diffusion結合用于圖像生成方法。TransDiff將離散輸入(如類別、文本等)、連續輸入(圖像等)經過AR Transformer編碼為圖像語義表征,而后將表征通過一個較小的Diffusion Deocder解碼為圖片。

其次,我們提出了一種新的自回歸范式--MRAR(Multi-Reference Autoregression)。此范式類似NLP領域的In-context Learning(ICL):通過學習上文同類別圖片生成質量更好、更多樣的圖片,唯一的區別是上文的圖片是模型自己生成的。


論文標題: Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression 論文鏈接: https://arxiv.org/pdf/2506.09482 代碼鏈接: https://github.com/TransDiff/TransDiff 模型: https://huggingface.co/zhendch/Transdiff


一、具體介紹

為了節省讀者的時間,我們拋棄論文的結構,用Q&A這種更‘人話’方式介紹TransDiff。這些問題也是我們研究的動機。

問:為什么使用Transformer?我們工作中AR Transformer編碼出了什么信息?

答:早期的CLIP工作以及后來大模型時代層出不窮的VL模型已經證明Transformer在圖像理解領域的優勢。尤其是在CLIP工作中,ViT模型可以將圖片的表征對齊到語義空間(文字bert表征與圖片的ViT表征cosine相似度)。

相似的,實驗證明:TransDiff中AR Transformer也是將類別和圖片編碼至圖片的高級(對比像素)語義空間。以下將不同類別的256維特征隨機進行拼接后生成得到圖片,不同于其他模型(VAR、LlamaGen等)的像素編輯,定性實驗展現出了模型的語義編輯能力。


問:TransDiff使用較小Diffusion Deocder是否有制約? 是否優于單純Diffusion和AR Transformer方法?

答:TransDiff的deocder使用DiT結構,使用Flow Matching范式。diffusion占總體參數的1/3,參數量顯著低于主流diffusion模型。但是對比能夠搜集到的所有單純Diffusion和AR Transformer方法,TransDiff在Benchmark上還是有一定優勢,至少是“打的有來有回”。


問:TransDiff很像MAR,是否只是MAR的簡單模仿?

答:TransDiff與MAR雖然結構上很像,但是模型展現的特點截然不同。首先,MAR是在像素(或patch)上生成,沒有顯性的語義表征,其次由于MAR使用的Diffusion Deocder過于簡單(n層MLP Layer)導致decoder表現力有制約。 因此,從下圖可以看出:MAR無法“一步生圖”,且圖像patch是在自回歸過程中逐步迭代“完善”。


問:MRAR好在哪里? 對比AR Transformer中常用的Token-Level AR 和 Scale-Level AR優勢嗎?

答:首先對比Token-Level AR和Scale-Level AR,TransDiff with MRAR在在Benchmark上有著較大的優勢。其次,我們發現語義表征多樣性越高,圖像質量越高。而MRAR相較于Scale-Level AR可以顯著提升語義表征多樣性。


二、最后放一些demo


三、One More Thing

TransDiff with MRAR在未經視頻數據訓練的情況下,展現出了連續幀生成的潛力。 所以后續也會將TransDiff應用在視頻生成領域,大家敬請期待。


llustration From IconScout By Scout Stores

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

未央看點
2025-06-24 01:32:07
太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
北京天氣“反轉”了!未來這幾天有雨——

北京天氣“反轉”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
以伊十二日戰爭結束, 伊朗成最大贏家?。?!

山河路口
2025-06-25 12:47:16

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

稅海拾真
2025-06-25 09:42:30
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
女喂養員海洋館失蹤,不久鯊魚因病手術,獸醫開刀后發現異常

女喂養員海洋館失蹤,不久鯊魚因病手術,獸醫開刀后發現異常

懸案解密檔案
2025-06-21 09:33:54
首發10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

首發10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

嘴炮體壇
2025-06-25 10:54:31
2-0!2-1!溫網第2天,中國金花2人同時晉級,36歲老將接近創歷史

2-0!2-1!溫網第2天,中國金花2人同時晉級,36歲老將接近創歷史

侃球熊弟
2025-06-24 22:38:56
世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

荊楚寰宇文樞
2025-06-24 23:52:04
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態度堅決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
國務院辦公廳關于進一步規范和提升12345熱線服務的意見

國務院辦公廳關于進一步規范和提升12345熱線服務的意見

新京報
2025-06-25 17:18:45
比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

比亞迪經銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

車市紅點
2025-06-24 15:41:51
65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進正賽!

劉姚堯的文字城堡
2025-06-25 08:50:58
國家出手!大批醫院將退出醫保

國家出手!大批醫院將退出醫保

賽柏藍
2025-06-25 20:29:49
全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

說宇宙
2025-06-22 11:20:03
失傳已久的手診口訣找到了,趕緊收藏

失傳已久的手診口訣找到了,趕緊收藏

鄉村白大褂之家
2025-06-24 20:52:56
2025-06-25 21:23:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

游戲
手機
時尚
健康
公開課

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現!

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業首發單內屏寶

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 西峡县| 潼南县| 莆田市| 穆棱市| 屏东县| 钦州市| 深泽县| 江油市| 永修县| 隆昌县| 万全县| 涿州市| 静安区| 九寨沟县| 松溪县| 彩票| 和林格尔县| 纳雍县| 历史| 蕲春县| 阳山县| 湘潭县| 乐昌市| 荆门市| 广安市| 紫金县| 定安县| 远安县| 万山特区| 罗平县| 保亭| 祁阳县| 闽清县| 松桃| 囊谦县| 盐源县| 双牌县| 江源县| 苗栗市| 上林县| 辉南县|