99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

熱點(diǎn)關(guān)注丨李飛飛團(tuán)隊新作:DiT不訓(xùn)練直接改架構(gòu),模型深度減半,質(zhì)量還提高了

0
分享至

轉(zhuǎn)自 量子位

本文介紹了一種名為「嫁接」的技術(shù),用于在小計算預(yù)算下通過編輯預(yù)訓(xùn)練 Diffusion Transformers(簡稱 DiTs)來探索新的模型架構(gòu)設(shè)計。這種方法允許研究者在不從頭開始訓(xùn)練模型的情況下,通過替換模型中的某些算子(如 MLP)來創(chuàng)建新的混合架構(gòu),從而在保持模型質(zhì)量的同時減少計算量。

模型架構(gòu)設(shè)計在機(jī)器學(xué)習(xí)中扮演著核心角色,與數(shù)據(jù)、算法、算力和基準(zhǔn)測試一樣重要。它定義了模型函數(shù)、算子選擇(如注意力機(jī)制、卷積)和配置設(shè)定(如模型深度、寬度)等等模型要素。

盡管如此,由于從頭訓(xùn)練模型的成本過高 —— 尤其人們難以獲得關(guān)于架構(gòu)設(shè)計的深刻洞見(即哪些方案有效、哪些無效)。因此,研究新架構(gòu)仍是一項挑戰(zhàn),對生成模型而言尤為如此。


在本文中,來自斯坦福大學(xué)、 Liquid AI 等機(jī)構(gòu)的研究者探索了這一問題,即對預(yù)訓(xùn)練模型進(jìn)行架構(gòu)編輯來研究新架構(gòu)。


  • 論文鏈接:https://arxiv.org/pdf/2506.05340v1

  • 論文主頁:https://grafting.stanford.edu/

  • 論文標(biāo)題: Exploring Diffusion Transformer Designs via Grafting

具體而言,該研究提出了一種編輯預(yù)訓(xùn)練擴(kuò)散 transformer(DiT)的簡單方法,即 Grafting(嫁接),該方法可以在較小的計算預(yù)算下實現(xiàn)新的架構(gòu)。

嫁接過程如下:

(i)激活蒸餾:此階段通過回歸目標(biāo)(regression objective)蒸餾原始算子的激活特征,將其功能遷移至新算子。該階段核心在于實現(xiàn)算子間的功能傳遞。

(ii)輕量級調(diào)優(yōu):此階段通過使用有限的數(shù)據(jù)進(jìn)行調(diào)優(yōu),減輕了由于集成多個新算子而導(dǎo)致的誤差傳播。

此外,架構(gòu)編輯還涵蓋多種策略,如添加、刪除和替換算子。


本文還基于 DiT-XL/2 構(gòu)建了一個測試平臺,以研究嫁接對模型質(zhì)量的影響。

利用該測試平臺,本文通過嫁接技術(shù)開發(fā)了一系列混合設(shè)計:用門控卷積、局部注意力和線性注意力取代 Softmax 注意力,用可變擴(kuò)展率和卷積變體取代 MLP。

值得注意的是,許多混合設(shè)計使用不到 2% 的預(yù)訓(xùn)練計算資源就實現(xiàn)了良好的質(zhì)量(FID:2.38–2.64,而 DiT-XL/2 為 2.27)。然后,本文嫁接了一個文本轉(zhuǎn)圖像模型 (PixArt-Σ),實現(xiàn)了 1.43 倍的加速,而 GenEval 分?jǐn)?shù)下降不到 2%。

最后,本文展示了一個案例研究,該研究通過嫁接技術(shù)將每對序列 Transformer 模塊轉(zhuǎn)換為并行模塊,從而重構(gòu)了 DiT-XL/2。這將模型深度減少到原來一半,并獲得了比其他同等深度模型更高的質(zhì)量(FID:2.77)。

總而言之,該研究展示了可以通過預(yù)訓(xùn)練 DiT 來探索新的擴(kuò)散模型設(shè)計,其修改范圍涵蓋從算子替換到架構(gòu)重構(gòu)。

嫁接擴(kuò)散 Transformer

兩階段嫁接方法

嫁接旨在通過編輯預(yù)訓(xùn)練模型的計算圖來實現(xiàn)新架構(gòu)。由于該研究專注于用替代方案替換現(xiàn)有算子,這引出了兩個問題:

問題 1:在將新算子集成到計算圖之前,應(yīng)該如何初始化?

對應(yīng)第一階段:通過激活蒸餾進(jìn)行初始化。由于 DiT 的激活是連續(xù)且平滑的,這可以被視為一個回歸問題:

問題 2:當(dāng)多個算子集成到計算圖時,如何減輕誤差傳播?

對應(yīng)第二階段:輕量級調(diào)優(yōu)。隨著更多算子被替換,初始化誤差會不斷傳播,導(dǎo)致與預(yù)訓(xùn)練模型的行為出現(xiàn)偏差。

本文采用端到端微調(diào)來緩解階段 1 的累積誤差。微調(diào)目標(biāo)函數(shù)如公式 1 所示。

實踐中,本文發(fā)現(xiàn),即使替換 DiT-XL/2 中的所有 MHA 或 MLP 層,僅使用 10% 的訓(xùn)練數(shù)據(jù)也能恢復(fù)競爭性能。

自嫁接基準(zhǔn)

在研究新的架構(gòu)設(shè)計之前,該研究引入了自嫁接(self-grafting),這是一種簡單的對照設(shè)置:將現(xiàn)有算子(如 MHA、MLP)替換為相同類型但權(quán)重隨機(jī)初始化的算子。這樣可以保持計算圖的結(jié)構(gòu) —— 包括算子類型和參數(shù)數(shù)量 —— 但改變了具體的計算過程。自嫁接有三方面作用:(1)評估在不改變架構(gòu)的情況下嫁接流程本身的效果;(2)為比較不同的替換方案提供一個性能基準(zhǔn);(3)研究影響性能的因素,如數(shù)據(jù)規(guī)模、回歸目標(biāo)和超參數(shù)。

激活行為分析以及自嫁接結(jié)果

本文首先分析了 DiT-XL/2 層中的 MHA 和 MLP 算子激活行為。在這兩種情況下,本文觀察到激活值存在較大差異,尤其是在較深的層中(表 1 (i, ii))。


經(jīng)過分析,本文得出通過選擇特定于算子的回歸目標(biāo),可以實現(xiàn)高質(zhì)量的初始化。

如表 1 (iii,iv) 所示,回歸目標(biāo)的選擇會影響性能。對于 MHA,L1 實現(xiàn)了最佳 FID(2.51),其次是 Huber(2.55)和 L2(2.58)。對于 MLP,L2 表現(xiàn)最佳(2.33),而 L1 表現(xiàn)不佳(2.83);值得注意的是,MLP 的參數(shù)量是 MHA 的 2 倍。

這表明高質(zhì)量的初始化需要量身定制的、激活感知的策略。

研究還發(fā)現(xiàn),使用 10% 的數(shù)據(jù)進(jìn)行完全自嫁接可實現(xiàn)接近基線的性能。表明在適度的數(shù)據(jù)和計算預(yù)算下完全自嫁接是可行的。


實驗

實驗 I:通過嫁接實現(xiàn)混合架構(gòu)

本節(jié)實驗圍繞這個問題進(jìn)行:當(dāng)現(xiàn)有算子被高效的替代方案取代時,我們能否保持模型質(zhì)量?

為了探究這個問題,本文研究了以下嫁接過程:

1. 待替換算子的類型 ——MHA 或 MLP;

2. 替換算子的類型 —— 例如卷積;

3. 層選擇策略 —— 替換所有層中的算子或使用啟發(fā)式選擇;

4. 替換率 —— 全部替換或部分替換。

為了實驗,該研究構(gòu)建了一個測試平臺,并提出兩種層選擇策略:完全替換和交錯替換。測試平臺詳見表 3。


此外,該研究還引入了 Hyena-X 和 Hyena-Y 兩種新的高效門控卷積算子,并設(shè)計為 MHA 的直接替代品。Figure 3 展示了它們的結(jié)構(gòu)。


MHA 結(jié)果。通過嫁接替換 DiT-XL/2 中的 MHA 算子,獲得了良好的質(zhì)量 - 效率權(quán)衡。主要發(fā)現(xiàn)如下:

在交錯嫁接下,較小的感受野表現(xiàn)出驚人的效果。實驗發(fā)現(xiàn),在 50% 交錯替換比例下,滑動窗口注意力(SWA)、Hyena-X/Y 和 Mamba-2 等替代方案均能保持 FID 分?jǐn)?shù)與基線(2.27)差距在 0.5 以內(nèi)。尤其值得注意的是,盡管 SWA 和 Hyena 變體的感受野有限(卷積核 K=4 / 窗口 w=4),其 FID 下降幅度卻極小。

替換策略:交錯替換 vs. 完全替換。將交錯替換比例從 50% 提升至 75% 時,性能通常下降,但 SWA 在 75% 交錯替換下仍有效(FID=3.09)。100% 替換時,性能急劇惡化(所有 FID > 75),這與局部性分析一致,表明只有部分層是局部且適合嫁接的。

數(shù)據(jù)規(guī)模和層選擇的消融實驗結(jié)果。


MLP 結(jié)果顯示通過嫁接的方式替換 MLP 算子是有效的。

經(jīng)過實驗,得出要點(diǎn) 1:嫁接對于在較小的計算預(yù)算下構(gòu)建具有良好生成質(zhì)量的高效混合架構(gòu)非常有效。交錯設(shè)計尤其有效。

實驗 II:通過嫁接改進(jìn)文本到圖像的擴(kuò)散 Transformers

結(jié)果。嫁接模型在實時計算速度(wall-clock time)上實現(xiàn)了 1.43 倍的提升,同時生成評估分?jǐn)?shù)(GenEval)僅出現(xiàn)小幅下降(47.78 vs. 49.75)。特定屬性的指標(biāo)(Attribute-specific metrics)基本保持可比,并且定性樣本也展現(xiàn)出良好的對齊度和質(zhì)量。在一些紋理區(qū)域觀察到了局部性的失真(artifacts),這可能是由于 LoRA 的適應(yīng)能力以及所使用的合成數(shù)據(jù)質(zhì)量不高所致(失敗案例詳見圖 D.3,D.4)



要點(diǎn) 2:在文生圖 DiTs 中成功應(yīng)用嫁接技術(shù),構(gòu)建的混合架構(gòu)在實現(xiàn)顯著加速的同時,生成質(zhì)量損失極小。

了解更多內(nèi)容,請參考原論文。

【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的,只為學(xué)術(shù)新聞信息的傳播,版權(quán)歸原作者所有,如有侵權(quán)請立即與我們聯(lián)系,我們將及時刪除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2014年,朝鮮兩名軍政高層欲發(fā)動兵變,為張成澤報仇,結(jié)局如何?

2014年,朝鮮兩名軍政高層欲發(fā)動兵變,為張成澤報仇,結(jié)局如何?

阿胡
2023-12-18 10:42:12
王偉忠曾預(yù)言成真?大S臨終前還在聯(lián)系汪小菲,真相曝光

王偉忠曾預(yù)言成真?大S臨終前還在聯(lián)系汪小菲,真相曝光

小嵩
2025-07-17 08:01:07
與美國達(dá)成協(xié)商后,越總理訪華,重申立場,眾多中資企業(yè)擬撤出

與美國達(dá)成協(xié)商后,越總理訪華,重申立場,眾多中資企業(yè)擬撤出

一個有靈魂的作者
2025-07-16 16:57:05
買斷成功!比爾白拿9700萬+1100萬投奔快船,超級戰(zhàn)艦正式啟航

買斷成功!比爾白拿9700萬+1100萬投奔快船,超級戰(zhàn)艦正式啟航

球童無忌
2025-07-17 09:04:04
H20芯片恢復(fù)對華出口的真正原因,是再不賣就沒得賣了

H20芯片恢復(fù)對華出口的真正原因,是再不賣就沒得賣了

遠(yuǎn)方青木
2025-07-16 23:03:12
蘇超,讓國際足聯(lián)急了?

蘇超,讓國際足聯(lián)急了?

燕梳樓頻道
2025-07-16 21:38:55
小米汽車銷量暴跌46%!雷軍遇到最大難題

小米汽車銷量暴跌46%!雷軍遇到最大難題

大佬灼見
2025-07-14 23:38:22
邁阿密國際客場0-2落后!埃萬德過掉布斯克茨,單刀輕松破門

邁阿密國際客場0-2落后!埃萬德過掉布斯克茨,單刀輕松破門

直播吧
2025-07-17 08:55:20
知情人曝宗慶后一共有7個孩子,宗慶后與杜建英離婚與宗馥莉有關(guān)

知情人曝宗慶后一共有7個孩子,宗慶后與杜建英離婚與宗馥莉有關(guān)

叨嘮
2025-07-17 02:16:29
上海著名大酒店徹底關(guān)門?現(xiàn)場已人去樓空!市民不舍:生日宴、結(jié)婚宴都在這里辦的

上海著名大酒店徹底關(guān)門?現(xiàn)場已人去樓空!市民不舍:生日宴、結(jié)婚宴都在這里辦的

東方網(wǎng)
2025-07-15 23:41:12
空調(diào)開一整天,需要每天關(guān)1小時讓它歇歇嗎?答案太意外了!

空調(diào)開一整天,需要每天關(guān)1小時讓它歇歇嗎?答案太意外了!

阿傖說事
2025-07-05 11:12:30
臺媒關(guān)注:大陸宣布加強(qiáng)涉臺司法工作

臺媒關(guān)注:大陸宣布加強(qiáng)涉臺司法工作

參考消息
2025-07-16 10:46:04
邱會作晚年曾預(yù)言,中國老百姓將面臨新的三座大山,如今一語中的

邱會作晚年曾預(yù)言,中國老百姓將面臨新的三座大山,如今一語中的

z千年歷史老號
2025-07-16 12:50:34
鬧大了!黃楊鈿甜的耳環(huán)是否天價已不重要,黃爸的更多信息被曝光

鬧大了!黃楊鈿甜的耳環(huán)是否天價已不重要,黃爸的更多信息被曝光

悠閑歷史
2025-05-20 15:57:39
年終獎50萬變成5000,我一聲不吭,客戶催款老板來求我,我:沒空

年終獎50萬變成5000,我一聲不吭,客戶催款老板來求我,我:沒空

白云故事
2025-07-02 21:10:06
不再棚改?住建部14字明確,2025年起,20年的老房子統(tǒng)一這樣處理

不再棚改?住建部14字明確,2025年起,20年的老房子統(tǒng)一這樣處理

發(fā)姐談房
2025-07-16 20:45:14
上海著名醫(yī)院換帥!享受國務(wù)院特殊津貼

上海著名醫(yī)院換帥!享受國務(wù)院特殊津貼

上觀新聞
2025-07-16 20:28:54
秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

寒士之言本尊
2025-07-15 19:10:18
徐正源妻子為何開炮?續(xù)約談判掀桌子,不和持續(xù)1年半,已被孤立

徐正源妻子為何開炮?續(xù)約談判掀桌子,不和持續(xù)1年半,已被孤立

奧拜爾
2025-07-17 07:40:07
董璇婚禮現(xiàn)場曝光!小酒窩和繼父太默契,男方被指配不上董璇!

董璇婚禮現(xiàn)場曝光!小酒窩和繼父太默契,男方被指配不上董璇!

古希臘掌管月桂的神
2025-07-16 09:40:03
2025-07-17 09:51:00
中國人工智能學(xué)會
中國人工智能學(xué)會
中國人工智能學(xué)會網(wǎng)易官方賬號
3466文章數(shù) 1482關(guān)注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發(fā)文抵制

財經(jīng)要聞

宗馥莉的繼承之戰(zhàn) 會把娃哈哈打散嗎?

汽車要聞

理想i8內(nèi)飾官圖公布 李想回應(yīng)"被打臉"

態(tài)度原創(chuàng)

教育
手機(jī)
親子
家居
房產(chǎn)

教育要聞

高中數(shù)學(xué)求函數(shù)值基礎(chǔ)題目,這道題你有思路嗎?

手機(jī)要聞

白色版三星 Galaxy S25 FE 手機(jī)渲染圖曝光:收窄“下巴”邊框

親子要聞

寶媽哭訴凌晨兩點(diǎn)手洗真絲圍嘴 網(wǎng)友:求求,別自我感動了

家居要聞

浪漫典雅 法式風(fēng)格別墅

房產(chǎn)要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宜兴市| 登封市| 盐城市| 阳新县| 伊宁县| 五家渠市| 榆树市| 都兰县| 武义县| 西峡县| 沙湾县| 福贡县| 龙江县| 阿城市| 逊克县| 穆棱市| 抚顺市| 漳平市| 辉南县| 翼城县| 成安县| 四子王旗| 安庆市| 屏南县| 怀宁县| 汉阴县| 乐至县| 邹平县| 呼和浩特市| 台中县| 渝北区| 罗山县| 北川| 蒲城县| 桃江县| 福清市| 滦南县| 合川市| 交口县| 衡阳市| 达拉特旗|