99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

李飛飛團(tuán)隊(duì)DiT設(shè)計(jì)新思路:不重訓(xùn)直接「嫁接」,質(zhì)量還提高了

0
分享至

機(jī)器之心報(bào)道

編輯:欣東、陳陳

本文介紹了一種名為「嫁接」的技術(shù),用于在小計(jì)算預(yù)算下通過編輯預(yù)訓(xùn)練 Diffusion Transformers(簡(jiǎn)稱 DiTs)來探索新的模型架構(gòu)設(shè)計(jì)。這種方法允許研究者在不從頭開始訓(xùn)練模型的情況下,通過替換模型中的某些算子(如 MLP)來創(chuàng)建新的混合架構(gòu),從而在保持模型質(zhì)量的同時(shí)減少計(jì)算量。

模型架構(gòu)設(shè)計(jì)在機(jī)器學(xué)習(xí)中扮演著核心角色,與數(shù)據(jù)、算法、算力和基準(zhǔn)測(cè)試一樣重要。它定義了模型函數(shù)、算子選擇(如注意力機(jī)制、卷積)和配置設(shè)定(如模型深度、寬度)等等模型要素。

盡管如此,由于從頭訓(xùn)練模型的成本過高 —— 尤其人們難以獲得關(guān)于架構(gòu)設(shè)計(jì)的深刻洞見(即哪些方案有效、哪些無效)。因此,研究新架構(gòu)仍是一項(xiàng)挑戰(zhàn),對(duì)生成模型而言尤為如此。

在本文中,來自斯坦福大學(xué)、 Liquid AI 等機(jī)構(gòu)的研究者探索了這一問題,即對(duì)預(yù)訓(xùn)練模型進(jìn)行架構(gòu)編輯來研究新架構(gòu)。



  • 論文鏈接:https://arxiv.org/pdf/2506.05340v1
  • 論文主頁:https://grafting.stanford.edu/
  • 論文標(biāo)題: Exploring Diffusion Transformer Designs via Grafting

具體而言,該研究提出了一種編輯預(yù)訓(xùn)練擴(kuò)散 transformer(DiT)的簡(jiǎn)單方法,即 Grafting(嫁接),該方法可以在較小的計(jì)算預(yù)算下實(shí)現(xiàn)新的架構(gòu)。

嫁接過程如下:

(i)激活蒸餾:此階段通過回歸目標(biāo)(regression objective)蒸餾原始算子的激活特征,將其功能遷移至新算子。該階段核心在于實(shí)現(xiàn)算子間的功能傳遞。

(ii)輕量級(jí)調(diào)優(yōu):此階段通過使用有限的數(shù)據(jù)進(jìn)行調(diào)優(yōu),減輕了由于集成多個(gè)新算子而導(dǎo)致的誤差傳播。

此外,架構(gòu)編輯還涵蓋多種策略,如添加、刪除和替換算子。



本文還基于 DiT-XL/2 構(gòu)建了一個(gè)測(cè)試平臺(tái),以研究嫁接對(duì)模型質(zhì)量的影響。

利用該測(cè)試平臺(tái),本文通過嫁接技術(shù)開發(fā)了一系列混合設(shè)計(jì):用門控卷積、局部注意力和線性注意力取代 Softmax 注意力,用可變擴(kuò)展率和卷積變體取代 MLP。

值得注意的是,許多混合設(shè)計(jì)使用不到 2% 的預(yù)訓(xùn)練計(jì)算資源就實(shí)現(xiàn)了良好的質(zhì)量(FID:2.38–2.64,而 DiT-XL/2 為 2.27)。然后,本文嫁接了一個(gè)文本轉(zhuǎn)圖像模型 (PixArt-Σ),實(shí)現(xiàn)了 1.43 倍的加速,而 GenEval 分?jǐn)?shù)下降不到 2%。

最后,本文展示了一個(gè)案例研究,該研究通過嫁接技術(shù)將每對(duì)序列 Transformer 模塊轉(zhuǎn)換為并行模塊,從而重構(gòu)了 DiT-XL/2。這將模型深度減少到原來一半,并獲得了比其他同等深度模型更高的質(zhì)量(FID:2.77)。

總而言之,該研究展示了可以通過預(yù)訓(xùn)練 DiT 來探索新的擴(kuò)散模型設(shè)計(jì),其修改范圍涵蓋從算子替換到架構(gòu)重構(gòu)。

嫁接擴(kuò)散 Transformer

兩階段嫁接方法

嫁接旨在通過編輯預(yù)訓(xùn)練模型的計(jì)算圖來實(shí)現(xiàn)新架構(gòu)。由于該研究專注于用替代方案替換現(xiàn)有算子,這引出了兩個(gè)問題:

問題 1:在將新算子集成到計(jì)算圖之前,應(yīng)該如何初始化?

對(duì)應(yīng)第一階段:通過激活蒸餾進(jìn)行初始化。由于 DiT 的激活是連續(xù)且平滑的,這可以被視為一個(gè)回歸問題:

問題 2:當(dāng)多個(gè)算子集成到計(jì)算圖時(shí),如何減輕誤差傳播?

對(duì)應(yīng)第二階段:輕量級(jí)調(diào)優(yōu)。隨著更多算子被替換,初始化誤差會(huì)不斷傳播,導(dǎo)致與預(yù)訓(xùn)練模型的行為出現(xiàn)偏差。

本文采用端到端微調(diào)來緩解階段 1 的累積誤差。微調(diào)目標(biāo)函數(shù)如公式 1 所示。

實(shí)踐中,本文發(fā)現(xiàn),即使替換 DiT-XL/2 中的所有 MHA 或 MLP 層,僅使用 10% 的訓(xùn)練數(shù)據(jù)也能恢復(fù)競(jìng)爭(zhēng)性能。

自嫁接基準(zhǔn)

在研究新的架構(gòu)設(shè)計(jì)之前,該研究引入了自嫁接(self-grafting),這是一種簡(jiǎn)單的對(duì)照設(shè)置:將現(xiàn)有算子(如 MHA、MLP)替換為相同類型但權(quán)重隨機(jī)初始化的算子。這樣可以保持計(jì)算圖的結(jié)構(gòu) —— 包括算子類型和參數(shù)數(shù)量 —— 但改變了具體的計(jì)算過程。自嫁接有三方面作用:(1)評(píng)估在不改變架構(gòu)的情況下嫁接流程本身的效果;(2)為比較不同的替換方案提供一個(gè)性能基準(zhǔn);(3)研究影響性能的因素,如數(shù)據(jù)規(guī)模、回歸目標(biāo)和超參數(shù)。

激活行為分析以及自嫁接結(jié)果

本文首先分析了 DiT-XL/2 層中的 MHA 和 MLP 算子激活行為。在這兩種情況下,本文觀察到激活值存在較大差異,尤其是在較深的層中(表 1 (i, ii))。



經(jīng)過分析,本文得出通過選擇特定于算子的回歸目標(biāo),可以實(shí)現(xiàn)高質(zhì)量的初始化。

如表 1 (iii,iv) 所示,回歸目標(biāo)的選擇會(huì)影響性能。對(duì)于 MHA,L1 實(shí)現(xiàn)了最佳 FID(2.51),其次是 Huber(2.55)和 L2(2.58)。對(duì)于 MLP,L2 表現(xiàn)最佳(2.33),而 L1 表現(xiàn)不佳(2.83);值得注意的是,MLP 的參數(shù)量是 MHA 的 2 倍。

這表明高質(zhì)量的初始化需要量身定制的、激活感知的策略。

研究還發(fā)現(xiàn),使用 10% 的數(shù)據(jù)進(jìn)行完全自嫁接可實(shí)現(xiàn)接近基線的性能。表明在適度的數(shù)據(jù)和計(jì)算預(yù)算下完全自嫁接是可行的。



實(shí)驗(yàn)

實(shí)驗(yàn) I:通過嫁接實(shí)現(xiàn)混合架構(gòu)

本節(jié)實(shí)驗(yàn)圍繞這個(gè)問題進(jìn)行:當(dāng)現(xiàn)有算子被高效的替代方案取代時(shí),我們能否保持模型質(zhì)量?

為了探究這個(gè)問題,本文研究了以下嫁接過程:

1. 待替換算子的類型 ——MHA 或 MLP;

2. 替換算子的類型 —— 例如卷積;

3. 層選擇策略 —— 替換所有層中的算子或使用啟發(fā)式選擇;

4. 替換率 —— 全部替換或部分替換。

為了實(shí)驗(yàn),該研究構(gòu)建了一個(gè)測(cè)試平臺(tái),并提出兩種層選擇策略:完全替換和交錯(cuò)替換。測(cè)試平臺(tái)詳見表 3。



此外,該研究還引入了 Hyena-X 和 Hyena-Y 兩種新的高效門控卷積算子,并設(shè)計(jì)為 MHA 的直接替代品。Figure 3 展示了它們的結(jié)構(gòu)。



MHA 結(jié)果。通過嫁接替換 DiT-XL/2 中的 MHA 算子,獲得了良好的質(zhì)量 - 效率權(quán)衡。主要發(fā)現(xiàn)如下:

在交錯(cuò)嫁接下,較小的感受野表現(xiàn)出驚人的效果。實(shí)驗(yàn)發(fā)現(xiàn),在 50% 交錯(cuò)替換比例下,滑動(dòng)窗口注意力(SWA)、Hyena-X/Y 和 Mamba-2 等替代方案均能保持 FID 分?jǐn)?shù)與基線(2.27)差距在 0.5 以內(nèi)。尤其值得注意的是,盡管 SWA 和 Hyena 變體的感受野有限(卷積核 K=4 / 窗口 w=4),其 FID 下降幅度卻極小。

替換策略:交錯(cuò)替換 vs. 完全替換。將交錯(cuò)替換比例從 50% 提升至 75% 時(shí),性能通常下降,但 SWA 在 75% 交錯(cuò)替換下仍有效(FID=3.09)。100% 替換時(shí),性能急劇惡化(所有 FID > 75),這與局部性分析一致,表明只有部分層是局部且適合嫁接的。

數(shù)據(jù)規(guī)模和層選擇的消融實(shí)驗(yàn)結(jié)果。



MLP 結(jié)果顯示通過嫁接的方式替換 MLP 算子是有效的。

經(jīng)過實(shí)驗(yàn),得出要點(diǎn) 1:嫁接對(duì)于在較小的計(jì)算預(yù)算下構(gòu)建具有良好生成質(zhì)量的高效混合架構(gòu)非常有效。交錯(cuò)設(shè)計(jì)尤其有效。

實(shí)驗(yàn) II:通過嫁接改進(jìn)文本到圖像的擴(kuò)散 Transformers

結(jié)果。嫁接模型在實(shí)時(shí)計(jì)算速度(wall-clock time)上實(shí)現(xiàn)了 1.43 倍的提升,同時(shí)生成評(píng)估分?jǐn)?shù)(GenEval)僅出現(xiàn)小幅下降(47.78 vs. 49.75)。特定屬性的指標(biāo)(Attribute-specific metrics)基本保持可比,并且定性樣本也展現(xiàn)出良好的對(duì)齊度和質(zhì)量。在一些紋理區(qū)域觀察到了局部性的失真(artifacts),這可能是由于 LoRA 的適應(yīng)能力以及所使用的合成數(shù)據(jù)質(zhì)量不高所致(失敗案例詳見圖 D.3,D.4)





要點(diǎn) 2:在文生圖 DiTs 中成功應(yīng)用嫁接技術(shù),構(gòu)建的混合架構(gòu)在實(shí)現(xiàn)顯著加速的同時(shí),生成質(zhì)量損失極小。

了解更多內(nèi)容,請(qǐng)參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
阿爾馬達(dá)世界波救主!阿根廷5戰(zhàn)不敗,神跡延續(xù)32年,連刷3紀(jì)錄

阿爾馬達(dá)世界波救主!阿根廷5戰(zhàn)不敗,神跡延續(xù)32年,連刷3紀(jì)錄

奧拜爾
2025-06-11 10:00:25
國家發(fā)展改革委:推動(dòng)有條件的大城市逐步實(shí)現(xiàn)嵌入式等普惠托育覆蓋80%以上的社區(qū)

國家發(fā)展改革委:推動(dòng)有條件的大城市逐步實(shí)現(xiàn)嵌入式等普惠托育覆蓋80%以上的社區(qū)

財(cái)聯(lián)社
2025-06-10 11:12:28
長(zhǎng)點(diǎn)心吧!明星連高考祝福語都寫錯(cuò),網(wǎng)友:又一批絕望的文盲誕生

長(zhǎng)點(diǎn)心吧!明星連高考祝福語都寫錯(cuò),網(wǎng)友:又一批絕望的文盲誕生

不似少年游
2025-06-11 08:00:03
原來家中不能亂燒香,高僧開示,這三個(gè)錯(cuò)誤正在撕碎你的福報(bào)

原來家中不能亂燒香,高僧開示,這三個(gè)錯(cuò)誤正在撕碎你的福報(bào)

阿珂讀書
2025-06-08 10:05:54
關(guān)鍵時(shí)刻進(jìn)球拯救球隊(duì),阿爾馬達(dá)最近5場(chǎng)為阿根廷貢獻(xiàn)3球1助

關(guān)鍵時(shí)刻進(jìn)球拯救球隊(duì),阿爾馬達(dá)最近5場(chǎng)為阿根廷貢獻(xiàn)3球1助

雷速體育
2025-06-11 11:44:04
商家太委屈!有些媽媽新買的旗袍標(biāo)簽都未撕,高考結(jié)束就退回去…

商家太委屈!有些媽媽新買的旗袍標(biāo)簽都未撕,高考結(jié)束就退回去…

火山詩話
2025-06-11 10:32:18
倫敦談判結(jié)束,極大利好中國!

倫敦談判結(jié)束,極大利好中國!

貧民窟的大富翁
2025-06-11 11:22:53
18歲199天!王鈺棟轟國足處子球,瘋狂脫衣慶祝,隊(duì)史僅次2人

18歲199天!王鈺棟轟國足處子球,瘋狂脫衣慶祝,隊(duì)史僅次2人

奧拜爾
2025-06-10 20:56:06
中國經(jīng)濟(jì)樣本觀察·“鎮(zhèn)”了不起|“內(nèi)衣小鎮(zhèn)”織出500億元“里子產(chǎn)業(yè)”

中國經(jīng)濟(jì)樣本觀察·“鎮(zhèn)”了不起|“內(nèi)衣小鎮(zhèn)”織出500億元“里子產(chǎn)業(yè)”

新華社
2025-06-10 11:01:12
巨變!全球資金大遷移!下一個(gè)暴漲地!

巨變!全球資金大遷移!下一個(gè)暴漲地!

米宅海外
2025-06-11 08:08:39
想要復(fù)制“蘇超”,先問問自己能否容下那些虎狼之詞

想要復(fù)制“蘇超”,先問問自己能否容下那些虎狼之詞

元芳有看法
2025-06-10 15:12:45
寒心!37歲無臂網(wǎng)紅楊佩產(chǎn)子,雙腿累到虛脫,丈夫卻只顧著玩手機(jī)

寒心!37歲無臂網(wǎng)紅楊佩產(chǎn)子,雙腿累到虛脫,丈夫卻只顧著玩手機(jī)

素衣讀史
2025-06-10 16:35:22
《長(zhǎng)安的荔枝》:天寶十三載到底發(fā)生了什么?左右相分別是誰?

《長(zhǎng)安的荔枝》:天寶十三載到底發(fā)生了什么?左右相分別是誰?

阿器談史
2025-06-11 06:51:20
恭喜!丁彥雨航官宣戀情,與美麗女友看煙花+擁吻,郭艾倫躺槍

恭喜!丁彥雨航官宣戀情,與美麗女友看煙花+擁吻,郭艾倫躺槍

李喜林籃球絕殺
2025-06-10 11:57:15
黃楊鈿甜又有新后續(xù)!黃爸連夜"跑路",市監(jiān)局曝黃爸變更公司細(xì)節(jié)

黃楊鈿甜又有新后續(xù)!黃爸連夜"跑路",市監(jiān)局曝黃爸變更公司細(xì)節(jié)

姩姩有娛呀
2025-06-10 18:53:39
國足榮譽(yù)戰(zhàn)也是謝幕戰(zhàn)!30+老將集體告別,塞鳥或挑大梁

國足榮譽(yù)戰(zhàn)也是謝幕戰(zhàn)!30+老將集體告別,塞鳥或挑大梁

奧拜爾
2025-06-10 20:58:59
為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

神奇故事
2025-06-09 23:53:51
又領(lǐng)先行業(yè)!去年供應(yīng)鏈就稱小米汽車賬期是60天 雷軍從不拖供應(yīng)商賬

又領(lǐng)先行業(yè)!去年供應(yīng)鏈就稱小米汽車賬期是60天 雷軍從不拖供應(yīng)商賬

快科技
2025-06-11 10:50:08
老家拆遷到賬584萬,爸爸打電話讓我回去分錢,想到以前我直接關(guān)機(jī)

老家拆遷到賬584萬,爸爸打電話讓我回去分錢,想到以前我直接關(guān)機(jī)

蕭竹輕語
2025-05-21 17:55:41
公安部的禁酒令及宴請(qǐng)規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

公安部的禁酒令及宴請(qǐng)規(guī)定:公職人員下班聚餐和飲酒也算違規(guī)?

二月侃事
2025-05-28 08:18:10
2025-06-11 13:43:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10619文章數(shù) 142336關(guān)注度
往期回顧 全部

科技要聞

比亞迪凌晨宣布!助力中小企業(yè)健康發(fā)展

頭條要聞

中國雙航母同時(shí)在太平洋航行 日本通報(bào)被指"一驚一乍"

頭條要聞

中國雙航母同時(shí)在太平洋航行 日本通報(bào)被指"一驚一乍"

體育要聞

一位中國老板,復(fù)興了歐洲百年俱樂部

娛樂要聞

唐嫣卷入熱巴換角風(fēng)波 楊冪也被牽連?

財(cái)經(jīng)要聞

Labubu神話下的雜音

汽車要聞

5萬級(jí)5座純電微型車 奇瑞QQ多米正式上市

態(tài)度原創(chuàng)

親子
健康
教育
時(shí)尚
旅游

親子要聞

如何對(duì)幼兒園的經(jīng)費(fèi)進(jìn)行管理和監(jiān)督?

減重專家破解減肥九大謠言!

教育要聞

準(zhǔn)考證當(dāng)門票,拉著小伙伴一起暢游山東

今夏穿“渣女衫+半裙”的你,好看極了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日土县| 章丘市| 临邑县| 寿光市| 桐庐县| 周至县| 文成县| 南和县| 增城市| 宁强县| 行唐县| 徐水县| 辽宁省| 东宁县| 神池县| 金湖县| 南汇区| 铁力市| 政和县| 灌云县| 玛曲县| 搜索| 庄浪县| 延长县| 江油市| 花垣县| 焦作市| 延吉市| 甘南县| 永仁县| 濮阳市| 西城区| 鹿邑县| 神池县| 东安县| 巴林右旗| 台东市| 罗定市| 克东县| 双牌县| 台中市|