99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

李飛飛研發嫁接模型架構編輯法,讓預訓練模型成為研究架構腳手架

0
分享至

近日,美國斯坦福大學教授李飛飛等人打造出一種名為“嫁接”(grafting)的新型架構編輯方法,它能在有限的算力條件之下重構預訓練擴散 Transformer。研究團隊表示這種嫁接法既簡單又輕便,采用 8 塊英偉達 H100 GPU 在 24 小時內即可完成單項實驗,同時僅使用不到 2% 的預訓練計算資源。


(來源:arXiv)

研究中,他們使用高效替代方案替換了自注意力機制和多層感知機,借此構建了混合模型,該混合模型的弗雷歇初始距離(FID,Frechet Inception Distance)值位于 2.38 - 2.64 之間,高于基線模型的 2.27。(注:FID 是一種用于評估生成圖像與真實圖像相似度的指標。)

PixArt-∑,是由華為諾亞方舟實驗室聯合香港大學團隊、大連理工大學團隊和香港科技大學團隊研發的文本到圖像的擴散 Transformer(DiT,Diffusion Transformer)模型。本次研究之中,基于 12k 的合成數據,李飛飛等人將嫁接法用于 PixArt-∑,在評估生成質量的 GenEval 評分下降不到 2% 的情況下,讓嫁接模型實現了 1.43 倍的內容生成加速,這表明嫁接法確實能被擴展至高分辨率的文本到圖像模型之中。

隨后,他們使用嫁接法陣針對 Meta 公司推出的擴散 Transformer 模型 DiT-XL/2 進行架構重構,將每對連續的 Transformer 塊轉換為并行結構,從而使模型深度減半。在 14 層的擴散 Transformer 模型中,被重構之后的模型實現了更好的生成質量,弗雷歇初始距離(FID)值為 2.77。這些結果證明了嫁接法在短上下文和長上下文設置以及架構重構中的實用性。

這也說明通過嫁接預訓練的擴散 Transformer,可以探索新的擴散模型設計。總的來說,嫁接法是一種能在低計算成本下探索擴散 Transformer 設計的輕量級方法。


圖 | 相關論文(來源:arXiv)



預訓練模型能否作為研究新架構的“腳手架”?

研究團隊表示,與數據、算法、計算資源和基準測試一樣,模型架構設計也在機器學習中起著核心作用。模型架構設計定義了一個可學習的函數,并涉及到一些關鍵設計決策,比如算子和配置的選擇等。

盡管如此,由于從頭開始訓練模型的成本過高,尤其是在基礎模型比較流行的當下,人們依然很難深入了解哪些架構有效、哪些架構無效。因此,研究新架構仍然是一個挑戰,特別是對于生成模型而言。

類比于“新軟件基于現有代碼開發”的理念,研究團隊提出這一設想:預訓練模型能否作為研究新架構的“腳手架”?

基于這一設想,他們通過探索預訓練模型的架構編輯方法,來探索新型網絡架構的設計。

研究中,他們專注于研究擴散 Transformer,這是一類廣泛用于圖像生成和視頻生成的生成式 Transformer。

預訓練模型通過實現一個計算圖來執行圖像生成或視頻生成等任務。因此,本次研究重點探究這一問題:如何在算力有限的條件之下,通過修改模型計算圖實現架構方案的可行性驗證?

此前,業內有人認為卷積設計可以取代擴散 Transformer 中的多頭注意力或多層感知機。實現這一想法的方法之一便是使用卷積算子替換多頭注意力或多層感知機算子,同時還能保持模型質量。

而這隨之會提出以下兩個問題:

  • 第一個是算子初始化問題:在將新算子集成到計算圖中之前,如何對其進行初始化?
  • 第二個是錯誤累積問題:當多個算子集成到計算圖中時,如何有效抑制誤差傳播?

為了解決這些問題,研究團隊提出了嫁接法,嫁接過程具體如下:

  • 第一個階段是激活蒸餾:通過回歸目標蒸餾原始算子的激活特征,將原算子功能遷移至新算子。
  • 第二個階段是輕量化微調:使用有限數據進行微調,減輕由于集成多個新算子所引起的錯誤傳播。


(來源:arXiv)

對于架構編輯來說,它涉及到算子添加、算子刪除和替換算子等多種策略。本次研究聚焦于算子替換這一核心策略:即將一個算子替換為另一個算子,而其他策略可被視為特殊的替換情況。

架構編輯的空間十分廣闊,這就會引發這樣一個現實問題:應該研究什么類型的替換?

為此,研究團隊建立了一個自嫁接基線,使用隨機初始化的權重替換現有算子。他們發現通過兩階段嫁接過程可以恢復接近基線的模型質量,借此驗證了嫁接法的有效性。

在此基礎之上,他們使用高效算子替代現有算子,以便在保持質量的同時減少模型的每秒浮點運算次數(FLOP,Floating Point Operations Per Second)。

與此同時,他們還使用了增加模型每秒浮點運算次數的替代方案,以便驗證更廣泛的架構設計的可能性。

為了系統性地研究這一點,他們構建了一個基于 DiT XL/2 模型的測試平臺。利用這個測試平臺,他們通過嫁接開發了一系列混合設計方案:比如將 Softmax 注意力替換為門控卷積、局部注意力和線性注意力,以及將多層感知機替換為可變擴展率和卷積變體。(注:Softmax 注意力是注意力機制中的核心計算方式之一,已被廣泛用于 Transformer 架構及其變體。)

同時,他們設計了一套架構編輯方案,以用于評估不同嫁接策略對于模型質量的影響。期間,他們聚焦于以下幾個核心設計維度:更換哪個算子?用什么替換算子?如何選擇要編輯的層?是完全替換還是部分替換?

替換多頭注意力和多層感知機算子的動機,源于研究團隊的以下實證證據和架構考量:對于多頭注意力,注意力局部性分析表明它更適合采用局部算子;對于多層感知機,研究團隊決定采用已有的架構思想。

在兩個頗有挑戰性的生成式建模場景中,他們驗證了嫁接法的效果。

在第一個場景中,即在類條件圖像生成任務中,嫁接法產生了具有良好質量的混合架構設計效果。對于多頭注意力即 Softmax 注意力,研究團隊探索了幾種替代方案:局部門控卷積、局部注意和線性注意力。對于多層感知機,替代方案包括具有可變擴展比的多層感知機和卷積變體。有趣的是,幾種交錯混合架構設計實現了 2.38-2.64 弗雷歇初始距離(FID),這表明嫁接法可以構建高質量的混合架構。


(來源:arXiv)

在第二個場景中,研究團隊通過架構嫁接技術,構建了面向高分辨率文生圖(T2I,text-to-image)任務的高效混合架構。他們在一個具有挑戰性的現實環境中驗證了嫁接法:即使用 PixArt-∑ 模型進行 2048×2048 分辨率的文本到圖像生成。這種實驗設置集中體現了三大核心挑戰:第一個挑戰是需要進行 16384 tokens 的長序列處理;第二個挑戰是需要進行多模態文本條件集成;第三個挑戰是訓練數據較為匱乏。期間,他們針對多頭注意力算子進行嫁接,之所以這樣做是因為它們占生成延遲的 62% 以上。通過使用數量為 12k 的合成數據,讓嫁接模型實現了 1.43 倍的加速,評估生成質量的 GenEval 評分下降不到 2%,這表明嫁接法可以擴展到高分辨率的文本到圖像模型之中。


(來源:arXiv)



將把嫁接法推至自回歸模型等其他模型家族

總的來說,嫁接技術展現出了廣闊的應用前景,包括將模型從低分辨率生成調整到高分辨率生成,將理解能力和生成能力從短視頻擴展到長視頻,或在圖像編輯等交互式應用中改善用戶體驗。在這些應用中,即使是 10% 的速度提升也很有益。

需要說明的是,本次研究之中 PixArt-Σ 模型的設置使用合成數據進行嫁接,這可能會將偽影和偏差傳播到嫁接后的模型之中。雖然本次研究側重于架構編輯,但是那些在嫁接下表現良好的架構,在從頭開始訓練時是否也能表現良好?這仍然是一個未知數。

另外,本次工作主要側重于預訓練擴散 Transformer 的架構編輯,特別是針對多頭注意力和多層感知機組件。針對其他架構組件比如歸一化層和激活函數,研究團隊將在后續進行研究。

在本次研究之中,所開展的實驗主要集中在擴散 Transformer 上,而將嫁接法推廣到其他模型家族比如自回歸模型,是他們未來的研究方向之一。此外,針對應變分自編碼器(VAEs,Variational Autoencoders)中的組件嫁接也有待在未來進行探索。

參考資料:

https://arxiv.org/pdf/2506.05340

排版:初嘉實

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
凈作妖!高考本嚴肅,一些家長整得另類被怒斥,把褲子脫了都沒用

凈作妖!高考本嚴肅,一些家長整得另類被怒斥,把褲子脫了都沒用

火山詩話
2025-06-08 17:04:58
盧克文:我們現在的生活遠超發展中國家,娶中亞人也有體味

盧克文:我們現在的生活遠超發展中國家,娶中亞人也有體味

春序娛樂
2025-06-09 12:50:16
越“尊貴”,越昂貴?淘寶天貓“88VIP”會員吐槽遭“6·18殺熟”

越“尊貴”,越昂貴?淘寶天貓“88VIP”會員吐槽遭“6·18殺熟”

中國能源網
2025-06-09 10:15:05
器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

逍遙論經
2025-06-08 09:30:22
伯父透露韋東奕年薪60萬,每月開銷不到300元,不像教授的樣子

伯父透露韋東奕年薪60萬,每月開銷不到300元,不像教授的樣子

趣文說娛
2025-06-09 09:54:58
電影《醬園弄》是火了,可一件最令我擔心的事,也在發生

電影《醬園弄》是火了,可一件最令我擔心的事,也在發生

皮皮電影
2025-06-09 09:41:20
張柏芝景德鎮出席活動,新中式裝扮溫婉大氣 骨相美女果真名不虛傳

張柏芝景德鎮出席活動,新中式裝扮溫婉大氣 骨相美女果真名不虛傳

手工制作阿殲
2025-06-09 00:39:10
Galaxy S25 Ultra阻擋彈片挽救烏克蘭士兵的生命 三星表示將免費維修

Galaxy S25 Ultra阻擋彈片挽救烏克蘭士兵的生命 三星表示將免費維修

cnBeta.COM
2025-06-09 03:37:18
嚴查違規吃喝后,黨員干部8小時之外生活呈現新氣象

嚴查違規吃喝后,黨員干部8小時之外生活呈現新氣象

童童聊娛樂啊
2025-06-09 11:32:59
黃圣依自爆初戀是賈乃亮,分手后常聯系,回看之前同臺全是修羅場

黃圣依自爆初戀是賈乃亮,分手后常聯系,回看之前同臺全是修羅場

布丁樹洞
2025-06-08 19:06:05
“我沒舍利子,別燒!”星云大師留遺言,弟子不聽,結果燒出25顆

“我沒舍利子,別燒!”星云大師留遺言,弟子不聽,結果燒出25顆

悅悅侃歷史
2025-06-08 14:32:09
崩潰!朋友吐槽到廣州旅游親戚,在家借住窒息體驗,嘆:人情災難

崩潰!朋友吐槽到廣州旅游親戚,在家借住窒息體驗,嘆:人情災難

珊姐姐
2025-06-08 12:49:02
莫斯科最大工業區遇襲起火!俄地圖公司泄露關鍵基地位置

莫斯科最大工業區遇襲起火!俄地圖公司泄露關鍵基地位置

項鵬飛
2025-06-07 21:07:43
雖然毛主席享年83歲,但保健醫生卻說:毛主席并不具備長壽條件

雖然毛主席享年83歲,但保健醫生卻說:毛主席并不具備長壽條件

史料布籍
2025-06-08 17:27:43
C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強隊競爭

直播吧
2025-06-09 08:22:11
中美預判成真?俄“末日電報”突然異響,澤連斯基要求面見普京

中美預判成真?俄“末日電報”突然異響,澤連斯基要求面見普京

空天力量
2025-06-08 10:06:38
救命!狗子把貓舔成“芒果核”沖上熱搜,受害貓連夜寫投訴信:這發型沒法見人了!

救命!狗子把貓舔成“芒果核”沖上熱搜,受害貓連夜寫投訴信:這發型沒法見人了!

貓來了
2025-06-09 12:07:24
浙江一女子當眾拍不雅視頻,畫面流出,身份被扒,真相令人作嘔

浙江一女子當眾拍不雅視頻,畫面流出,身份被扒,真相令人作嘔

博士觀察
2025-06-09 10:54:14
大陸對“臺獨”頑固分子沈伯洋父親公司實施制裁,郭正亮:看他以后還怎么扣別人帽子

大陸對“臺獨”頑固分子沈伯洋父親公司實施制裁,郭正亮:看他以后還怎么扣別人帽子

環球網資訊
2025-06-09 09:38:57
兒子讀研究生,我和老婆每月給他生活費8000,他瞞著我們兩年當了爸

兒子讀研究生,我和老婆每月給他生活費8000,他瞞著我們兩年當了爸

風起青萍之未
2025-06-08 19:18:04
2025-06-09 14:59:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15269文章數 513760關注度
往期回顧 全部

科技要聞

被甩在身后,蘋果AI急了,WWDC是最后機會?

頭條要聞

泡泡瑪特王寧財富再創新高 進入福布斯中國實時榜前十

頭條要聞

泡泡瑪特王寧財富再創新高 進入福布斯中國實時榜前十

體育要聞

“從來沒想過,我會成為英超最佳球員候選”

娛樂要聞

黃圣依首曝初戀是賈乃亮 仍保持聯系

財經要聞

美國“內戰”開始了

汽車要聞

小鵬G7將于6月11日亮相 首款具有L3級算力的AI汽車

態度原創

游戲
藝術
家居
親子
房產

6月Xbox游戲發布會匯總:COD22 P4R Xbox掌機公開

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

簡約輕奢 現代實用私宅

親子要聞

關注“新”高發疾病,兒童健康管家落地社區

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 陕西省| 南陵县| 昆明市| 秭归县| 深圳市| 申扎县| 石柱| 芜湖县| 德安县| 新丰县| 无极县| 竹溪县| 广州市| 蚌埠市| 财经| 拜城县| 巢湖市| 驻马店市| 射洪县| 澄迈县| 佛坪县| 太原市| 迁安市| 资中县| 无为县| 舟曲县| 错那县| 县级市| 章丘市| 滁州市| 仪征市| 静海县| 卓尼县| 邵阳县| 来安县| 合阳县| 肇庆市| 江孜县| 包头市| 定结县| 宿州市|