99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

人民大學&字節Seed:利用μP實現Diffusion Transformers高效擴展

0
分享至



本文由中國人民大學高瓴人工智能學院李崇軒團隊和字節跳動Seed團隊共同完成。第一作者鄭晨宇是中國人民大學高瓴人工智能學院二年級博士生,主要研究方向為基礎模型的優化、泛化和可擴展性理論,導師為李崇軒副教授,論文為其在字節跳動Seed實習期間完成。第二作者張新雨是字節跳動研究員,主要研究方向為視覺生成模型。李崇軒副教授為唯一通訊作者。

近年來,diffusion Transformers已經成為了現代視覺生成模型的主干網絡。隨著數據量和任務復雜度的進一步增加,diffusion Transformers的規模也在快速增長。然而在模型進一步擴大的過程中,如何調得較好的超參(如學習率)已經成為了一個巨大的問題,阻礙了大規模diffusion Transformers釋放其全部的潛能。

為此,人大高瓴李崇軒團隊和字節跳動Seed團隊的研究員引入了大語言模型訓練中的μP理論,并將其擴展到diffusion Transformers的訓練中。μP通過調整網絡不同模塊的初始化和學習率,實現不同大小diffusion Transformers共享最優的超參,使得小模型上搜到的超參可以直接遷移到最終大模型上進行訓練,從而極大地減小了超參搜索的耗費。

團隊在DiT,PixArt和MMDiT(Stable Diffusion的基座)上進行了系統的大規模實驗驗證。在MMDiT的實驗中,0.18B小模型上搜得的超參成功被用在18B大模型的訓練中,并擊敗了人工專家的手調基線。其中,小模型超參搜索的計算量(FLOPs)僅是專家手調的3%左右。

團隊已在近期開放在線論文,并開源代碼。



  • 論文鏈接:
  • https://arxiv.org/abs/2505.15270
  • 代碼倉庫:
  • https://github.com/ML-GSAI/Scaling-Diffusion-Transformers-muP

μP的背景和問題

μP全稱為最大更新參數化(Maximal Update Parametrization),是Tensor Program無窮寬網絡理論系列中的里程碑之作,相關結果已被理論證明適用于標準的Transformer架構。μP的算法實現簡潔,對于應用最為廣泛的AdamW優化器而言,μP只需要調整隱藏層權重的學習率,和輸出層權重的系數以及初始化。μP在實際中被廣泛發現能夠實現不同大小的標準Transformer共享最優的超參,使得小模型上搜到的超參可以直接遷移到大模型,極大地減小了超參搜索的耗費。由于μP帶來了穩定的超參遷移性質,它近年來已經被成功使用在大語言模型(標準Transformer)的預訓練中。

然而,diffusion Transformers和標準Transformer存在較大的差異。從架構上來看,diffusion Transformers引入了額外的模塊來處理并整合文本信息,如DiT中的adaLN block。從任務目標上來看,diffusion Transformers處理的是視覺的擴散學習任務,而標準Transformer主要處理的是語言的自回歸學習任務。這兩點差異意味著已有的μP形式及其超參遷移律在視覺diffusion Transformers中不一定成立。針對這一問題,團隊從理論和實踐上進行了系統的研究。

Diffusion Transformers的μP形式

團隊首先從理論上研究了主流diffusion Transformers的μP形式,包括DiT,U-ViT,PixArt-α和MMDiT。Tensor Program理論系列中的結果表明,如果網絡架構能夠被Tensor Program中定義的算子表示,那么現有的μP形式就能成立?;谶@個理論技術,我們證明了:即使主流diffusion Transformers的結構不同于標準Transformer,它們也能夠被Tensor Program表示,因此現有的μP理論和相關實踐可以被無痛遷移到這些主流diffusion Transformers上。我們的證明技術也可以被遷移到其它的diffusion Transformers做類似的分析。

總之,diffusion Transformers的μP方法論可以由下圖總結。我們首先基于μP理論,調節不同權重的系數、初始化和學習率。然后,我們在一系列小模型上搜索得到最優的超參。最后,我們將最優的超參直接遷移到大模型的訓練。



基于μP擴展Diffusion Transformers:初探

首先,我們使用DiT網絡在ImageNet數據集上系統地驗證了:當網絡寬度,數據批量大小和訓練步數足夠大時(如寬度達到144,批量大小達到256),超參便可以較為穩定地沿著不同的網絡寬度,數據批量大小和訓練步數進行遷移。這意味著我們能在網絡寬度,數據批量大小和訓練步數都更小的代理任務上搜索超參,然后遷移到最終大網絡大數據的訓練。



然后,為了驗證μP超參遷移的有效性,我們將最優的超參(學習率2^-10)直接遷移到DiT-XL-2的訓練中,我們發現,當模型訓練到2.4M步時,FID-50K就已經超過了原論文7M步最終的FID-50K結果,DiT-XL-2-μP的收斂速度是原論文的2.9倍。這向我們展現了利用μP遷移超參做擴展的良好前景。



基于μP擴展Diffusion Transformers:大規模驗證



我們進一步在大規模的文生圖任務上驗證了μP擴展diffusion Transformers的有效性。我們首先考慮了流行的開源文生圖模型PixArt-α,我們在0.04B的代理模型上搜索學習率,并遷移到最終0.61B大小PixArt-α的訓練。其中,小模型搜索超參的計算量總和(FLOPs)僅為一次訓練的5.5%。利用搜索得到的學習率,PixArt-α-μP在訓練的過程中穩定地取得了比基線更好的效果。



最后,我們考慮了SD3的基座模型MMDiT,并將驗證的規模提高到了18B的量級。為了能夠給社區帶來更多的可信的實踐經驗,我們在 4個超參(學習率,梯度裁剪值,REPA loss的權重以及warmup的步數)上進行了多達80次的隨機搜索,總搜索計算量(FLOPs)約是人工手調的3%。在0.18B模型上的超參搜索結果表明,我們學習率,梯度裁剪值,REPA loss都對結果有影響,其中學習率的影響仍是最為關鍵的。而warmup的步數則對結果影響不大。



我們將0.18B模型上搜索的超參應用在了18B模型的訓練上,不論從訓練loss的變化還是從人工評測的結果,MMDiT-μP都穩定地超過了人工專家手調的基線,而μP的超參搜索FLOPs僅是人工手調的3%!



經過這一系列系統的實驗探索,我們證明了μP是科學擴展diffusion Transformers的有效手段,我們也相信μP會是未來基礎模型擴展的必備利器。通過本工作的大量努力,我們希望讓社區了解μP理論,擁抱μP實踐,思考理論上最優的智能擴展范式(模型大小,數據量,推理時間)。我們也相信,放眼人工智能的長遠未來,類似μP的底層理論的發展仍然是必不可少的,也必將會在未來的大規模實踐中有著不可或缺的一席之地。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視門面活動主持陣容調整,撒貝寧位置不變,任魯豫被頂替

央視門面活動主持陣容調整,撒貝寧位置不變,任魯豫被頂替

南南說娛
2025-06-25 16:01:58
福耀科技大“天塌了”!東方理工獎勵20萬、免學費:搶660左右生源

福耀科技大“天塌了”!東方理工獎勵20萬、免學費:搶660左右生源

阿傖說事
2025-06-26 10:49:07
體檢發現這10種病,其實不用治!“假警報”把很多人嚇夠嗆!

體檢發現這10種病,其實不用治!“假警報”把很多人嚇夠嗆!

人民日報健康客戶端
2025-06-26 07:36:16
鐘麗緹倆女兒美國逛街,Jaden考拉從顏值到身材都無可挑剔,硬美

鐘麗緹倆女兒美國逛街,Jaden考拉從顏值到身材都無可挑剔,硬美

玫瑰講娛
2025-06-26 19:02:37
官方:7月起我國各級賽事將采取新規則;門將持球不得超8秒

官方:7月起我國各級賽事將采取新規則;門將持球不得超8秒

懂球帝
2025-06-26 17:28:12
高考后,民政局迎來離婚潮,父母排隊離婚,工作人員:很難挽回了

高考后,民政局迎來離婚潮,父母排隊離婚,工作人員:很難挽回了

青眼財經
2025-06-26 19:58:19
甘肅突發罕見山洪,仍有5人失聯

甘肅突發罕見山洪,仍有5人失聯

中國新聞周刊
2025-06-26 18:40:03
伊朗全國清理“內鬼”,一查結果觸目驚心,首都搜出上萬架無人機

伊朗全國清理“內鬼”,一查結果觸目驚心,首都搜出上萬架無人機

阿纂看事
2025-06-26 17:18:22
四川土皇帝董憶:獨霸雅安12年無人敢惹,金三角有人花3000萬保費

四川土皇帝董憶:獨霸雅安12年無人敢惹,金三角有人花3000萬保費

碎碎紀實
2025-06-06 17:05:08
王思聰的110萬元電視壞了 維修超簡單 像拼樂高

王思聰的110萬元電視壞了 維修超簡單 像拼樂高

快科技
2025-06-26 18:32:08
巴厘島情侶自殺案,警方恢復男友聊天記錄,父母看到后眼淚止不住

巴厘島情侶自殺案,警方恢復男友聊天記錄,父母看到后眼淚止不住

懸案解密檔案
2025-06-26 09:26:01
曝譚松韻離婚,她沒有想象中單純,本人曾回應是結了,但是又離了

曝譚松韻離婚,她沒有想象中單純,本人曾回應是結了,但是又離了

八星人
2025-06-25 15:38:15
馮德萊恩對華再次變卦,想玩聯美抗中?歐洲企業被中美兩頭夾擊

馮德萊恩對華再次變卦,想玩聯美抗中?歐洲企業被中美兩頭夾擊

平祥生活日志
2025-06-26 18:52:46
女兒高考查分“69”開頭,全家慶祝清北穩了,拿掉身份證后卻傻眼

女兒高考查分“69”開頭,全家慶祝清北穩了,拿掉身份證后卻傻眼

妍妍教育日記
2025-06-26 16:58:15
今年深圳普通高中錄取率超73%

今年深圳普通高中錄取率超73%

金臺資訊
2025-06-26 14:24:48
掘記:除非楊瀚森真是年輕版約基奇 否則我搞不懂開拓者在干嘛

掘記:除非楊瀚森真是年輕版約基奇 否則我搞不懂開拓者在干嘛

直播吧
2025-06-26 10:36:32
上海樂高樂園外露天堆滿垃圾 城管部門出手了

上海樂高樂園外露天堆滿垃圾 城管部門出手了

看看新聞Knews
2025-06-26 19:33:28
特朗普希望中國購買堆積在墨西哥灣港口的美國頁巖油

特朗普希望中國購買堆積在墨西哥灣港口的美國頁巖油

老友科普
2025-06-26 11:39:07
國家級運動健將+高考462分!四川資陽“田徑甜妹”劉峽君有望沖刺清北

國家級運動健將+高考462分!四川資陽“田徑甜妹”劉峽君有望沖刺清北

封面新聞
2025-06-25 23:24:01
當過常務副市長、市長、廳長,王秉清搞權色交易,退休后收受禮品

當過常務副市長、市長、廳長,王秉清搞權色交易,退休后收受禮品

新京報
2025-06-26 14:17:09
2025-06-26 20:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10725文章數 142346關注度
往期回顧 全部

科技要聞

小米首款AI眼鏡來了,售價1999元起

頭條要聞

于東來宣布將關閉半年營收超8億的門店 大計劃被披露

頭條要聞

于東來宣布將關閉半年營收超8億的門店 大計劃被披露

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

牛市主力!上半年超7200億資金南下港股

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

本地
時尚
游戲
數碼
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

感覺生活停滯不前的時候,試試這5個小方法獲得能量

買游戲送寫真!《明末淵虛之羽》在日本平臺開售

數碼要聞

小米首款小尺寸!小米手表S4 41mm發布:999元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新营市| 安平县| 禹州市| 休宁县| 凯里市| 仁寿县| 迁西县| 东平县| 永城市| 仁布县| 精河县| 安吉县| 英德市| 正阳县| 济南市| 闽侯县| 兴国县| 浦东新区| 桓台县| 合山市| 中山市| 长岭县| 长治市| 天峻县| 泸定县| 淄博市| 昌吉市| 衡阳县| 镇宁| 崇左市| 房山区| 昂仁县| 吉林市| 霍州市| 个旧市| 固始县| 尖扎县| 玉山县| 长宁县| 调兵山市| 翁牛特旗|