99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

比Adam更有效,POET從譜不變?cè)沓霭l(fā),讓LLM訓(xùn)練又穩(wěn)又快

0
分享至




Zeju Qiu和Tim Z. Xiao是德國馬普所博士生,Simon Buchholz和Maximilian Dax擔(dān)任德國馬普所博士后研究員,Bernhard Sch?lkopf是德國馬普所所長(zhǎng),Weiyang Liu是香港中文大學(xué)計(jì)算機(jī)系助理教授。

隨著大型語言模型(LLM)推動(dòng)人工智能領(lǐng)域取得突破性進(jìn)展,如何實(shí)現(xiàn)高效、穩(wěn)定的超大規(guī)模模型訓(xùn)練,始終是該領(lǐng)域最富挑戰(zhàn)性的核心議題之一。

針對(duì)這一關(guān)鍵問題,研究者們提出了一種基于第一性原理的全新方法——POET(Reparameterized Training via Orthogonal Equivalence Transformation),該方法通過重參數(shù)化優(yōu)化策略,旨在從第一性原理出發(fā)提升訓(xùn)練效率與穩(wěn)定性。



Paper:Reparameterized LLM Training via Orthogonal Equivalence Transformation

Project page:https://spherelab.ai/poet/

Arxiv:https://www.arxiv.org/abs/2506.08001

POET:基于第一性原理的大型語言模型全新訓(xùn)練范式

POET 的關(guān)鍵思想是:通過對(duì)每個(gè)神經(jīng)元進(jìn)行結(jié)構(gòu)性重參數(shù)化,引入兩個(gè)可學(xué)習(xí)的正交矩陣以及一個(gè)固定的隨機(jī)權(quán)重矩陣,從而構(gòu)建一個(gè)正交等價(jià)的變換結(jié)構(gòu)。該方法在訓(xùn)練過程中嚴(yán)格保持權(quán)重的奇異值分布,并天然擁有較低的球面能量,這是 POET 有效性的核心來源。

通過聯(lián)合建模奇異值不變性與最小超球能量,POET為大模型訓(xùn)練提供了一種兼具物理解釋性與泛化能力的新范式。由于該方法嚴(yán)格保持權(quán)重矩陣的譜結(jié)構(gòu),不僅能穩(wěn)定優(yōu)化過程,還顯著提升了模型的泛化性能。為兼顧計(jì)算效率與實(shí)用性,研究者還開發(fā)了高效的近似算法,使POET可擴(kuò)展至超大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法在大型語言模型訓(xùn)練中表現(xiàn)出卓越的性能與可擴(kuò)展性。



圖 POET 的三個(gè)學(xué)習(xí)階段:左—示意圖;中—角度;右—損失值與驗(yàn)證。

譜性質(zhì)與泛化

當(dāng)前訓(xùn)練大型語言模型的事實(shí)標(biāo)準(zhǔn)是直接使用Adam優(yōu)化器對(duì)權(quán)重矩陣進(jìn)行更新。盡管這一做法實(shí)現(xiàn)簡(jiǎn)單,但在計(jì)算上往往代價(jià)高昂,隨著模型規(guī)模的擴(kuò)大,其復(fù)雜度迅速增長(zhǎng)。此外,該方法對(duì)超參數(shù)極為敏感,需精細(xì)調(diào)整以保證訓(xùn)練穩(wěn)定收斂。

更為關(guān)鍵的是,即便訓(xùn)練損失已經(jīng)被有效最小化,模型的泛化性能仍可能表現(xiàn)不佳。為緩解這一問題,本文提出了多種權(quán)重正則化與歸一化技術(shù),其核心目標(biāo)往往可歸結(jié)為:顯式或隱式地改善權(quán)重矩陣的譜結(jié)構(gòu)(即奇異值分布)。

從直觀角度看,權(quán)重矩陣的譜范數(shù)(最大奇異值)描述了其對(duì)輸入向量的放大上界,因此與模型的平滑性和泛化能力密切相關(guān)。一般認(rèn)為,較小的譜范數(shù)(意味著更溫和的變換)往往有助于提升泛化性能。這一觀點(diǎn)促使越來越多研究致力于對(duì)譜性質(zhì)進(jìn)行精細(xì)控制。理論研究亦表明,若能有效約束權(quán)重矩陣的譜結(jié)構(gòu),便可形式化地為模型提供泛化上的保證。

譜保持(Spectrum-preserving)權(quán)重更新





POET方法具備兩項(xiàng)核心優(yōu)勢(shì):

  • 高效的譜控制

由于正交變換并不改變權(quán)重矩陣的奇異值,POET在訓(xùn)練全程都能保持權(quán)重譜與隨機(jī)初始化矩陣一致——即便采用近似實(shí)現(xiàn),這一點(diǎn)也已得到實(shí)證驗(yàn)證。借助恰當(dāng)?shù)某跏蓟桨?,POET可直接約束奇異值分布,避免標(biāo)準(zhǔn)LLM訓(xùn)練后權(quán)重出現(xiàn)過大的奇異值。為進(jìn)一步增強(qiáng)算法效果,研究者們提出了兩種新初始化策略:歸一化高斯初始化(normalizedGaussianinitialization)和均勻譜初始化(uniformspectruminitialization),均可確保生成的權(quán)重矩陣具有有界奇異值。

  • 高效近似

直接進(jìn)行POET訓(xùn)練的計(jì)算開銷較高,但方法本身的靈活性為高效、可擴(kuò)展訓(xùn)練提供了空間。針對(duì)大規(guī)模正交矩陣優(yōu)化這一關(guān)鍵難題,文章提出兩級(jí)近似方案:

隨機(jī)基元優(yōu)化:將大正交矩陣分解為若干參數(shù)量更少的基元正交矩陣,并結(jié)合“合并再初始化”策略提高效率;

基于Cayley?Neumann參數(shù)化的近似正交性:通過 Neumann 級(jí)數(shù)近似 Cayley 正交參數(shù)化,以較低計(jì)算成本保持正交性,同樣借助“合并再初始化”策略抑制誤差累積。

LLaMA架構(gòu)的大規(guī)模語言模型預(yù)訓(xùn)練

本文在多種規(guī)模的LLaMATransformer(60M、130M、350M、1.3B 參數(shù))上對(duì)POET進(jìn)行了預(yù)訓(xùn)練實(shí)驗(yàn)。使用的數(shù)據(jù)集為C4——從CommonCrawl清洗得到的網(wǎng)頁語料,已被廣泛用于大型語言模型的預(yù)訓(xùn)練。下文匯總了實(shí)驗(yàn)結(jié)果,報(bào)告了驗(yàn)證困惑度(perplexity)及可訓(xùn)練參數(shù)量。





圖 AdamW和POET在模型規(guī)模為350M和1.3B下的可訓(xùn)練參數(shù)規(guī)模及驗(yàn)證困惑度(perplexity)。

訓(xùn)練加速

為突出POET在性能上的顯著改進(jìn),文章將AdamW的訓(xùn)練步數(shù)(即模型實(shí)際看到的token數(shù)量)大幅提升至原來的近三倍。即便如此,采用 b=1/2 設(shè)置的POET?FS仍在性能上超越AdamW。



參數(shù)與內(nèi)存復(fù)雜度

通過將超參數(shù) b 作為采樣預(yù)算引入,完全隨機(jī) SPO(StochasticPrimitiveOptimization)成功將參數(shù)復(fù)雜度與權(quán)重矩陣規(guī)模解耦。當(dāng) b 取較小值時(shí),POET 的參數(shù)效率顯著提升,但收斂速度有所下降,為使用者提供了效率與速度之間的靈活權(quán)衡。相比之下,塊隨機(jī) SPO的參數(shù)復(fù)雜度與矩陣尺寸(m+n)成正比,因而較 AdamW(需要 mn 個(gè)可訓(xùn)練參數(shù))更具可擴(kuò)展性。在內(nèi)存占用方面,只要采樣預(yù)算 b 設(shè)置得當(dāng),兩種 POET 變體均可顯著優(yōu)于 AdamW。下文給出了參數(shù)與內(nèi)存復(fù)雜度的詳細(xì)對(duì)比。



訓(xùn)練算法

步驟1:權(quán)重初始化





POET的優(yōu)異表現(xiàn)來自于超球能量與譜保持

神經(jīng)元初始化

鑒于 POET 在訓(xùn)練過程中會(huì)保留初始權(quán)重矩陣的譜特性,初始化策略顯得至關(guān)重要。文章運(yùn)用了歸一化高斯初始化:先從零均值、固定方差的高斯分布中抽取神經(jīng)元權(quán)重,再對(duì)其進(jìn)行歸一化。下表對(duì)多種隨機(jī)初始化方案進(jìn)行了實(shí)證比較,結(jié)果顯示歸一化高斯初始化取得了最佳最終性能。研究者推測(cè),這一優(yōu)異表現(xiàn)源于 POET 在該初始化下能夠在訓(xùn)練過程中同時(shí)保持超球能量與譜特性。



訓(xùn)練中的超球能量

超球能量 HE用于衡量神經(jīng)元在單位超球面上的均勻分布程度,可作為刻畫各層神經(jīng)表征的一種度量。文獻(xiàn)[2,3]表明,滿足正交約束的訓(xùn)練過程可在訓(xùn)練期間保持這一超球能量不變,從而避免表征退化并提升泛化性能。

歸一化高斯初始化下的POET 可同時(shí)保持能量與奇異值分布

在零均值、各向同性的高斯初始化條件下,POET 能夠同時(shí)實(shí)現(xiàn)譜保持訓(xùn)練與能量保持訓(xùn)練。這一特性為歸一化高斯初始化方法的最優(yōu)性能提供了理論解釋(詳細(xì)證明參見附錄 B)。



POET訓(xùn)練機(jī)理解析



  • 錐殼上的穩(wěn)定學(xué)習(xí)階段(Stable learning on the conical shell)

余弦相似度保持在該區(qū)間內(nèi)不再顯著變化,但模型開始進(jìn)入穩(wěn)定學(xué)習(xí)期;盡管余弦值趨于穩(wěn)定,驗(yàn)證困惑度仍在線性下降。

  • 最終階段微調(diào)(Final adjusting)

隨著學(xué)習(xí)率逐步衰減至零,學(xué)習(xí)速度放緩并最終停止。

更為詳盡的討論與實(shí)證結(jié)果見論文附錄。

[1] Liu, W., Lin, R., Liu, Z., Liu, L., Yu, Z., Dai, B., & Song, L. (2018). Learning towards minimum hyperspherical energy. Advances in neural information processing systems, 31.

[2] Liu, W., Lin, R., Liu, Z., Rehg, J. M., Paull, L., Xiong, L., ... & Weller, A. (2021). Orthogonal over-parameterized training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 7251-7260).

[3] Qiu, Z., Liu, W., Feng, H., Xue, Y., Feng, Y., Liu, Z., ... & Sch?lkopf, B. (2023). Controlling text-to-image diffusion by orthogonal finetuning. Advances in Neural Information Processing Systems, 36, 79320-79362.

[4] Liu, J., Su, J., Yao, X., Jiang, Z., Lai, G., Du, Y., ... & Yang, Z. (2025). Muon is Scalable for LLM Training. arXiv e-prints, arXiv-2502

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
山東無棣縣柳堡鎮(zhèn)人民政府原工作人員孫殿凱被查,涉嫌嚴(yán)重違紀(jì)違法

山東無棣縣柳堡鎮(zhèn)人民政府原工作人員孫殿凱被查,涉嫌嚴(yán)重違紀(jì)違法

魯中晨報(bào)
2025-07-15 13:21:06
知名女演員因胃癌去世,年僅31歲!去年拍完戲后出現(xiàn)不適,“幾個(gè)月前已經(jīng)吃不下飯……”

知名女演員因胃癌去世,年僅31歲!去年拍完戲后出現(xiàn)不適,“幾個(gè)月前已經(jīng)吃不下飯……”

都市快報(bào)橙柿互動(dòng)
2025-07-14 17:38:49
脫口秀演員嘻哈辭去空姐一職,本人回應(yīng):我不愿意被糟粕的道德捆綁

脫口秀演員嘻哈辭去空姐一職,本人回應(yīng):我不愿意被糟粕的道德捆綁

極目新聞
2025-07-14 16:15:56
街機(jī)史上影響最大的隱藏關(guān),至今沒有一個(gè)玩家進(jìn)去過

街機(jī)史上影響最大的隱藏關(guān),至今沒有一個(gè)玩家進(jìn)去過

街機(jī)時(shí)代
2025-07-14 19:10:03
不出意料的話,2025年下半年,房子?車子和票子或發(fā)生這些改變

不出意料的話,2025年下半年,房子?車子和票子或發(fā)生這些改變

新語愛八卦
2025-05-30 16:24:16
郭臺(tái)銘做夢(mèng)也沒想到,富士康“賞飯論“破產(chǎn),人果然不能忘本!

郭臺(tái)銘做夢(mèng)也沒想到,富士康“賞飯論“破產(chǎn),人果然不能忘本!

別人都叫我阿腈
2025-07-15 17:45:32
澤連斯基提名的美女總理,還是一名中國通

澤連斯基提名的美女總理,還是一名中國通

史政先鋒
2025-07-15 17:41:52
難怪杜建英急了!讓三子爭(zhēng)遺產(chǎn),原來關(guān)停的18家分廠,有她的股份

難怪杜建英急了!讓三子爭(zhēng)遺產(chǎn),原來關(guān)停的18家分廠,有她的股份

明月雜談
2025-07-15 14:15:24
廣東富豪10.9億賣掉武磊曾效力的西甲球隊(duì)

廣東富豪10.9億賣掉武磊曾效力的西甲球隊(duì)

紅星新聞
2025-07-15 18:00:14
緩過勁來就“翻臉”,俄羅斯對(duì)華下手,中方反手一招直擊要害

緩過勁來就“翻臉”,俄羅斯對(duì)華下手,中方反手一招直擊要害

億通電子游戲
2025-07-15 01:10:03
王毅外長(zhǎng)立下大功,用美國最意想不到的方式,中國接下了“戰(zhàn)書”

王毅外長(zhǎng)立下大功,用美國最意想不到的方式,中國接下了“戰(zhàn)書”

愛意隨風(fēng)起呀
2025-07-15 13:06:32
澳大利亞挖走中國人才,攻破稀土技術(shù)后,中國三張王牌直擊命脈

澳大利亞挖走中國人才,攻破稀土技術(shù)后,中國三張王牌直擊命脈

訪史
2025-07-15 11:55:24
外交部回應(yīng)賴清德可能過境美國:堅(jiān)決反對(duì)任何形式的美臺(tái)官方往來

外交部回應(yīng)賴清德可能過境美國:堅(jiān)決反對(duì)任何形式的美臺(tái)官方往來

新京報(bào)
2025-07-15 20:36:14
中日戰(zhàn)爭(zhēng)不可避免?日將軍:2025中日將開戰(zhàn)

中日戰(zhàn)爭(zhēng)不可避免?日將軍:2025中日將開戰(zhàn)

馬蹄燙嘴說美食
2025-07-09 13:00:32
湖南一女子昏厥男子跪地施救被質(zhì)疑“襲胸”,急救專家稱心肺復(fù)蘇時(shí)觸碰胸部在所難免

湖南一女子昏厥男子跪地施救被質(zhì)疑“襲胸”,急救專家稱心肺復(fù)蘇時(shí)觸碰胸部在所難免

極目新聞
2025-07-14 23:37:06
有點(diǎn)不滿!朱辰杰將球護(hù)出底線,顏駿凌與其激烈交流

有點(diǎn)不滿!朱辰杰將球護(hù)出底線,顏駿凌與其激烈交流

直播吧
2025-07-15 16:36:11
秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

寒士之言本尊
2025-07-15 19:10:18
三次上門挑釁:我要睡你老婆!被丈夫連捅38刀,不要欺負(fù)老實(shí)人!

三次上門挑釁:我要睡你老婆!被丈夫連捅38刀,不要欺負(fù)老實(shí)人!

談史論天地
2025-07-15 14:20:03
就在今天!7月14日晚上,國乒傳來馬琳、王曼昱、徐輝消息

就在今天!7月14日晚上,國乒傳來馬琳、王曼昱、徐輝消息

蘭亭墨未干
2025-07-15 06:47:50
拒絕加盟,再見勇士,愿重返快船,渴望與哈登一起聯(lián)手沖冠軍

拒絕加盟,再見勇士,愿重返快船,渴望與哈登一起聯(lián)手沖冠軍

青山隱隱啊
2025-07-14 15:56:50
2025-07-15 21:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10868文章數(shù) 142377關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)H20解禁,黃仁勛嚇壞平替?

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

頭條要聞

特朗普被指曾問澤連斯基:烏用美武器能否打擊莫斯科

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財(cái)經(jīng)要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內(nèi)飾亮相

態(tài)度原創(chuàng)

時(shí)尚
藝術(shù)
游戲
教育
手機(jī)

夏日解暑神器!6款自制冰飲,比奶茶店還好喝!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

世嘉的壓力促使PS2成功 老牌大廠都需要被挑戰(zhàn)者打臉

教育要聞

享不盡的榮華富貴,數(shù)不清的兄弟姐妹

手機(jī)要聞

三款子系新機(jī)DECO升級(jí):配置規(guī)格,也已清晰!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 旺苍县| 龙川县| 佛坪县| 长汀县| 太白县| 政和县| 邛崃市| 深泽县| 内乡县| 祁阳县| 沈阳市| 浙江省| 定陶县| 海宁市| 泰安市| 京山县| 韶关市| 开江县| 丹巴县| 靖远县| 开原市| 鄂伦春自治旗| 青铜峡市| 墨江| 麟游县| 崇左市| 连州市| 永顺县| 乌兰浩特市| 兴安县| 常州市| 清苑县| 乌苏市| 东辽县| 永年县| 板桥市| 盐源县| 永州市| 互助| 什邡市| 合肥市|