大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨丁靈波
對于如今的AI大模型而言,Transformer具有極其重要的影響。
作為一種基于注意力機(jī)制的深度學(xué)習(xí)架構(gòu),Transformer最初是由Ashish Vaswani等計(jì)算機(jī)科學(xué)家于2017年在NeurIPS(神經(jīng)信息處理系統(tǒng)大會)上提出,逐漸成為NLP領(lǐng)域許多最先進(jìn)模型的基礎(chǔ)。
它摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),在自然語言處理任務(wù)中取得了顯著的效果,使得大規(guī)模預(yù)訓(xùn)練語言模型成為可能,間接推動了GPT等AI大模型的問世。
不過從今天開始,Transformer可能要迎來新變化。
“殘差神經(jīng)網(wǎng)絡(luò)發(fā)明人”、麻省理工學(xué)院副教授何愷明與圖靈獎得主、“卷積網(wǎng)絡(luò)之父”Yann LeCun的最新合作論文提出“無需歸一化的Transformer”,目前已入選CVPR 2025,該發(fā)現(xiàn)有望進(jìn)一步改進(jìn)AI模型性能,給開發(fā)者們帶來新思路。
重新定義“歸一化”
什么是無需歸一化的Transformer?
簡單來說,歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中無處不在,長期以來一直被認(rèn)為是必不可少的。
歸一化層的主要作用是使網(wǎng)絡(luò)的輸入數(shù)據(jù)分布更加穩(wěn)定,減少內(nèi)部協(xié)變量偏移(Internal Covariate Shift),從而使得網(wǎng)絡(luò)更容易訓(xùn)練,提高模型的泛化能力。不同的歸一化層適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)和任務(wù)場景,選擇合適的歸一化層對于構(gòu)建高效的神經(jīng)網(wǎng)絡(luò)至關(guān)重要。
而這篇最新論文研究表明,通過一種極其簡單的技術(shù),無需歸一化的Transformer模型能夠達(dá)到相同甚至更好的性能,是不是有點(diǎn)不可思議?
研究人員引入了動態(tài)雙曲正切函數(shù)(DyT),可以直接替代Transformer模型中的歸一化層。
DyT的靈感來源于這樣一個觀察結(jié)果:Transformer模型中的層歸一化常常會產(chǎn)生類似雙曲正切函數(shù)的S形輸入輸出映射。通過整合DyT,無需歸一化的Transformer模型能夠達(dá)到甚至超過帶有歸一化層的Transformer模型的性能,而且在大多數(shù)情況下無需進(jìn)行超參數(shù)調(diào)整。
論文作者在各種不同的場景中驗(yàn)證了帶有 DyT 的 Transformer模型的有效性,涵蓋了從識別到生成任務(wù)、從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),以及從計(jì)算機(jī)視覺到語言模型等多個領(lǐng)域,這些發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀念中歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中不可或缺的認(rèn)知,并為深入理解歸一化層在深度網(wǎng)絡(luò)中的作用提供了新的視角。
Meta FAIR實(shí)驗(yàn)室研究科學(xué)家劉壯作為論文負(fù)責(zé)人,在社交平臺分享了幾點(diǎn)論文摘要。
1、發(fā)現(xiàn)了一個非常簡單的標(biāo)準(zhǔn)化層替代方案:縮放的tanh函數(shù),團(tuán)隊(duì)稱之為動態(tài)Tanh,或DyT。
2、這實(shí)際上是由一個非常簡單的觀察驅(qū)動的:LayerNorm使用類似于tanh的S形曲線將其輸入轉(zhuǎn)換為輸出,它壓縮極端值,同時保持中心的線性形狀。
3、用動態(tài)Tanh(DyT)層替換規(guī)范層。
4、將層歸一化(LayerNorm)/旋轉(zhuǎn)尺度歸一化(RSMNorm)替換為動態(tài)雙曲正切函數(shù)(DyT),并在以下的Transformer模型上進(jìn)行測試:
涵蓋了視覺領(lǐng)域的監(jiān)督學(xué)習(xí)(ViT和ConvNeXt)、視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)(MAE和DINO)、擴(kuò)散模型(DiT)、大型語言模型(LLaMA)、語音領(lǐng)域的自監(jiān)督學(xué)習(xí)(wav2vec 2.0)和DNA序列建模(HyenaDNA和Caduceus),在每種情況下,采用DyT的Transformers都實(shí)現(xiàn)了與標(biāo)準(zhǔn)化Transformers相似或更好的性能。
5、在英偉達(dá)H100 GPU上,動態(tài)雙曲正切函數(shù)(DyT)的運(yùn)算速度比均方根歸一化(RMSNorm,在前沿的大語言模型中較為常用)要快。
DyT旨在取代Transformers中的規(guī)范化層,使用DyT的模型可實(shí)現(xiàn)與經(jīng)過規(guī)范化的模型相似或更好的性能。
論文負(fù)責(zé)人劉壯表示,鑒于模型訓(xùn)練和推理可能需要數(shù)千萬的計(jì)算資源,DyT有可能進(jìn)一步幫助行業(yè)降低成本,很期待看到它接下來會找到什么應(yīng)用。
目前,該團(tuán)隊(duì)在GitHub上開源提供了完整代碼庫,開發(fā)人員可以進(jìn)行測試一番:https://github.com/jiachenzhu/DyT
多次聯(lián)手的學(xué)術(shù)小隊(duì)
除了Yann LeCun,這篇論文包含來自4位華人作者的共同努力。
何愷明清華大學(xué)畢業(yè),香港中文大學(xué)獲得博士學(xué)位,目前在美國麻省理工學(xué)院(MIT)擔(dān)任電氣工程與計(jì)算機(jī)科學(xué)系的副教授,研究涵蓋計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的廣泛主題,最為人所知的研究成果是深度殘差網(wǎng)絡(luò)(ResNets),其中的殘差連接如今在現(xiàn)代深度學(xué)習(xí)模型中隨處可見,包括Transformer模型(如GPT、ChatGPT)、谷歌的AlphaGo Zero、AlphaFold等等。
何愷明的多篇論文在CVPR、ICCV、NeurIPS、ECCV等國際學(xué)術(shù)會議獲得最佳論文榮譽(yù),論文引用量超過50萬次,每年的引用量增長超過10萬次。
劉壯是Meta基礎(chǔ)人工智能研究部門(FAIR)的一名研究科學(xué)家,在加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系獲得計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是特雷弗?達(dá)雷爾(Trevor Darrell)教授,本科畢業(yè)于清華大學(xué)姚班。
他此前還主導(dǎo)了密集連接卷積網(wǎng)絡(luò)(DenseNet,該成果曾榮獲CVPR的最佳論文獎)和ConvNeXt的研發(fā)工作,兩者都是深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)之一。
陳鑫磊畢業(yè)于中國浙江大學(xué)計(jì)算機(jī)科學(xué)系,在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所攻讀博士學(xué)位,目前在Meta FAIR擔(dān)任研究科學(xué)家,研究領(lǐng)域聚焦在預(yù)訓(xùn)練和理解視覺表征。此前和何愷明、Yann LeCun、劉壯等合作發(fā)表過多篇論文。
朱家晨香港理工大學(xué)計(jì)算機(jī)科學(xué)專業(yè)畢業(yè),目前是紐約大學(xué)柯朗數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)專業(yè)的五年級博士研究生,導(dǎo)師是Yann LeCun, Meta 公司基礎(chǔ)人工智能研究部門的訪問研究員,研究重點(diǎn)是圖像和視頻的自監(jiān)督學(xué)習(xí),以及為視覺語言模型(VLM)預(yù)訓(xùn)練視覺編碼器。
崛起的中國AI人才影響力
被CVPR 2025收錄的論文代表了計(jì)算機(jī)視覺和模式識別領(lǐng)域的較高水平。
據(jù)了解,CVPR 2025共收到13008份有效投稿,錄用2878篇,錄用率為22.1%,能在同行學(xué)術(shù)競爭中脫穎而出,這些論文通常會在理論、方法、技術(shù)或應(yīng)用等方面具有顯著創(chuàng)新,本次論文里提到的“DyT”方法能否給行業(yè)帶來新的啟發(fā),衍生出廣泛的影響值得關(guān)注。
近些年,中國學(xué)者對于AI的學(xué)術(shù)貢獻(xiàn)量非常大,MacroPolo發(fā)布的《全球人工智能人才追蹤調(diào)查報(bào)告2.0》顯示,2019年,原國籍為中國的頂尖AI研究人員占比為 29%,到2022年,這一比例升至47%,中國為世界輸送了大量的AI人才。
《自然》增刊“自然指數(shù)2024人工智能”顯示,2019年至2023年,AI研究產(chǎn)出增幅最大的10家機(jī)構(gòu)中,有6家來自中國,分別是中國科學(xué)院、北京大學(xué)、清華大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)和上海交通大學(xué)。
可以說,更多的學(xué)術(shù)創(chuàng)新研究推動著中國在AI產(chǎn)業(yè)領(lǐng)域呈現(xiàn)出強(qiáng)勁發(fā)展態(tài)勢,期待更多來自中國學(xué)者的創(chuàng)新AI研究出爐。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.