重磅論文！何愷明、Yann LeCun等改造Transformer，CVPR 2025已收錄

2025-03-15 18:09:01　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨丁靈波

對于如今的AI大模型而言，Transformer具有極其重要的影響。

作為一種基于注意力機(jī)制的深度學(xué)習(xí)架構(gòu)，Transformer最初是由Ashish Vaswani等計(jì)算機(jī)科學(xué)家于2017年在NeurIPS（神經(jīng)信息處理系統(tǒng)大會）上提出，逐漸成為NLP領(lǐng)域許多最先進(jìn)模型的基礎(chǔ)。

它摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）和卷積神經(jīng)網(wǎng)絡(luò)（CNN），在自然語言處理任務(wù)中取得了顯著的效果，使得大規(guī)模預(yù)訓(xùn)練語言模型成為可能，間接推動了GPT等AI大模型的問世。

不過從今天開始，Transformer可能要迎來新變化。

“殘差神經(jīng)網(wǎng)絡(luò)發(fā)明人”、麻省理工學(xué)院副教授何愷明與圖靈獎得主、“卷積網(wǎng)絡(luò)之父”Yann LeCun的最新合作論文提出“無需歸一化的Transformer”，目前已入選CVPR 2025，該發(fā)現(xiàn)有望進(jìn)一步改進(jìn)AI模型性能，給開發(fā)者們帶來新思路。

重新定義“歸一化”

什么是無需歸一化的Transformer？

簡單來說，歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中無處不在，長期以來一直被認(rèn)為是必不可少的。

歸一化層的主要作用是使網(wǎng)絡(luò)的輸入數(shù)據(jù)分布更加穩(wěn)定，減少內(nèi)部協(xié)變量偏移（Internal Covariate Shift），從而使得網(wǎng)絡(luò)更容易訓(xùn)練，提高模型的泛化能力。不同的歸一化層適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)和任務(wù)場景，選擇合適的歸一化層對于構(gòu)建高效的神經(jīng)網(wǎng)絡(luò)至關(guān)重要。

而這篇最新論文研究表明，通過一種極其簡單的技術(shù)，無需歸一化的Transformer模型能夠達(dá)到相同甚至更好的性能，是不是有點(diǎn)不可思議？

研究人員引入了動態(tài)雙曲正切函數(shù)（DyT），可以直接替代Transformer模型中的歸一化層。

DyT的靈感來源于這樣一個觀察結(jié)果：Transformer模型中的層歸一化常常會產(chǎn)生類似雙曲正切函數(shù)的S形輸入輸出映射。通過整合DyT，無需歸一化的Transformer模型能夠達(dá)到甚至超過帶有歸一化層的Transformer模型的性能，而且在大多數(shù)情況下無需進(jìn)行超參數(shù)調(diào)整。

論文作者在各種不同的場景中驗(yàn)證了帶有 DyT 的 Transformer模型的有效性，涵蓋了從識別到生成任務(wù)、從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí)，以及從計(jì)算機(jī)視覺到語言模型等多個領(lǐng)域，這些發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀念中歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中不可或缺的認(rèn)知，并為深入理解歸一化層在深度網(wǎng)絡(luò)中的作用提供了新的視角。

Meta FAIR實(shí)驗(yàn)室研究科學(xué)家劉壯作為論文負(fù)責(zé)人，在社交平臺分享了幾點(diǎn)論文摘要。

1、發(fā)現(xiàn)了一個非常簡單的標(biāo)準(zhǔn)化層替代方案：縮放的tanh函數(shù)，團(tuán)隊(duì)稱之為動態(tài)Tanh，或DyT。

2、這實(shí)際上是由一個非常簡單的觀察驅(qū)動的：LayerNorm使用類似于tanh的S形曲線將其輸入轉(zhuǎn)換為輸出，它壓縮極端值，同時保持中心的線性形狀。

3、用動態(tài)Tanh（DyT）層替換規(guī)范層。

4、將層歸一化（LayerNorm）/旋轉(zhuǎn)尺度歸一化（RSMNorm）替換為動態(tài)雙曲正切函數(shù)（DyT），并在以下的Transformer模型上進(jìn)行測試：

涵蓋了視覺領(lǐng)域的監(jiān)督學(xué)習(xí)（ViT和ConvNeXt）、視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)（MAE和DINO）、擴(kuò)散模型（DiT）、大型語言模型（LLaMA）、語音領(lǐng)域的自監(jiān)督學(xué)習(xí)（wav2vec 2.0）和DNA序列建模（HyenaDNA和Caduceus），在每種情況下，采用DyT的Transformers都實(shí)現(xiàn)了與標(biāo)準(zhǔn)化Transformers相似或更好的性能。

5、在英偉達(dá)H100 GPU上，動態(tài)雙曲正切函數(shù)（DyT）的運(yùn)算速度比均方根歸一化（RMSNorm，在前沿的大語言模型中較為常用）要快。

DyT旨在取代Transformers中的規(guī)范化層，使用DyT的模型可實(shí)現(xiàn)與經(jīng)過規(guī)范化的模型相似或更好的性能。

論文負(fù)責(zé)人劉壯表示，鑒于模型訓(xùn)練和推理可能需要數(shù)千萬的計(jì)算資源，DyT有可能進(jìn)一步幫助行業(yè)降低成本，很期待看到它接下來會找到什么應(yīng)用。

目前，該團(tuán)隊(duì)在GitHub上開源提供了完整代碼庫，開發(fā)人員可以進(jìn)行測試一番：https://github.com/jiachenzhu/DyT

多次聯(lián)手的學(xué)術(shù)小隊(duì)

除了Yann LeCun，這篇論文包含來自4位華人作者的共同努力。

何愷明清華大學(xué)畢業(yè)，香港中文大學(xué)獲得博士學(xué)位，目前在美國麻省理工學(xué)院（MIT）擔(dān)任電氣工程與計(jì)算機(jī)科學(xué)系的副教授，研究涵蓋計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的廣泛主題，最為人所知的研究成果是深度殘差網(wǎng)絡(luò)（ResNets），其中的殘差連接如今在現(xiàn)代深度學(xué)習(xí)模型中隨處可見，包括Transformer模型（如GPT、ChatGPT）、谷歌的AlphaGo Zero、AlphaFold等等。

何愷明的多篇論文在CVPR、ICCV、NeurIPS、ECCV等國際學(xué)術(shù)會議獲得最佳論文榮譽(yù)，論文引用量超過50萬次，每年的引用量增長超過10萬次。

劉壯是Meta基礎(chǔ)人工智能研究部門（FAIR）的一名研究科學(xué)家，在加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系獲得計(jì)算機(jī)科學(xué)博士學(xué)位，導(dǎo)師是特雷弗?達(dá)雷爾（Trevor Darrell）教授，本科畢業(yè)于清華大學(xué)姚班。

他此前還主導(dǎo)了密集連接卷積網(wǎng)絡(luò)（DenseNet，該成果曾榮獲CVPR的最佳論文獎）和ConvNeXt的研發(fā)工作，兩者都是深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)之一。

陳鑫磊畢業(yè)于中國浙江大學(xué)計(jì)算機(jī)科學(xué)系，在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所攻讀博士學(xué)位，目前在Meta FAIR擔(dān)任研究科學(xué)家，研究領(lǐng)域聚焦在預(yù)訓(xùn)練和理解視覺表征。此前和何愷明、Yann LeCun、劉壯等合作發(fā)表過多篇論文。

朱家晨香港理工大學(xué)計(jì)算機(jī)科學(xué)專業(yè)畢業(yè)，目前是紐約大學(xué)柯朗數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)專業(yè)的五年級博士研究生，導(dǎo)師是Yann LeCun， Meta 公司基礎(chǔ)人工智能研究部門的訪問研究員，研究重點(diǎn)是圖像和視頻的自監(jiān)督學(xué)習(xí)，以及為視覺語言模型（VLM）預(yù)訓(xùn)練視覺編碼器。

崛起的中國AI人才影響力

被CVPR 2025收錄的論文代表了計(jì)算機(jī)視覺和模式識別領(lǐng)域的較高水平。

據(jù)了解，CVPR 2025共收到13008份有效投稿，錄用2878篇，錄用率為22.1%，能在同行學(xué)術(shù)競爭中脫穎而出，這些論文通常會在理論、方法、技術(shù)或應(yīng)用等方面具有顯著創(chuàng)新，本次論文里提到的“DyT”方法能否給行業(yè)帶來新的啟發(fā)，衍生出廣泛的影響值得關(guān)注。

近些年，中國學(xué)者對于AI的學(xué)術(shù)貢獻(xiàn)量非常大，MacroPolo發(fā)布的《全球人工智能人才追蹤調(diào)查報(bào)告2.0》顯示，2019年，原國籍為中國的頂尖AI研究人員占比為 29%，到2022年，這一比例升至47%，中國為世界輸送了大量的AI人才。

《自然》增刊“自然指數(shù)2024人工智能”顯示，2019年至2023年，AI研究產(chǎn)出增幅最大的10家機(jī)構(gòu)中，有6家來自中國，分別是中國科學(xué)院、北京大學(xué)、清華大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)和上海交通大學(xué)。

可以說，更多的學(xué)術(shù)創(chuàng)新研究推動著中國在AI產(chǎn)業(yè)領(lǐng)域呈現(xiàn)出強(qiáng)勁發(fā)展態(tài)勢，期待更多來自中國學(xué)者的創(chuàng)新AI研究出爐。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.