99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

重磅論文!何愷明、Yann LeCun等改造Transformer,CVPR 2025已收錄

0
分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨丁靈波

對于如今的AI大模型而言,Transformer具有極其重要的影響。

作為一種基于注意力機(jī)制的深度學(xué)習(xí)架構(gòu),Transformer最初是由Ashish Vaswani等計(jì)算機(jī)科學(xué)家于2017年在NeurIPS(神經(jīng)信息處理系統(tǒng)大會)上提出,逐漸成為NLP領(lǐng)域許多最先進(jìn)模型的基礎(chǔ)。


它摒棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),在自然語言處理任務(wù)中取得了顯著的效果,使得大規(guī)模預(yù)訓(xùn)練語言模型成為可能,間接推動了GPT等AI大模型的問世。


不過從今天開始,Transformer可能要迎來新變化。

“殘差神經(jīng)網(wǎng)絡(luò)發(fā)明人”、麻省理工學(xué)院副教授何愷明與圖靈獎得主、“卷積網(wǎng)絡(luò)之父”Yann LeCun的最新合作論文提出“無需歸一化的Transformer”,目前已入選CVPR 2025,該發(fā)現(xiàn)有望進(jìn)一步改進(jìn)AI模型性能,給開發(fā)者們帶來新思路。

重新定義“歸一化”


什么是無需歸一化的Transformer?

簡單來說,歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中無處不在,長期以來一直被認(rèn)為是必不可少的。

歸一化層的主要作用是使網(wǎng)絡(luò)的輸入數(shù)據(jù)分布更加穩(wěn)定,減少內(nèi)部協(xié)變量偏移(Internal Covariate Shift),從而使得網(wǎng)絡(luò)更容易訓(xùn)練,提高模型的泛化能力。不同的歸一化層適用于不同的網(wǎng)絡(luò)結(jié)構(gòu)和任務(wù)場景,選擇合適的歸一化層對于構(gòu)建高效的神經(jīng)網(wǎng)絡(luò)至關(guān)重要。


而這篇最新論文研究表明,通過一種極其簡單的技術(shù),無需歸一化的Transformer模型能夠達(dá)到相同甚至更好的性能,是不是有點(diǎn)不可思議?

研究人員引入了動態(tài)雙曲正切函數(shù)(DyT),可以直接替代Transformer模型中的歸一化層。

DyT的靈感來源于這樣一個觀察結(jié)果:Transformer模型中的層歸一化常常會產(chǎn)生類似雙曲正切函數(shù)的S形輸入輸出映射。通過整合DyT,無需歸一化的Transformer模型能夠達(dá)到甚至超過帶有歸一化層的Transformer模型的性能,而且在大多數(shù)情況下無需進(jìn)行超參數(shù)調(diào)整。

論文作者在各種不同的場景中驗(yàn)證了帶有 DyT 的 Transformer模型的有效性,涵蓋了從識別到生成任務(wù)、從監(jiān)督學(xué)習(xí)到自監(jiān)督學(xué)習(xí),以及從計(jì)算機(jī)視覺到語言模型等多個領(lǐng)域,這些發(fā)現(xiàn)挑戰(zhàn)了傳統(tǒng)觀念中歸一化層在現(xiàn)代神經(jīng)網(wǎng)絡(luò)中不可或缺的認(rèn)知,并為深入理解歸一化層在深度網(wǎng)絡(luò)中的作用提供了新的視角。

Meta FAIR實(shí)驗(yàn)室研究科學(xué)家劉壯作為論文負(fù)責(zé)人,在社交平臺分享了幾點(diǎn)論文摘要。

1、發(fā)現(xiàn)了一個非常簡單的標(biāo)準(zhǔn)化層替代方案:縮放的tanh函數(shù),團(tuán)隊(duì)稱之為動態(tài)Tanh,或DyT。


2、這實(shí)際上是由一個非常簡單的觀察驅(qū)動的:LayerNorm使用類似于tanh的S形曲線將其輸入轉(zhuǎn)換為輸出,它壓縮極端值,同時保持中心的線性形狀。


3、用動態(tài)Tanh(DyT)層替換規(guī)范層。


4、將層歸一化(LayerNorm)/旋轉(zhuǎn)尺度歸一化(RSMNorm)替換為動態(tài)雙曲正切函數(shù)(DyT),并在以下的Transformer模型上進(jìn)行測試:

涵蓋了視覺領(lǐng)域的監(jiān)督學(xué)習(xí)(ViT和ConvNeXt)、視覺領(lǐng)域的自監(jiān)督學(xué)習(xí)(MAE和DINO)、擴(kuò)散模型(DiT)、大型語言模型(LLaMA)、語音領(lǐng)域的自監(jiān)督學(xué)習(xí)(wav2vec 2.0)和DNA序列建模(HyenaDNA和Caduceus),在每種情況下,采用DyT的Transformers都實(shí)現(xiàn)了與標(biāo)準(zhǔn)化Transformers相似或更好的性能。


5、在英偉達(dá)H100 GPU上,動態(tài)雙曲正切函數(shù)(DyT)的運(yùn)算速度比均方根歸一化(RMSNorm,在前沿的大語言模型中較為常用)要快。


DyT旨在取代Transformers中的規(guī)范化層,使用DyT的模型可實(shí)現(xiàn)與經(jīng)過規(guī)范化的模型相似或更好的性能。

論文負(fù)責(zé)人劉壯表示,鑒于模型訓(xùn)練和推理可能需要數(shù)千萬的計(jì)算資源,DyT有可能進(jìn)一步幫助行業(yè)降低成本,很期待看到它接下來會找到什么應(yīng)用。

目前,該團(tuán)隊(duì)在GitHub上開源提供了完整代碼庫,開發(fā)人員可以進(jìn)行測試一番:https://github.com/jiachenzhu/DyT

多次聯(lián)手的學(xué)術(shù)小隊(duì)


除了Yann LeCun,這篇論文包含來自4位華人作者的共同努力。


何愷明清華大學(xué)畢業(yè),香港中文大學(xué)獲得博士學(xué)位,目前在美國麻省理工學(xué)院(MIT)擔(dān)任電氣工程與計(jì)算機(jī)科學(xué)系的副教授,研究涵蓋計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的廣泛主題,最為人所知的研究成果是深度殘差網(wǎng)絡(luò)(ResNets),其中的殘差連接如今在現(xiàn)代深度學(xué)習(xí)模型中隨處可見,包括Transformer模型(如GPT、ChatGPT)、谷歌的AlphaGo Zero、AlphaFold等等。


何愷明的多篇論文在CVPR、ICCV、NeurIPS、ECCV等國際學(xué)術(shù)會議獲得最佳論文榮譽(yù),論文引用量超過50萬次,每年的引用量增長超過10萬次。


劉壯是Meta基礎(chǔ)人工智能研究部門(FAIR)的一名研究科學(xué)家,在加州大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)系獲得計(jì)算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是特雷弗?達(dá)雷爾(Trevor Darrell)教授,本科畢業(yè)于清華大學(xué)姚班。

他此前還主導(dǎo)了密集連接卷積網(wǎng)絡(luò)(DenseNet,該成果曾榮獲CVPR的最佳論文獎)和ConvNeXt的研發(fā)工作,兩者都是深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域中應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)架構(gòu)之一。


陳鑫磊畢業(yè)于中國浙江大學(xué)計(jì)算機(jī)科學(xué)系,在卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所攻讀博士學(xué)位,目前在Meta FAIR擔(dān)任研究科學(xué)家,研究領(lǐng)域聚焦在預(yù)訓(xùn)練和理解視覺表征。此前和何愷明、Yann LeCun、劉壯等合作發(fā)表過多篇論文。


朱家晨香港理工大學(xué)計(jì)算機(jī)科學(xué)專業(yè)畢業(yè),目前是紐約大學(xué)柯朗數(shù)學(xué)科學(xué)研究所計(jì)算機(jī)科學(xué)專業(yè)的五年級博士研究生,導(dǎo)師是Yann LeCun, Meta 公司基礎(chǔ)人工智能研究部門的訪問研究員,研究重點(diǎn)是圖像和視頻的自監(jiān)督學(xué)習(xí),以及為視覺語言模型(VLM)預(yù)訓(xùn)練視覺編碼器。

崛起的中國AI人才影響力


被CVPR 2025收錄的論文代表了計(jì)算機(jī)視覺和模式識別領(lǐng)域的較高水平。

據(jù)了解,CVPR 2025共收到13008份有效投稿,錄用2878篇,錄用率為22.1%,能在同行學(xué)術(shù)競爭中脫穎而出,這些論文通常會在理論、方法、技術(shù)或應(yīng)用等方面具有顯著創(chuàng)新,本次論文里提到的“DyT”方法能否給行業(yè)帶來新的啟發(fā),衍生出廣泛的影響值得關(guān)注。


近些年,中國學(xué)者對于AI的學(xué)術(shù)貢獻(xiàn)量非常大,MacroPolo發(fā)布的《全球人工智能人才追蹤調(diào)查報(bào)告2.0》顯示,2019年,原國籍為中國的頂尖AI研究人員占比為 29%,到2022年,這一比例升至47%,中國為世界輸送了大量的AI人才。

《自然》增刊“自然指數(shù)2024人工智能”顯示,2019年至2023年,AI研究產(chǎn)出增幅最大的10家機(jī)構(gòu)中,有6家來自中國,分別是中國科學(xué)院、北京大學(xué)、清華大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)和上海交通大學(xué)。

可以說,更多的學(xué)術(shù)創(chuàng)新研究推動著中國在AI產(chǎn)業(yè)領(lǐng)域呈現(xiàn)出強(qiáng)勁發(fā)展態(tài)勢,期待更多來自中國學(xué)者的創(chuàng)新AI研究出爐。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
京哈高速又又又大堵車,堪比大型停車場,部分路段堵車10小時起!

京哈高速又又又大堵車,堪比大型停車場,部分路段堵車10小時起!

阿燕姐說育兒
2025-05-01 14:12:25
張家輝坐地鐵去參加金像獎頒獎典禮,內(nèi)娛永遠(yuǎn)做不到

張家輝坐地鐵去參加金像獎頒獎典禮,內(nèi)娛永遠(yuǎn)做不到

西樓知趣雜談
2025-05-01 09:38:12
過渡期最后一年!國務(wù)院副總理赴地方,要求加快研究新機(jī)制

過渡期最后一年!國務(wù)院副總理赴地方,要求加快研究新機(jī)制

政知新媒體
2025-05-01 17:52:27
歌手海蘭阿木并沒有網(wǎng)上吹的那么帥!他現(xiàn)實(shí)中又矮又胖,引發(fā)熱議

歌手海蘭阿木并沒有網(wǎng)上吹的那么帥!他現(xiàn)實(shí)中又矮又胖,引發(fā)熱議

野山歷史
2025-04-30 09:46:12
波音終于打破沉默!中國最后等到的,竟然是威脅?釋放信號不一般

波音終于打破沉默!中國最后等到的,竟然是威脅?釋放信號不一般

重裝旗鼓官方
2025-05-01 19:20:03
網(wǎng)友驚嘆,五一南京應(yīng)該有一億人!回應(yīng):接待游客同比增長12.8%

網(wǎng)友驚嘆,五一南京應(yīng)該有一億人!回應(yīng):接待游客同比增長12.8%

火山詩話
2025-05-01 21:19:46
越拔越害怕!某協(xié)和醫(yī)院有協(xié)議。原來保送北大有58加分保送名額!

越拔越害怕!某協(xié)和醫(yī)院有協(xié)議。原來保送北大有58加分保送名額!

漣漪讀史
2025-04-30 15:10:10
火上澆油,湖人被淘汰后,杰夫·蒂格談討厭看東契奇打球的原因

火上澆油,湖人被淘汰后,杰夫·蒂格談討厭看東契奇打球的原因

好火子
2025-05-02 04:29:21
中國VS馬來西亞陣容:石宇奇、陳雨菲、梁王、圣壇出戰(zhàn)

中國VS馬來西亞陣容:石宇奇、陳雨菲、梁王、圣壇出戰(zhàn)

懂球帝
2025-05-02 00:09:06
藍(lán)莓再次成為關(guān)注對象!研究發(fā)現(xiàn):吃藍(lán)莓時,千萬多留意這4點(diǎn)

藍(lán)莓再次成為關(guān)注對象!研究發(fā)現(xiàn):吃藍(lán)莓時,千萬多留意這4點(diǎn)

鬼菜生活
2025-04-30 10:55:15
官方:小因扎吉和恰爾汗奧盧因勾結(jié)極端球迷被禁賽一場

官方:小因扎吉和恰爾汗奧盧因勾結(jié)極端球迷被禁賽一場

雷速體育
2025-05-01 22:02:17
楊冪綜藝高清生圖,你們還追星嗎?

楊冪綜藝高清生圖,你們還追星嗎?

TVB的四小花
2025-05-02 00:18:06
馬斯克:每天躺在床上,不運(yùn)動,不學(xué)習(xí),不掙錢,那你遲早完蛋

馬斯克:每天躺在床上,不運(yùn)動,不學(xué)習(xí),不掙錢,那你遲早完蛋

清風(fēng)拂心
2025-02-20 07:38:04
董小姐性感照片曝光,形象引發(fā)網(wǎng)絡(luò)爭議

董小姐性感照片曝光,形象引發(fā)網(wǎng)絡(luò)爭議

一白聊八卦
2025-05-01 16:55:02
女子給孩子買幾百塊的鞋很心疼,直言平時只穿幾十塊的,網(wǎng)友熱議

女子給孩子買幾百塊的鞋很心疼,直言平時只穿幾十塊的,網(wǎng)友熱議

丫頭舫
2025-04-29 21:46:14
湖人賽場最美風(fēng)景線!常伴詹眉身旁的女球迷,大長腿成全場焦點(diǎn)

湖人賽場最美風(fēng)景線!常伴詹眉身旁的女球迷,大長腿成全場焦點(diǎn)

云端小院
2025-05-02 05:51:02
人生贏家!戈貝爾坐擁兩億合同還淘汰湖人 女友是白富美+超絕身材

人生贏家!戈貝爾坐擁兩億合同還淘汰湖人 女友是白富美+超絕身材

Emily說個球
2025-05-02 03:59:02
叫停特朗普關(guān)稅失敗,美國參議院未能通過新議案投票

叫停特朗普關(guān)稅失敗,美國參議院未能通過新議案投票

界面新聞
2025-05-01 11:34:59
日本2025年應(yīng)屆生平均起薪1.3萬元人民幣,創(chuàng)歷史新高!平均起薪比2024年度增長4.9%

日本2025年應(yīng)屆生平均起薪1.3萬元人民幣,創(chuàng)歷史新高!平均起薪比2024年度增長4.9%

和訊網(wǎng)
2025-04-30 14:44:06
新星崛起,愛德華茲:西部最強(qiáng)球員我已經(jīng)擊敗了4個,只剩庫里了

新星崛起,愛德華茲:西部最強(qiáng)球員我已經(jīng)擊敗了4個,只剩庫里了

看球老人
2025-05-01 18:52:42
2025-05-02 08:04:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6610文章數(shù) 94407關(guān)注度
往期回顧 全部

科技要聞

微軟力邀馬斯克Grok AI入駐Azure

頭條要聞

歐洲航司CEO:如果波音漲價 將考慮中國飛機(jī)

頭條要聞

歐洲航司CEO:如果波音漲價 將考慮中國飛機(jī)

體育要聞

無敵17歲vs飛翔泥頭車,歐冠史詩對決

娛樂要聞

梅婷慶50歲生日,兒女和她一起許愿

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動與中方接觸

汽車要聞

預(yù)售32.98萬起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

藝術(shù)
旅游
教育
時尚
房產(chǎn)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

這能不是浪費(fèi)人才嗎?兩名高考狀元進(jìn)普通高中當(dāng)老師,上岸稅務(wù)局

中年女性穿搭秘籍,色不過三,穿著得體,才能輕輕松松美到老

房產(chǎn)要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 静海县| 渭南市| 兴文县| 滦平县| 民勤县| 乌审旗| 宜兰市| 衡水市| 衡阳县| 扎赉特旗| 莱芜市| 永吉县| 五大连池市| 宁都县| 远安县| 枝江市| 高淳县| 磐安县| 绥棱县| 穆棱市| 汤原县| 神木县| 元阳县| 宣汉县| 临湘市| 南乐县| 诸暨市| 朝阳县| 山东| 曲松县| 隆昌县| 商都县| 河池市| 弋阳县| 梨树县| 桂平市| 台州市| 宁南县| 视频| 天全县| 廊坊市|