本期為TechBeat人工智能社區(qū)第684期線上Talk。
北京時(shí)間5月15日(周三)20:00,新加坡國(guó)立大學(xué)博士生陽(yáng)行意的Talk將準(zhǔn)時(shí)在TechBeat人工智能社區(qū)開播!
他與大家分享的主題是:“Kolmogorov–Arnold Transformer:變革中的新架構(gòu)”,屆時(shí)他將介紹一種全新的架構(gòu)——Kolmogorov–Arnold Transformer (KAT),并提出三項(xiàng)解決方案克服KAN在硬件兼容性、計(jì)算效率以及權(quán)重初始化上的挑戰(zhàn)。
Talk·信息
主題:Kolmogorov–Arnold Transformer:變革中的新架構(gòu)
嘉賓:新加坡國(guó)立大學(xué) · 博士生 - 陽(yáng)行意
時(shí)間:北京時(shí)間5月15日(周四)20:00
地點(diǎn):TechBeat人工智能社區(qū)
http://www.techbeat.net/
Talk·介紹
在現(xiàn)代深度學(xué)習(xí)中,Transformer 已經(jīng)成為核心模型。然而,傳統(tǒng)的 Transformer 依賴多層感知機(jī)(MLP)來(lái)混合通道之間的信息。為了解決其局限性,我在這次講座中將為大家介紹一種全新的架構(gòu)——Kolmogorov–Arnold Transformer (KAT),它通過(guò)引入 Kolmogorov–Arnold 網(wǎng)絡(luò)(KAN)來(lái)替代 MLP,從而提升模型的表達(dá)能力和性能。為了克服 KAN 在硬件兼容性、計(jì)算效率以及權(quán)重初始化上的挑戰(zhàn),我們提出了三項(xiàng)解決方案:使用理性函數(shù)加速計(jì)算、通過(guò)分組共享權(quán)重減少計(jì)算量、并采用方差保持的初始化方法提高模型收斂性。KAT 在圖像識(shí)別、目標(biāo)檢測(cè)和語(yǔ)義分割等任務(wù)中表現(xiàn)優(yōu)越,顯著超越傳統(tǒng) Transformer。
Talk大綱
1. 介紹 Kolmogorov–Arnold Network(KAN)
因 MLP 的局限性而提出,其理論上擁有通用近似能力,并以 B-spline 作為邊上的可學(xué)習(xí)函數(shù)KAN 的優(yōu)點(diǎn)是理論上出色、在符號(hào)任務(wù)上表現(xiàn)出色且可解釋性好,但缺點(diǎn)是速度慢、難以優(yōu)化,在其他任務(wù)上表現(xiàn)不如 MLP。 Kolmogorov–Arnold Transformer(KAT)
2. 開發(fā) KAT 的原因
KAN 存在問(wèn)題,如基礎(chǔ)函數(shù)(B-spline 不利于 GPU 計(jì)算)、重復(fù)計(jì)算和初始化問(wèn)題,直接替換 KAN 到 Transformer 中行不通。
3. 提出的解決方案
S1 理性基礎(chǔ)函數(shù):用 Safe Padé 激活單元(PAU)替代 B-spline,其 CUDA 實(shí)現(xiàn)加速效果顯著。
S2 分組 KAN:提取公共項(xiàng),優(yōu)化計(jì)算。
S3 保持方差的初始化:先初始化 a 和 b,再初始化 w,以保持范數(shù)穩(wěn)定。
4. 實(shí)驗(yàn)與結(jié)果
展示 KAT 在 IN-1k 分類、MS-COCO 目標(biāo)檢測(cè)和 ADE-20k 語(yǔ)義分割任務(wù)上的性能。 消融實(shí)驗(yàn)表明 KAT 優(yōu)于其他激活函數(shù),并且運(yùn)行速度提升。
5. 核心啟示
可學(xué)習(xí)的non-linear functions
Talk·預(yù)習(xí)資料
論文鏈接: https://arxiv.org/abs/2409.10594 代碼鏈接: https://github.com/Adamdad/kat
Talk·提問(wèn)交流
在Talk界面下的【交流區(qū)】參與互動(dòng)!留下你的打call和問(wèn)題,和更多小伙伴們共同討論,被講者直接翻牌解答!
你的每一次貢獻(xiàn),我們都會(huì)給予你相應(yīng)的i豆積分,還會(huì)有驚喜獎(jiǎng)勵(lì)哦!
Talk·嘉賓介紹
陽(yáng)行意???????????
新加坡國(guó)立大學(xué) · 博士生???
陽(yáng)行意是新加坡國(guó)立大學(xué)電子計(jì)算機(jī)工程系xML實(shí)驗(yàn)室的第四年博士生,專注于機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)領(lǐng)域。他的研究致力于提高深度學(xué)習(xí)模型的效率,擴(kuò)展模型功能及其可組合性,以減少模型重訓(xùn)練的需求。通過(guò)深度模型重用和優(yōu)化,他在2D、3D以及視頻擴(kuò)散生成模型領(lǐng)域取得了顯著成就。他已在頂尖學(xué)術(shù)會(huì)議上發(fā)表了20余篇論文,谷歌學(xué)術(shù)引用次數(shù)超過(guò)3400次。他因在模型重用與生成模型方面的創(chuàng)新研究,榮獲了2022年NeurIPS最佳論文提名獎(jiǎng)、2023年國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,以及2024年世界人工智能大會(huì)青年優(yōu)秀論文提名獎(jiǎng)。
個(gè)人主頁(yè): https://www.techbeat.net/grzytrkj?id=44712 ????
-The End-
如果你也想成為講者
自薦 / 推薦
單人Talk | 團(tuán)隊(duì)專場(chǎng) | 錄播or直播 | 閉門交流
多種方式任你選擇!
推薦講者成功也有獎(jiǎng)勵(lì)哦~
關(guān)于TechBeat人工智能社區(qū)
TechBeat(www.techbeat.net)隸屬于將門創(chuàng)投,是一個(gè)薈聚全球華人AI精英的成長(zhǎng)社區(qū)。
我們希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其學(xué)習(xí)成長(zhǎng)。
期待這里可以成為你學(xué)習(xí)AI前沿知識(shí)的高地,分享自己最新工作的沃土,在AI進(jìn)階之路上的升級(jí)打怪的根據(jù)地!
更多詳細(xì)介紹>>
預(yù)約本期Talk
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.