導(dǎo)語(yǔ)
集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論。
本期是「大模型可解釋性」讀書(shū)會(huì)的第二次分享,張拳石老師將系統(tǒng)介紹他們針對(duì)大模型可解釋性問(wèn)題提出的等效交互理論,帶你從自上而下的視角思考神經(jīng)網(wǎng)絡(luò)是否可以被嚴(yán)謹(jǐn)?shù)慕忉屒宄看竽P湍軘[脫Scaling Law的桎梏嗎?
分享簡(jiǎn)介
“模型可解釋性的不足”和“Scaling Law的桎梏”是深度學(xué)習(xí)領(lǐng)域中兩大瓶頸性問(wèn)題,但是從內(nèi)在機(jī)理層面卻殊途同歸地指向同一根因——對(duì)模型表征能力缺少根本性解釋與建模。目前大部分可解釋性研究依然停留在工程技術(shù)層面,無(wú)法在機(jī)理層面直接解釋模型表征能力。張拳石團(tuán)隊(duì)所提出的基于等效交互可解釋性理論體系,從機(jī)理層面部分解決了上述問(wèn)題,證明了神經(jīng)網(wǎng)絡(luò)內(nèi)在復(fù)雜表征邏輯可以被嚴(yán)謹(jǐn)且全面地概括為稀疏的交互概念,并基于交互概念可以充分解釋神經(jīng)網(wǎng)絡(luò)的性能根因,從而跳出黑盒訓(xùn)練范式,有針對(duì)性地實(shí)時(shí)監(jiān)控并修復(fù)模型表征缺陷,提升訓(xùn)練和測(cè)試效率,擺脫Scaling Law的桎梏。
分享大綱
深度學(xué)習(xí)的雙重困境
Scaling Law 的歷史成就與當(dāng)前瓶頸
可解釋性研究的工程化局限
等效交互理論的核心突破
稀疏交互概念的定義
從神經(jīng)網(wǎng)絡(luò)內(nèi)在復(fù)雜表征邏輯到稀疏交互概念
表征缺陷診斷與修復(fù)技術(shù)
表征缺陷的實(shí)時(shí)監(jiān)控
基于交互概念的干預(yù)策略
超越 Scaling Law 的路徑
小模型的高效訓(xùn)練范式
動(dòng)態(tài)架構(gòu)優(yōu)化與資源分配
核心概念
稀疏交互概念神經(jīng)網(wǎng)絡(luò)中,僅少數(shù)神經(jīng)元組合(交互概念)對(duì)特定任務(wù)起決定性作用。這種稀疏性不僅是模型高效運(yùn)行的基礎(chǔ),更是可解釋性研究的關(guān)鍵切入點(diǎn)。通過(guò)定位這些交互模式,可精準(zhǔn)理解模型決策邏輯。
等效交互可解釋性理論張拳石團(tuán)隊(duì)提出的理論體系,證明神經(jīng)網(wǎng)絡(luò)的復(fù)雜計(jì)算可分解為稀疏概念交互,通過(guò)數(shù)學(xué)建模實(shí)現(xiàn)對(duì)模型行為的機(jī)理級(jí)解釋。該理論突破了傳統(tǒng)可解釋性方法的工程化局限,為模型優(yōu)化提供了直接的理論依據(jù)。
Scaling Law描述模型性能與參數(shù)規(guī)模、數(shù)據(jù)量、計(jì)算資源間關(guān)系的冪律規(guī)律。盡管曾推動(dòng)深度學(xué)習(xí)快速發(fā)展,但其邊際效益遞減趨勢(shì)(如 OpenAI 的 o3 模型)已引發(fā)對(duì)大模型可持續(xù)性的質(zhì)疑。
動(dòng)態(tài)表征修復(fù)基于等效交互理論的實(shí)時(shí)監(jiān)控技術(shù),通過(guò)干預(yù)特定交互概念的激活狀態(tài),可針對(duì)性修復(fù)模型在訓(xùn)練或推理中的表征缺陷,顯著提升泛化能力與魯棒性。
參考文獻(xiàn)
1.證明神經(jīng)網(wǎng)絡(luò)精細(xì)決策邏輯可以嚴(yán)格解釋為符號(hào)化等效交互概念
Qihan Ren, Jiayang Gao, Wen Shen, et al.Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in DNNs. International Conference on Learning Representations, 2024
2.從神農(nóng)嘗百草到精煉與萃取:論神經(jīng)網(wǎng)絡(luò)對(duì)抗遷移性
Xin Wang, Jie Ren, Shuyu Lin, et al.A Unified Approach to Interpreting and Boosting Adversarial Transferability. International Conference on Learning Representations, 2020, abs/2010.04055
3.神經(jīng)網(wǎng)絡(luò)的博弈交互解釋性(六):從博弈交互層面解釋對(duì)抗魯棒性
Jie Ren, Die Zhang, Yisen Wang, et al.A Unified Game-Theoretic Interpretation of Adversarial Robustness. arXiv.org, 2021, abs/2111.03536
4.可解釋性:神經(jīng)網(wǎng)絡(luò)對(duì)交互概念表達(dá)能力的解析分析
Dongrui Liu, Huiqi Deng, Xu Cheng, et al.Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities. Neural Information Processing Systems
5.發(fā)現(xiàn)并證明神經(jīng)網(wǎng)絡(luò)表征瓶頸
Huiqi Deng, Qihan Ren, Xu Chen, et al.Discovering and Explaining the Representation Bottleneck of DNNs. International Conference on Learning Representations, 2021, abs/2111.06236
6.神經(jīng)網(wǎng)絡(luò)可解釋性:正本清源,論統(tǒng)一14種輸入重要性歸因算法
Huiqi Deng, Na Zou, Mengnan Du, et al.Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions. arXiv.org, 2023, abs/2303.01506
7.敢問(wèn)深度學(xué)習(xí)路在何方,從統(tǒng)一12種提升對(duì)抗遷移性的算法說(shuō)起
Quanshi Zhang, Xin Wang, Jie Ren, et al.Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability. arXiv.org, 2022, abs/2207.11694
8.論文發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)(DNN)學(xué)習(xí)交互特征存在兩階段動(dòng)態(tài)過(guò)程,即第一階段抑制中高階交互、學(xué)習(xí)低階交互以提升泛化能力,第二階段逐步學(xué)習(xí)高階交互導(dǎo)致過(guò)擬合,該現(xiàn)象與訓(xùn)練 - 測(cè)試損失差距的變化時(shí)序一致,揭示了 DNN 從欠擬合到過(guò)擬合的起始機(jī)制。
Junpeng Zhang, Qing Li, Liang Lin, et al.Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features. arXiv.org, 2024, abs/2405.10262
9.論文通過(guò)數(shù)學(xué)證明揭示了深度神經(jīng)網(wǎng)絡(luò)(DNN)學(xué)習(xí)交互特征的兩階段動(dòng)態(tài)機(jī)制:初始階段抑制中高階交互以學(xué)習(xí)低階泛化特征,第二階段逐步引入高階交互導(dǎo)致過(guò)擬合,該理論與訓(xùn)練 - 測(cè)試損失差距的變化一致,并通過(guò)多任務(wù)實(shí)驗(yàn)驗(yàn)證了其普適性。
Qihan Ren, Yang Xu, Junpeng Zhang, et al.Towards the Dynamics of a DNN Learning Symbolic Interactions. Neural Information Processing Systems, 2024, abs/2407.19198: 50653–50688
主講人簡(jiǎn)介
張拳石,上海交通大學(xué)電院計(jì)算機(jī)科學(xué)與工程系長(zhǎng)聘副教授,博士生導(dǎo)師,入選國(guó)家級(jí)海外高層次人才引進(jìn)計(jì)劃,獲ACM China新星獎(jiǎng)。他于2014年獲得日本東京大學(xué)博士學(xué)位,于2014-2018年在加州大學(xué)洛杉磯分校(UCLA)從事博士后研究。張拳石在神經(jīng)網(wǎng)絡(luò)可解釋性方向取得了多項(xiàng)具有國(guó)際影響力的創(chuàng)新性成果。張拳石承擔(dān)了TMLR的責(zé)任編輯,CCF-A類(lèi)會(huì)議NeurIPS 2024的領(lǐng)域主席,IJCAI 2020和IJCAI 2021的可解釋性方向的Tutorial,并先后擔(dān)任了AAAI 2019, CVPR 2019, ICML 2021大會(huì)可解釋性方向的分論壇主席。
參與時(shí)間
2025年6月26日(周四)晚上19:30-21:30
報(bào)名加入社群交流
https://pattern.swarma.org/study_group_issue/931?from=wechat
掃碼參與,加入社群,獲取系列讀書(shū)會(huì)永久回看權(quán)限,與社區(qū)的一線(xiàn)科研工作者溝通交流,共同探索大模型可解釋性這一前沿領(lǐng)域的發(fā)展。
大模型可解釋性讀書(shū)會(huì)
集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?
復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?
五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠(chéng)邀對(duì)此話(huà)題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過(guò)互相的交流與碰撞,促進(jìn)我們更深入的理解以上問(wèn)題。無(wú)論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠(chéng)邀您共同參與這場(chǎng)揭開(kāi)大模型“黑箱”的思想盛宴。
讀書(shū)會(huì)計(jì)劃于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享10周左右。
詳情請(qǐng)見(jiàn):
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.