導(dǎo)語
集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語言模型可解釋性的科學(xué)方法論。
大模型可解釋性方法在實際應(yīng)用中面臨哪些挑戰(zhàn)?這些挑戰(zhàn)如何解決?不同的可解釋性方法如何有效結(jié)合解決特定業(yè)務(wù)問題?本次分享將結(jié)合沈旭老師在工業(yè)界的實踐經(jīng)驗,通過數(shù)學(xué)、知識召回、指令遵循、上下文學(xué)習(xí)、多語言、量化等方面的研究,詳細(xì)闡述可解釋性方法如何結(jié)合模型微調(diào)、模型控制、模型量化等方法在分析模型內(nèi)部機理機制的同時,提升模型應(yīng)用效果。
分享簡介
大語言模型(LLMs)的快速發(fā)展展現(xiàn)出了前所未有的能力,但其不透明的內(nèi)部決策過程仍是一項關(guān)鍵挑戰(zhàn)。機制可解釋性已成為提升大語言模型安全性、可靠性和可控性的重要前沿領(lǐng)域。在本次講座中,首先帶大家梳理通過逆向工程理解大語言模型內(nèi)部結(jié)構(gòu),確立基礎(chǔ)性原理和可部署的應(yīng)用方案的領(lǐng)域前沿研究。然后重點分析大語言模型的算術(shù)計算、多語言處理和事實召回等關(guān)鍵能力機制,揭示了大語言模型如何將信息作為離散的 “電路”(Circuit)進行表示和處理。最后,會介紹基于上述的機制理解催生的一系列新穎應(yīng)用:
精準(zhǔn)控制:在Token-、activation-、neuron- 和module-level 進行干預(yù),以調(diào)整大語言模型的行為;
精準(zhǔn)微調(diào):在Head-和neuron-level進行微調(diào),以提升大語言模型的性能;
精準(zhǔn)量化:基于可解釋性的量化策略,實現(xiàn)了 3.4-bit與 4 -bit 基準(zhǔn)水平相當(dāng)?shù)男Ч?/p>
分享大綱
可解釋性研究背景
可解釋性基礎(chǔ)回顧
Head/MLP/Neuron/Logits/Circuit
Path patching/Logit Lens/Information Flow
可解釋性典型應(yīng)用案例
數(shù)學(xué)
知識召回
指令遵循
上下文學(xué)習(xí)
模型控制
模型融合
可解釋性在多語言上的綜合實戰(zhàn)
知識注入
知識召回
語言生成
Ongoing Works
融合增強的多語言模型
模型低比特量化
核心概念
Circuit
模型內(nèi)部特定能力或完成特定任務(wù)的相關(guān)模塊及其連接(head/neuron等)構(gòu)成的子圖。
Path Patching
通過對模型各模塊進行擾動并分析對模型特定行為的影響,定位模型內(nèi)部與特定任務(wù)相關(guān)的關(guān)鍵模塊(head/neuron等)。
Neuron Description
通過分析原子在激活響應(yīng)比較大的樣本集合上的共性,分析原子的功能。
模型微調(diào)
通過CPT、SFT、DPO、RL等方式,對基礎(chǔ)模型進行繼續(xù)微調(diào)訓(xùn)練,提升模型在特定任務(wù)上的能力,比如特定領(lǐng)域(法律、金融等)、數(shù)學(xué)、推理、多語言等。
模型控制
通過對模型內(nèi)部表征進行編輯,定向增強或者抑制模型特定行為。
模型融合
通過對多個特定專家模型(比如數(shù)學(xué)、代碼、翻譯等)進行參數(shù)加權(quán)融合,合成一個在各個任務(wù)上都接近專家模型能力的統(tǒng)一模型。
模型量化
通過將模型參數(shù)精度降低到特定低比特數(shù)(比如INT4,INT8等),提升模型推理效率,降低模型顯存消耗。
參考文獻
[1] Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.
經(jīng)典的思考Transformer基礎(chǔ)思想的文章,文章詳細(xì)闡述了如何用數(shù)學(xué)框架去推理Transformer,比如其代數(shù)表達(dá),分解方式,以及一些需要了解的概念性內(nèi)容。
[2] Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).
提出path patching方法和circuit概念的經(jīng)典文章,通過path patching方法在 GPT2-small 中發(fā)現(xiàn)了相當(dāng)龐大且復(fù)雜的IOI回路。
[3] Dami Choi et al. "Scaling Automatic Neuron Description." https://transluce.org/neuron-descriptions.
原子可解釋性經(jīng)典工作,通過分析原子在激活響應(yīng)比較大的樣本集合上的共性,分析原子的功能。
[4] Wei Zhang, et al, Interpreting and Improving Large Language Models in Arithmetic Calculation. ICML (Oral), 2024.
本文基于可解釋性方法分析了大模型完成數(shù)值計算的關(guān)鍵Head以及處理過程,并通過對這些關(guān)鍵head進行精準(zhǔn)微調(diào),提升模型數(shù)學(xué)能力的基礎(chǔ)上,保持模型通用能力不下降。
[5] Yiqun Wang et.al. Tracing and Dissecting How LLMs Recall Factual Knowledge for Real World Questions. ACL, 2025.
本文基于可解釋性方法分析了大模型完成多步知識召回推理的關(guān)鍵步驟及關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),提升模型知識推理能力的基礎(chǔ)上,保持模型通用能力不下降。
[6] Wei Chen, et al. From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning. ICML, 2024.
本文基于可解釋性方法分析了大模型與諂媚行為相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),降低模型諂媚行為的基礎(chǔ)上,保持模型其他能力不下降。
[7] Chenghao Sun, et al. Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings. ACL, 2025.
本文基于可解釋性方法分析了大模型與上下文學(xué)習(xí)能力相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),提升模型上下文學(xué)習(xí)能力的基礎(chǔ)上,保持模型其他能力不下降。
[8] Yuxin Xiao, et al, Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control. NeurIPS, 2024.
本文基于可解釋性方法分析了大模型與安全性相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)控制,提升模型在多種安全任務(wù)上的性能,并且保持模型其他能力不下降。
[9] Rui Dai, et al, Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs. ICLR, 2025.
本文分析了大模型各模塊的線性性質(zhì),并通過對這些關(guān)鍵模塊參數(shù)進行精準(zhǔn)融合,提升多個不同任務(wù)專家模型在融合之后的性能。
[10] Wangyun Gu, et al. NeuronMerge: Merging Models via Functional Neuron Groups. ACL, 2025.
本文分析了大模型內(nèi)與各個任務(wù)相關(guān)的原子,并通過對模型參數(shù)進行原子級別的精準(zhǔn)融合,提升多個不同任務(wù)專家模型在融合之后的性能。
主講人簡介
沈旭,阿里云-飛天實驗室高級算法專家。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)。曾獲浙江省科技進步一等獎,在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等國際頂會上發(fā)表論文40余篇,google scholar引用1900余次。
研究方向:大模型可解釋性、主權(quán)大模型。
參與時間
2025年7月11日(周五)晚上19:30-21:30
報名加入社群交流
https://pattern.swarma.org/study_group_issue/936?from=wechat
掃碼參與,加入社群,獲取系列讀書會永久回看權(quán)限,與社區(qū)的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領(lǐng)域的發(fā)展。
大模型可解釋性讀書會
集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學(xué)方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?
復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實踐中創(chuàng)造價值?
五位發(fā)起人老師會帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠邀對此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。
讀書會已于2025年6月19日啟動,每周四晚19:30-21:30,預(yù)計持續(xù)分享8-10周左右。
詳情請見:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.