導(dǎo)語(yǔ)
集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論。
大模型的知識(shí)回路是如何形成的?如何利用稀疏自編碼器(SAE)這個(gè)新興的解釋性工具來(lái)“理解” LLM 的行為?如何利用它來(lái)實(shí)現(xiàn)可控的文本分類和文本生成?本次分享將圍繞這幾個(gè)核心問(wèn)題展開(kāi)。兩位主講人將詳細(xì)介紹稀疏自編碼器的工作原理、訓(xùn)練方法、并和大家一起討論它的應(yīng)用前景和未來(lái)挑戰(zhàn)。
分享簡(jiǎn)介
本次分享首先介紹語(yǔ)言模型內(nèi)部知識(shí)回路的形成過(guò)程并展現(xiàn)理解LLM的難點(diǎn):多義性。為了解決每一維編碼了多個(gè)互相正交的知識(shí),我們進(jìn)一步介紹稀疏自編碼器(Sparse Auto Encoder)這個(gè)打破多義性邁向單義性的新興的解釋性工具。我們會(huì)進(jìn)一步討論稀疏自編碼器的三個(gè)應(yīng)用前景,包括如何利用它來(lái)“理解” LLM 的行為(以 Anthropic Haiku 為例),以及如何利用它來(lái)實(shí)現(xiàn)可控的文本分類和文本生成。作為一個(gè)新興的技術(shù),分享會(huì)將以討論該方向的前景與挑戰(zhàn)結(jié)束。
分享大綱
大語(yǔ)言模型的知識(shí)回路的形成過(guò)程
語(yǔ)言模型知識(shí)召回的回路
回路視角下語(yǔ)言模型是如何學(xué)習(xí)新知識(shí)
稀疏自編碼器簡(jiǎn)述
Polysemantic下可解釋的挑戰(zhàn)
稀疏自編碼器的原理
稀疏自編碼器的架構(gòu)與訓(xùn)練
稀疏自編碼器的應(yīng)用
SAE用于模型分析:大型語(yǔ)言模型的生物學(xué)原理
SAE用于文本分類:去除“捷徑”特征,提升分類泛化性
SAE用于文本生成:增強(qiáng)模型安全意識(shí),抵御越獄攻擊
如何更好地利用SAE來(lái)理解更復(fù)雜的模型行為(如數(shù)學(xué)推理)?
SAE是否能更好地實(shí)現(xiàn)可控文本生成?
核心概念
稀疏自編碼器 Sparse Auto Encoder(SAE)
知識(shí)回路 Knowledge Circuits
多義性 Polysemanticity
參考文獻(xiàn)
Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024
Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025
Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.
Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.
Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features
Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html
Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.
Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.
Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.
主講人簡(jiǎn)介
姚云志,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士生,導(dǎo)師為陳華鈞教授與張寧豫教授,目前是UCLA的Nanyun Peng組訪問(wèn)研究學(xué)者。研究方向?yàn)榇笳Z(yǔ)言模型知識(shí)增強(qiáng),知識(shí)編輯與可解釋性。
吳烜圣,佐治亞大學(xué)計(jì)算機(jī)系四年級(jí)博士生,研究方向?yàn)榭捎玫拇笳Z(yǔ)言模型解釋性(Usable XAI),關(guān)注于如何更好地理解知識(shí)在模型隱空間的表示以實(shí)現(xiàn)更好的模型控制。他已發(fā)表同行評(píng)審論文14篇,累計(jì)引用量700+,曾于騰訊 AI Lab、百度 NLP、亞馬遜Rufus等業(yè)內(nèi)頂尖團(tuán)隊(duì)實(shí)習(xí)。
參與時(shí)間
2025年7月17日(周四)晚上19:30-21:30
報(bào)名加入社群交流
https://pattern.swarma.org/study_group_issue/945?from=wechat
掃碼參與,加入社群,獲取系列讀書(shū)會(huì)永久回看權(quán)限,與社區(qū)的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領(lǐng)域的發(fā)展。
大模型可解釋性讀書(shū)會(huì)
集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?
復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?
五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠(chéng)邀對(duì)此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過(guò)互相的交流與碰撞,促進(jìn)我們更深入的理解以上問(wèn)題。無(wú)論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠(chéng)邀您共同參與這場(chǎng)揭開(kāi)大模型“黑箱”的思想盛宴。
讀書(shū)會(huì)已于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享8-10周左右。
詳情請(qǐng)見(jiàn):
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.