網易首頁 > 網易號 > 正文申請入駐

大模型知識回路的形成與SAE在可解釋中的潛力丨周六直播·大模型可解釋性讀書會

2025-07-17 19:17:29　來源: 集智俱樂部

北京舉報

分享至

導語

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從不同視角梳理大語言模型可解釋性的科學方法論。

大模型的知識回路是如何形成的？如何利用稀疏自編碼器（SAE）這個新興的解釋性工具來“理解” LLM 的行為？如何利用它來實現可控的文本分類和文本生成？本次分享將圍繞這幾個核心問題展開。兩位主講人將詳細介紹稀疏自編碼器的工作原理、訓練方法、并和大家一起討論它的應用前景和未來挑戰。

分享簡介

本次分享首先介紹語言模型內部知識回路的形成過程并展現理解LLM的難點：多義性。為了解決每一維編碼了多個互相正交的知識，我們進一步介紹稀疏自編碼器（Sparse Auto Encoder）這個打破多義性邁向單義性的新興的解釋性工具。我們會進一步討論稀疏自編碼器的三個應用前景，包括如何利用它來“理解” LLM 的行為（以 Anthropic Haiku 為例)，以及如何利用它來實現可控的文本分類和文本生成。作為一個新興的技術，分享會將以討論該方向的前景與挑戰結束。

分享大綱

大語言模型的知識回路的形成過程
- 語言模型知識召回的回路
- 回路視角下語言模型是如何學習新知識
稀疏自編碼器簡述
- Polysemantic下可解釋的挑戰
- 稀疏自編碼器的原理
- 稀疏自編碼器的架構與訓練
稀疏自編碼器的應用
- SAE用于模型分析：大型語言模型的生物學原理
- SAE用于文本分類：去除“捷徑”特征，提升分類泛化性
- SAE用于文本生成：增強模型安全意識，抵御越獄攻擊
- 如何更好地利用SAE來理解更復雜的模型行為（如數學推理）？
- SAE是否能更好地實現可控文本生成？

核心概念

稀疏自編碼器 Sparse Auto Encoder(SAE)
知識回路 Knowledge Circuits
多義性 Polysemanticity

參考文獻

Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024
Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025
Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.
Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.
Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features
Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html
Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.
Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.
Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主講人簡介

姚云志，浙江大學計算機科學與技術學院博士生，導師為陳華鈞教授與張寧豫教授，目前是UCLA的Nanyun Peng組訪問研究學者。研究方向為大語言模型知識增強，知識編輯與可解釋性。

吳烜圣，佐治亞大學計算機系四年級博士生，研究方向為可用的大語言模型解釋性（Usable XAI），關注于如何更好地理解知識在模型隱空間的表示以實現更好的模型控制。他已發表同行評審論文14篇，累計引用量700+，曾于騰訊 AI Lab、百度 NLP、亞馬遜Rufus等業內頂尖團隊實習。

參與時間

2025年7月19日（周六）上午10:00-12:00

報名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

掃碼參與，加入社群，獲取系列讀書會永久回看權限，與社區的一線科研工作者溝通交流，共同探索大模型可解釋性這一前沿領域的發展。

大模型可解釋性讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？

復雜科學：滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力？

系統工程：如何擁抱不確定性，在具體的業界實踐中創造價值？

五位發起人老師會帶領大家研讀領域前沿論文，現誠邀對此話題感興趣的朋友，一起共創、共建、共享「大模型可解釋性」主題社區，通過互相的交流與碰撞，促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復雜系統與智能本質的交叉學科探索者，還是追求模型安全可信的工程實踐者，誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會已于2025年6月19日啟動，每周四晚19:30-21:30，預計持續分享8-10周左右。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.