網易首頁 > 網易號 > 正文申請入駐

大模型怎樣工作？Transformer回路基礎丨周四直播·大模型可解釋性讀書會

2025-06-17 19:32:11　來源: 集智俱樂部

北京舉報

分享至

導語

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從不同視角梳理大語言模型可解釋性的科學方法論。

本期是「大模型可解釋性」讀書會的第一次分享，也是自下而上視角理解大模型機制可解釋性的概覽和入門引導，絕對不能錯過！

分享簡介

Transformer已成為大模型的事實標準架構。它的能力邊界在哪里？為什么會出錯/幻覺？能否/怎樣改進？了解Transformer的內部工作機理對這些問題都有基礎性意義。本次分享將介紹由注意力頭和前饋網絡組成的Transformer circuits（回路）的基本概念，通過探尋induction head、indirect object identification (IOI)、事實知識回憶等經典例子的回路理解Transformer完成這些的任務的機制，并介紹回路發現的常用方法的原理。可作為回路研究這個大模型機制可解釋性子領域的概覽和入門引導。

分享大綱

機制可解釋性的兩種研究方法

靜態分析（權重）
動態分析（回路）

Transformre和回路基礎

殘差流和線性結構
注意力頭和前饋網絡的作用
注意力頭的組合
Hello World回路：induction head

典型回路舉例

indirect object identification (IOI)
事實知識回憶
上下文學習

回路發現

基于patch的方法（activation patching、path patching）
自動化方法（ACDC）
基于梯度的方法（EAP、EAP-IG）

核心概念

Transformer circuit

這個大家都聽說過，但是可能又不是特別理解，期待肖達老師的講解：它的數學框架是什么，為什么有效？

induction head（感應頭）

感應頭是 Transformer 最基本的情境學習形式。它指的是 Transformer 如何在第二次識別已經見到過的模式，例如觀察到"AB"子序列時學習到模式（"B"跟隨"A"），這可能意味著當模型第二次看到"Barack"時，即使它沒有使用包含此名稱的數據進行訓練，也能預測"Obama"跟隨"Barack"。

activation patching（激活補丁）

激活補丁（又名因果中介分析、互換干預、因果追蹤、重采樣消融 ...）是一種核心機械可解釋性技術。關鍵思想是，對于給定的模型行為，只有一組稀疏的組件（頭部和神經元）可能是相關的。希望通過因果干預來定位這些組成部分。但是，只要有任何提示，就會涉及到許多模型行為。

Indirect object identification （IOI）

IOI 電路是在 GPT2-small 中發現的，相當龐大且復雜。是指模型內部是否“理解”了誰是接收者。例如，給定句子"John and Mary went to the shops, John gave a bag to Mary"，IOI 任務會預測單詞"Mary"緊跟在單詞"to"之后。

Edge attribution patching（EAP）

EAP with integrated gradients (EAP-IG)

EAP和EAP-IG通過集成梯度來更好地維護電路的忠實度，從而找到更加忠實的電路。旨在解決語言模型可解釋性研究中的一個問題找到能夠最小化計算子圖的電路，以解釋模型在特定任務上的行為？

Automated circuit discovery（自動回路發現，ACDC）

參考文獻

經典的思考Transformer基礎思想的文章，文章可以分成兩個部分，一個部分是如何用數學框架去推理Transformer，比如其代數表達，分解方式，以及一些需要了解的概念性內容；另一部分是在真實語言數據上訓練tiny版的transformer，并去解釋，驗證上部分的內容。本期講座主講人會重點講解，并期待和大家充分討論的一篇Anthropic發布的研究文獻。

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

這篇博客建立了一個Transformer的隱喻：一群人排成一隊，每人（殘差流中的向量）手里拿著一個單詞 ([2]) 。每個人都知道自己的單詞和在隊伍中的位置，但他們看不到隊伍中的其他人。每個人的目標是猜出前面的人拿著的單詞。人們可以向隊伍中站在他們后面的每個人大聲提問（前面的人聽不到）（注意力頭）。聽到問題后，每個人都可以選擇是否回答，以及將哪些信息傳達給提問者(MLP)。此后，人們不會記住他們被問到的問題（因此信息不能在隊伍中后退，只能前進）。當隊伍中的個人從這些交流中收集信息時，他們可以使用這些信息來組織后續問題并提供答案。

Callum McDougall. An Analogy for Understanding Transformers — EA Forum

IOI 電路是在 GPT2-small 中發現的，相當龐大且復雜。在大模型（如GPT）的機制分析中，“indirect object identification” 可能指模型內部是否“理解”了誰是接收者。

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

這是一篇關于大語言模型的提取過程的文獻，提出一種三階段提取方法。

階段1：發生在Transformer底層，實體的最關鍵的詞匯會不斷集成信息，觸發更多相關屬性詞匯。
階段2：發生在Transformer底層，上下文的重要信息通過Attention集成到提示詞最后一個位置。
階段3：發生在Transformer高層，最后一個位置在高層通過Attention Heads把編碼的知識提取出來（Attention Head里會編碼 <實體-屬性> 信息）。

Geva, Mor, et al. "Dissecting recall of factual associations in auto-regressive language models." arXiv preprint arXiv:2304.14767 (2023).

本文提出了自動回路發現的算法ACDC，遞歸地構建一個子圖，該子圖通過將模型激活修補到與特定任務相關的數據點上來識別。作者證明，ACDC 能夠基本忠實地恢復先前研究人員在各種任務（尤其是 Python 文檔字符串、IOI 和Induction head）中手動識別的電路。

Conmy, Arthur, et al. "Towards automated circuit discovery for mechanistic interpretability." Advances in Neural Information Processing Systems 36 (2023): 16318-16352.

這篇文獻提出了一種新的方法——EAP-IG，它通過集成梯度來更好地維護電路的忠實度，從而找到更加忠實的電路。旨在解決語言模型可解釋性研究中的一個問題：如何找到能夠最小化計算子圖的電路，以解釋模型在特定任務上的行為？

Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).

主講人簡介

肖達，人工智能公司彩云科技聯合創始人、首席科學家、北京郵電大學網絡空間安全學院副教授。

研究方向：主要負責深度神經網絡模型和算法的研發用于彩云天氣、彩云小譯、彩云小夢等產品。

參與時間

2025年6月19日（周四）晚上19:30-21:30

報名加入社群交流

https://pattern.swarma.org/study_group_issue/919?from=wechat

掃碼參與，加入社群，獲取系列讀書會永久回看權限，與社區的一線科研工作者溝通交流，共同探索大模型可解釋性這一前沿領域的發展。

大模型可解釋性讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境，嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？

復雜科學：滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力？

系統工程：如何擁抱不確定性，在具體的業界實踐中創造價值？

五位發起人老師會帶領大家研讀領域前沿論文，現誠邀對此話題感興趣的朋友，一起共創、共建、共享「大模型可解釋性」主題社區，通過互相的交流與碰撞，促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復雜系統與智能本質的交叉學科探索者，還是追求模型安全可信的工程實踐者，誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動，每周四晚19:30-21:30，預計持續分享10周左右。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.