破解AI黑箱的四重視角：大模型可解釋性讀書會啟動

2025-05-30 20:11:56　來源: 集智俱樂部

北京舉報

分享至

導(dǎo)語

集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學(xué)家肖達、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起「大模型可解釋性」讀書會。本讀書會旨在突破大模型“黑箱”困境，嘗試從以下四個視角梳理大語言模型可解釋性的科學(xué)方法論：

自下而上：Transformer circuit 為什么有效？

自上而下：神經(jīng)網(wǎng)絡(luò)的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚？

復(fù)雜科學(xué)：滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力？

系統(tǒng)工程：如何擁抱不確定性，在具體的業(yè)界實踐中創(chuàng)造價值？

五位發(fā)起人老師會帶領(lǐng)大家研讀領(lǐng)域前沿論文，現(xiàn)誠邀對此話題感興趣的朋友，一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū)，通過互相的交流與碰撞，促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者，探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者，還是追求模型安全可信的工程實踐者，誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動，每周四晚19:30-21:30，預(yù)計持續(xù)分享10周左右。

背景簡介

人工神經(jīng)網(wǎng)絡(luò)自2012年以來取得了巨大突破，特別是以大模型為代表的新一代人工智能技術(shù)。但是，隨著深度學(xué)習(xí)模式的興起，“端到端”的學(xué)習(xí)模式逐漸占據(jù)主導(dǎo)地位。然而，人們不了解它是如何做到的，只能視之為“黑箱”。因此，人們對AI的改進被限制在堆算力與數(shù)據(jù)上，也無法完全信任AI。

長遠來看，基于數(shù)據(jù)和算力資源Scaling law的大模型能力的提升會走到盡頭。因此，深度學(xué)習(xí)的研究范式需要從「經(jīng)驗性技術(shù)」轉(zhuǎn)換到「科學(xué)方法論」。理想情況下，最好我們能從理論上證明“神經(jīng)網(wǎng)絡(luò)的精細決策邏輯”可以在數(shù)學(xué)上被推導(dǎo)和建模。當然，不少學(xué)者也從統(tǒng)計物理、復(fù)雜科學(xué)等視角嘗試理解大模型的涌現(xiàn)機制、上下文學(xué)習(xí)能力及結(jié)構(gòu)與功能的對應(yīng)關(guān)系等。最近，Anthropic公司也嘗試拿起「手術(shù)刀」，拆解大模型的工作回路，希望能夠理解大模型在推理、創(chuàng)作、理解語言等各種能力上的工作回路是什么樣的，也引起大家的廣泛關(guān)注。

圖片來源：https://www.anthropic.com/research/tracing-thoughts-language-model

為了更深入的理解大語言模型的可解釋性，集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學(xué)家肖達、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起「大模型可解釋性」讀書會。讀書會嘗試回答以下問題：

Transformer circuit有效的數(shù)學(xué)基礎(chǔ)是什么？
工作回路發(fā)現(xiàn)如何調(diào)和效率與粒度的問題？
大語言模型是如何調(diào)用知識完成任務(wù)的？
神經(jīng)網(wǎng)絡(luò)的精細決策邏輯是否可以被嚴謹?shù)亟忉屒宄?/p>
決定神經(jīng)網(wǎng)絡(luò)的性能的根因是否可以被清晰的數(shù)學(xué)建模？
滲流相變、自組織理論等如何解釋大語言模型的涌現(xiàn)、頓悟等現(xiàn)象？
統(tǒng)計物理框架下如何解釋In-context learning 的機理？
如何從大模型中識別不同模塊的重要性？
如何基于有限的內(nèi)部決策路徑提升模型性能與安全性？
如何將分析推理模型與一般模型融合？

讀書會框架

讀書會將圍繞以下模塊展開：

自下而上的工作回路視角：從還原論的視角理解大模型的可解釋性機制，繪制大模型的工作回路，并反過來理解大模型是怎么工作的。我們將系統(tǒng)梳理包括大語言模型架構(gòu)中工作回路相關(guān)的研究工作，重點關(guān)注：1) Transformer circuits 數(shù)學(xué)基礎(chǔ)；2）回路識別與稀疏化方法；
自上而下的等效交互視角：從理論層面推導(dǎo)神經(jīng)網(wǎng)絡(luò)的精細決策邏輯，解釋清楚決定神經(jīng)網(wǎng)絡(luò)的性能的根因，將經(jīng)驗性調(diào)優(yōu)轉(zhuǎn)化為可證明的理論體系，突破Scaling law的桎梏；
復(fù)雜科學(xué)視角：從復(fù)雜科學(xué)、統(tǒng)計物理中的涌現(xiàn)、自組織、分形、滲流相變等理論視角，將大模型看作一個復(fù)雜系統(tǒng)，試圖理解其在執(zhí)行任務(wù)的過程中表現(xiàn)出的Scaling law，Groking和In context learning等能力；
系統(tǒng)工程視角：聚焦模型的基礎(chǔ)算法模塊、內(nèi)部決策路徑及端到端處理邏輯。通過解析大模型的原子算法（如任務(wù)定位、模型解釋、調(diào)優(yōu)策略），還原其從輸入到輸出的每一步 “思考” 過程，實現(xiàn)從算法層面的透明化，從而實現(xiàn)對大模型性能與安全性的有效提升。

發(fā)起人團隊

張拳石，上海交通大學(xué)副教授，博士生導(dǎo)師，入選國家級海外高層次人才引進計劃，獲ACM China新星獎。2014年獲得日本東京大學(xué)博士學(xué)位，2014—2018年在加州大學(xué)洛杉磯分校（UCLA）從事博士后研究，合作導(dǎo)師為朱松純教授。在神經(jīng)網(wǎng)絡(luò)可解釋性方向取得了多項具有國際影響力的成果，其研究成果發(fā)表在IEEE T-PAMI、ICML、ICLR、CVPR等頂級期刊和會議上，并擔任IJCAI可解釋性方向Tutorial主講人及AAAI、CVPR、ICML等會議的分論壇主席。

研究方向：可解釋性機器學(xué)習(xí)，提出等效交互可解釋性理論體系。

沈旭，阿里云-飛天實驗室高級算法專家，大模型可解釋性負責人。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)。曾獲浙江省科技進步一等獎，在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等國際頂會上發(fā)表論文40余篇，google scholar引用1900余次。

研究方向：聚焦大模型的內(nèi)在機理和運行機制，重點探索模型可解釋性等核心問題，并致力于將大語言模型技術(shù)應(yīng)用在國際大型賽事、主權(quán)大模型等關(guān)鍵場景。

肖達，人工智能公司彩云科技聯(lián)合創(chuàng)始人、首席科學(xué)家、北京郵電大學(xué)網(wǎng)絡(luò)空間安全學(xué)院講師。

研究方向：主要負責深度神經(jīng)網(wǎng)絡(luò)模型和算法的研發(fā)用于彩云天氣、彩云小譯、彩云小夢等產(chǎn)品。

楊明哲，北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院碩士生，張江老師因果涌現(xiàn)研究小組成員。

研究方向：因果涌現(xiàn)、復(fù)雜系統(tǒng)自動建模。

姚云志，浙江大學(xué)計算機科學(xué)與技術(shù)學(xué)院在讀博士生，導(dǎo)師為陳華鈞教授與張寧豫教授。現(xiàn)在是加州大學(xué)洛杉磯分校的訪問研究學(xué)者，與Nanyun Peng教授一起工作。

研究方向：自然語言處理的機器學(xué)習(xí)，特別關(guān)注支撐大型語言模型（LLM）的知識機制。研究 LLM 如何獲取、存儲和利用知識進行推理，以及不同架構(gòu)和模式的模型之間的交互方式。目標是開發(fā)簡潔而精確的模型編輯方法。

報名參與讀書會

運行模式

從2025年6月19日開始，每周四晚 19:30-21:30，持續(xù)時間預(yù)計10周左右，按讀書會框架設(shè)計，每周進行線上會議，與主講人等社區(qū)成員當面交流，會后可以獲得視頻回放持續(xù)學(xué)習(xí)。

報名方式

第一步：微信掃碼填寫報名信息。

掃碼報名（可開發(fā)票）

第二步：填寫信息后，付費報名。如需用支付寶支付，請在PC端進入讀書會頁面報名支付：

https://pattern.swarma.org/study_group/63

第三步：添加運營負責人微信，拉入對應(yīng)主題的讀書會社區(qū)（微信群）。

PS：為確保專業(yè)性和討論的聚焦，本讀書會謝絕脫離讀書會主題和復(fù)雜科學(xué)問題本身的空泛的哲學(xué)和思辨式討論；如果出現(xiàn)討論內(nèi)容不符合要求、經(jīng)提醒無效者，會被移除群聊并對未參與部分退費。

加入社區(qū)后可以獲得的資源：

完整權(quán)限，包括線上問答、錄播回看、資料共享、社群交流、信息同步、共創(chuàng)任務(wù)獲取積分等。

參與共創(chuàng)任務(wù)獲取積分，共建學(xué)術(shù)社區(qū)：

讀書會采用共學(xué)共研機制，成員通過內(nèi)容共創(chuàng)獲積分（字幕修改、讀書會筆記、論文速遞、公眾號文章、集智百科、論文解讀等共創(chuàng)任務(wù)），積分符合條件即可退費。發(fā)起人和主講人同樣遵循此機制，無額外金錢激勵。

PS：具體參與方式可以加入讀書會后查看對應(yīng)的共創(chuàng)任務(wù)列表，領(lǐng)取任務(wù)，與運營負責人溝通詳情，上述規(guī)則的最終解釋權(quán)歸集智俱樂部所有。

讀書會閱讀材料

閱讀材料較長，為了更好的閱讀體驗，建議您前往集智斑圖沉浸式閱讀，并可收藏感興趣的論文。

https://pattern.swarma.org/article/348?from=wechat

讀書會閱讀清單

自下而上：工作回路視角

圖片來源：https://www.anthropic.com/news（Tracing the thoughts of a large language model）

數(shù)學(xué)基礎(chǔ)

1.提出一種數(shù)學(xué)框架，將Transformer模型（如Claude）的計算過程分解為可解釋的電路元件（如注意力頭、前饋網(wǎng)絡(luò)層），通過線性代數(shù)工具量化各元件對輸出的貢獻。

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

回路發(fā)現(xiàn)

1.類比生物系統(tǒng)的進化與適應(yīng)性，分析大語言模型（LLM）中神經(jīng)結(jié)構(gòu)的“功能分化”現(xiàn)象。

Lindsey, Jack, et al. "On the biology of a large language model." Transformer Circuits Thread (2025).

2.開發(fā)自動化電路追蹤技術(shù)，通過干預(yù)實驗和梯度分析，繪制LLM內(nèi)部特定任務(wù)（如問答、邏輯推理）的動態(tài)計算子圖。

Ameisen, Emmanuel, et al. "Circuit tracing: Revealing computational graphs in language models." Transformer Circuits Thread (2025).

3.該論文通過逆向工程方法，在GPT-2 small模型中識別出一個專門負責間接賓語識別的神經(jīng)回路，揭示了語言模型處理語法關(guān)系的模塊化機制，但效率較低。

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

4.效率更高的回路發(fā)現(xiàn)方法，把transformer看作圖，通過計算梯度評估圖中邊的重要性轉(zhuǎn)化為稀疏圖，同樣也能做任務(wù)

Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).

5.回路發(fā)現(xiàn)方法，與Anthropic相關(guān)，對于回路的可解釋性更高（粒度更細），在原始模型上在訓(xùn)練一個模型解決效率的問題

Dunefsky, Jacob, Philippe Chlenski, and Neel Nanda. "Transcoders find interpretable llm feature circuits." arXiv preprint arXiv:2406.11944 (2024)

知識調(diào)用

1.揭示了Transformer模型通過特定注意力頭和前饋網(wǎng)絡(luò)的動態(tài)協(xié)作機制實現(xiàn)事實知識檢索，提出知識以鍵值對形式存儲于FFN中并通過注意力匹配激活的核心觀點。

Lv, Ang, et al. "Interpreting key mechanisms of factual recall in transformer-based language models." arXiv preprint arXiv:2403.19521 (2024).

2.定義了預(yù)訓(xùn)練Transformer中稀疏且模塊化的"知識回路"結(jié)構(gòu)，證明不同事實依賴特定子網(wǎng)絡(luò)路徑，并可通過編輯電路參數(shù)實現(xiàn)知識的定向修改。

Yao, Yunzhi, et al. "Knowledge circuits in pretrained transformers." arXiv preprint arXiv:2405.17969 (2024).

自上而下：等效交互視角

什么才是解釋性領(lǐng)域的第一性原理？張拳石團隊認為需要在一個新的理論體系中，提出大量公理性要求，得出一個可以精確、嚴謹解釋神經(jīng)網(wǎng)絡(luò)內(nèi)在機理的理論才叫第一性原理。他們從0到1搭建了「等效交互可解釋性理論體系」，從三個角度來解釋神經(jīng)網(wǎng)絡(luò)的內(nèi)在機理。

首先是語義解釋的理論基礎(chǔ)。張拳石團隊找到了在大部分應(yīng)用中神經(jīng)網(wǎng)絡(luò)都可以滿足的面向遮擋魯棒性的三個常見條件，并且數(shù)學(xué)證明了滿足這三個條件的神經(jīng)網(wǎng)絡(luò)決策邏輯可以被寫成符號化的交互概念。

1.證明神經(jīng)網(wǎng)絡(luò)精細決策邏輯可以嚴格解釋為符號化等效交互概念

Qihan Ren, Jiayang Gao, Wen Shen, and Quanshi Zhang. Where We Have Arrived in Proving the Emergence of Sparse Interaction Primitives in DNNs. In ICLR, 2024.

https://zhuanlan.zhihu.com/p/693747946

其次是尋找性能背后可證明、可驗證的根因。將神經(jīng)網(wǎng)絡(luò)泛化性和魯棒性等終極性能性能指標拆分成具體少數(shù)細節(jié)邏輯。他們證明：等效交互的復(fù)雜度可以直接決定神經(jīng)網(wǎng)絡(luò)的魯棒性/遷移性，決定神經(jīng)網(wǎng)絡(luò)的表征能力。

2.從神農(nóng)嘗百草到精煉與萃取：論神經(jīng)網(wǎng)絡(luò)對抗遷移性

Xin Wang, Jie Ren, Shuyun Lin, Xiangming Zhu, Yisen Wang, Quanshi Zhang, “A Unified Approach to Interpreting and Boosting Adversarial Transferability” in ICLR 2021

https://zhuanlan.zhihu.com/p/369883667

3.神經(jīng)網(wǎng)絡(luò)的博弈交互解釋性（六）：從博弈交互層面解釋對抗魯棒性

Jie Ren*, Die Zhang*, Yisen Wang*, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, and Quanshi Zhang (Correspondence), “A Unified Game-Theoretic Interpretation of Adversarial Robustness” in Neurips 2021

https://zhuanlan.zhihu.com/p/361686461

4.可解釋性：神經(jīng)網(wǎng)絡(luò)對交互概念表達能力的解析分析

Dongrui Liu, Huiqi Deng, Xu Cheng, Qihan Ren, Kangrui Wang, and Quanshi Zhang, "Towards the Difficulty for a Deep Neural Network to Learn Concepts of Different Complexities" in NeurIPS 2023

https://zhuanlan.zhihu.com/p/704760363

5.發(fā)現(xiàn)并證明神經(jīng)網(wǎng)絡(luò)表征瓶頸

Discovering and Explaining the Representation Bottleneck of DNNs，Huiqi Deng*, Qihan Ren*, Hao Zhang, andQuanshi Zhang (Correspondence), ICLR (Oral), 2022

https://zhuanlan.zhihu.com/p/468569001

最后需要對深度學(xué)習(xí)算法在工程上統(tǒng)一。他們證明了14種不同的輸入重要性歸因算法的計算本質(zhì)在數(shù)學(xué)上都可以統(tǒng)一寫成成對交互作用的再分配形式，還提出了12種提升對抗性遷移的算法，證明了所有提升對抗性遷移算法的一個公共機理是降低對抗擾動之間的交互效用，實現(xiàn)了對神經(jīng)網(wǎng)絡(luò)可解釋性方向大部分工程性算法的理論凝練。

6.神經(jīng)網(wǎng)絡(luò)可解釋性：正本清源，論統(tǒng)一14種輸入重要性歸因算法

Deng et al. "Understanding and Unifying Fourteen Attribution Methods with Taylor Interactions" in arXiv:2303.01506

https://zhuanlan.zhihu.com/p/610774894

7.敢問深度學(xué)習(xí)路在何方，從統(tǒng)一12種提升對抗遷移性的算法說起

Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferabilityhttps://arxiv.org/abs/2207.11694

https://zhuanlan.zhihu.com/p/546433296

沿著上述理論框架，張拳石老師團隊希望精確解釋神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中泛化性的變化規(guī)律。

8.論文發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)（DNN）學(xué)習(xí)交互特征存在兩階段動態(tài)過程，即第一階段抑制中高階交互、學(xué)習(xí)低階交互以提升泛化能力，第二階段逐步學(xué)習(xí)高階交互導(dǎo)致過擬合，該現(xiàn)象與訓(xùn)練 - 測試損失差距的變化時序一致，揭示了 DNN 從欠擬合到過擬合的起始機制。

Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features https://arxiv.org/html/2405.10262v1

9.論文通過數(shù)學(xué)證明揭示了深度神經(jīng)網(wǎng)絡(luò)（DNN）學(xué)習(xí)交互特征的兩階段動態(tài)機制：初始階段抑制中高階交互以學(xué)習(xí)低階泛化特征，第二階段逐步引入高階交互導(dǎo)致過擬合，該理論與訓(xùn)練 - 測試損失差距的變化一致，并通過多任務(wù)實驗驗證了其普適性。

Ren, Qihan, et al. "Towards the dynamics of a DNN learning symbolic interactions." Advances in Neural Information Processing Systems 37 (2024): 50653-50688.

https://proceedings.neurips.cc/paper_files/paper/2024/file/5aa96d1caa0d0b99d534b67df06be2ff-Paper-Conference.pdf

復(fù)雜科學(xué)視角

圖片來源：https://www.santafe.edu/research/projects/artificial-intelligence-foundations-frontiers（Cyborg (Illustration: Runran/flickr)）

相變現(xiàn)象與相關(guān)理論

1.用滲流模型解釋大語言模型的涌現(xiàn)現(xiàn)象，把大語言模型的涌現(xiàn)和二分圖上的滲流相變聯(lián)系在了一起。（復(fù)雜網(wǎng)絡(luò)的滲流相變）

Lubana, E. S., Kawaguchi, K., Dick, R. P., & Tanaka, H. (2024). A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language (arXiv:2408.12578). arXiv. https://doi.org/10.48550/arXiv.2408.12578

2.用一種統(tǒng)一的視角來理解大語言模型的頓悟、雙降和涌現(xiàn)現(xiàn)象。它提出這三種現(xiàn)象來自于，記憶和泛化兩種路徑在大語言模型內(nèi)部的競爭，使得模型處在不同的相，以及相與相之間的切換。（一套機制解釋grok\雙下降\ 涌現(xiàn)）

Huang, Y., Hu, S., Han, X., Liu, Z., & Sun, M. (2024). Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition (arXiv:2402.15175). arXiv. https://doi.org/10.48550/arXiv.2402.15175

自組織理論

1.這篇文章通過提出“神經(jīng)元多重分形分析（NeuroMFA）”，用神經(jīng)元之間動態(tài)互作的多尺度復(fù)雜性來解釋和度量大語言模型中的涌現(xiàn)現(xiàn)象，從神經(jīng)元自組織的角度揭示了模型在訓(xùn)練過程中由簡單局部互作逐步產(chǎn)生復(fù)雜智能行為的內(nèi)在機制。（自組織）

Xiao, X., Ping, H., Zhou, C., Cao, D., Li, Y., Zhou, Y.-Z., Li, S., Kanakaris, N., & Bogdan, P. (2025). Neuron-based Multifractal Analysis of Neuron Interaction Dynamics in Large Models (arXiv:2402.09099). arXiv.https://doi.org/10.48550/arXiv.2402.09099

2.強調(diào)結(jié)構(gòu)和功能的關(guān)系，從復(fù)雜系統(tǒng)自組織的角度理解大模型的小型綜述文章

Teehan, Ryan, et al. "Emergent structures and training dynamics in large language models." Proceedings of BigScience Episode# 5--Workshop on Challenges & Perspectives in Creating Large Language Models. 2022.

自旋玻璃理論

1.通過自旋玻璃理論框架，對大型語言模型（LLMs）中的上下文學(xué)習(xí)（ICL）機制提出了新的理論解釋。將ICL中語言模型的動態(tài)行為映射到自旋玻璃系統(tǒng)的能量景觀，其中輸入提示（prompt）相當于外部磁場，模型參數(shù)對應(yīng)自旋狀態(tài)，而上下文信息的作用類似于磁疇間的相互作用。

Li, Y., Bai, R., & Huang, H. (2025). Spin glass model of in-context learning (arXiv:2408.02288). arXiv. https://doi.org/10.48550/arXiv.2408.02288

系統(tǒng)工程視角

圖片來源：https://www.anthropic.com/news/core-views-on-ai-safety

模塊重要性劃分

1.通過因果干預(yù)和路徑修補技術(shù)，在GPT-2 small中識別并驗證了26個注意力頭組成的稀疏電路，用于間接賓語識別任務(wù)。（回路發(fā)現(xiàn)中也有這篇文章）

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

2.提出基于因果中介分析的方法，揭示性別偏見在Transformer模型中的稀疏性和協(xié)同性，定位關(guān)鍵神經(jīng)元和注意力頭。

Vig, Jesse, et al. "Causal mediation analysis for interpreting neural nlp: The case of gender bias." arXiv preprint arXiv:2004.12265 (2020).

3.提出基于梯度的“歸因修補”技術(shù)，高效近似激活修補，用于大規(guī)模模型中定位關(guān)鍵模塊（如注意力頭）。

Nanda, Neel. "Attribution patching: Activation patching at industrial scale." URL: https://www. neelnanda. io/mechanistic-interpretability/attribution-patching (2023).

4.發(fā)現(xiàn)ICL中標簽詞作為信息錨點，淺層語義信息聚合到標簽詞表征，最終影響預(yù)測。

Wang, Lean, et al. "Label words are anchors: An information flow perspective for understanding in-context learning." arXiv preprint arXiv:2305.14160 (2023).

5.發(fā)現(xiàn)LLMs中少量關(guān)鍵注意力頭（<5%）和MLP層在算術(shù)計算中起核心作用，選擇性微調(diào)可提升數(shù)學(xué)能力。

Zhang, Wei, et al. "Interpreting and improving large language models in arithmetic calculation." arXiv preprint arXiv:2409.01659 (2024).

6.通過規(guī)模化方法從Claude 3中提取可解釋的稀疏特征，揭示模型內(nèi)部模塊的語義分工。

Templeton, Adly. Scaling monosemanticity: Extracting interpretable features from claude 3 sonnet. Anthropic, 2024.

7.提出SAEBench，一個評估稀疏自編碼器（SAEs）在語言模型可解釋性中性能的綜合基準，涵蓋無監(jiān)督指標和下游任務(wù)。

Karvonen, Adam, et al. "SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability." arXiv preprint arXiv:2503.09532 (2025).

8.通過定位和編輯GPT中與事實關(guān)聯(lián)的中間層MLP模塊，實現(xiàn)知識的高效更新。

Meng, Kevin, et al. "Locating and editing factual associations in gpt." Advances in neural information processing systems 35 (2022): 17359-17372.

9.提出稀疏特征電路方法，通過可解釋的因果子網(wǎng)絡(luò)定位和編輯語言模型行為。

Marks, Samuel, et al. "Sparse feature circuits: Discovering and editing interpretable causal graphs in language models." arXiv preprint arXiv:2403.19647 (2024).

模型性能與安全性

1.通過稀疏激活控制（SAC）技術(shù)，獨立調(diào)控注意力頭以同時提升模型的安全性、事實性和無偏見性。

Xiao, Yuxin, et al. "Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control." Advances in Neural Information Processing Systems 37 (2024): 15730-15764.

https://arxiv.org/abs/2411.02461

2.揭示DPO對齊算法通過分布式微調(diào)繞過（而非消除）毒性生成區(qū)域，解釋模型易被逆向破解的機制。

Lee, Andrew, et al. "A mechanistic understanding of alignment algorithms: A case study on dpo and toxicity." arXiv preprint arXiv:2401.01967 (2024).

https://arxiv.org/pdf/2401.01967

3.研究發(fā)現(xiàn)鏈式思維（CoT）提示生成的推理過程并不總是忠實反映模型的真實推理意圖，提示監(jiān)控CoT可能不足以檢測罕見或意外的模型行為。

Chen, Yanda, et al. "Reasoning Models Don't Always Say What They Think." arXiv preprint arXiv:2505.05410 (2025).

https://arxiv.org/abs/2505.05410

4.通過表征工程（如LAT方法）監(jiān)控和控制模型內(nèi)部的高層認知概念（如誠實性）。

Zou, Andy, et al. "Representation engineering: A top-down approach to ai transparency." arXiv preprint arXiv:2310.01405 (2023). https://arxiv.org/pdf/2310.01405

5.通過微調(diào)關(guān)鍵子模塊（<5%）解決大模型中的諂媚行為，保持通用能力。

Chen, Wei, et al. "From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning." arXiv preprint arXiv:2409.01658 (2024).

https://arxiv.org/abs/2409.01658

模型融合

1.研究多語言模型中語言特定和語言無關(guān)的模塊劃分，分析跨語言知識遷移的機制。

Zhao, Yiran, et al. "How do large language models handle multilingualism?." arXiv preprint arXiv:2402.18815 (2024).https://arxiv.org/pdf/2402.18815

2.類比生物系統(tǒng)研究LLM內(nèi)部組件的協(xié)同機制，提出模塊間動態(tài)交互形成復(fù)雜行為的理論框架。（回路發(fā)現(xiàn)中也有這篇文章）

Lindsey, Jack, et al. "On the biology of a large language model." Transformer Circuits Thread (2025).

https://transformercircuits.pub/2025/attribution-graphs/biology.htm

3.提出一種自動化生成高質(zhì)量神經(jīng)元描述的方法，通過微調(diào)模擬器和解釋器模型，實現(xiàn)對大規(guī)模語言模型內(nèi)部神經(jīng)元的低成本、高效描述。

Scaling Automatic Neuron Description. Transluce AI. https://transluce.org/neuron-descriptions

4.利用子模塊的線性特性獨立合并模型，提升多任務(wù)算術(shù)性能。

Dai, Rui, et al. "Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs." arXiv preprint arXiv:2504.10902 (2025).

https://arxiv.org/abs/2504.109025.

5.提出“偽遺忘”概念，通過凍結(jié)底層參數(shù)緩解持續(xù)學(xué)習(xí)中的任務(wù)對齊退化問題。

Zheng, Junhao, et al. "Spurious Forgetting in Continual Learning of Language Models." arXiv preprint arXiv:2501.13453 (2025).https://openreview.net/forum?id=ScI7IlKGdI

書籍推薦

楊強，范力欣，朱軍，陳一昕，張拳石，朱松純，陶大程，崔鵬，周少華，劉琦黃萱菁，張永鋒，可解釋人工智能導(dǎo)論，2022，電子工業(yè)出版社

Christoph Molnar,郭濤(譯)，可解釋機器學(xué)習(xí):黑盒模型可解釋性理解指南(第2版)，2024，電子工業(yè)出版社

關(guān)于集智俱樂部讀書會和舉辦方

集智俱樂部讀書會是面向廣大科研工作者的系列論文研讀活動，其目的是共同深入學(xué)習(xí)探討某個科學(xué)議題，了解前沿進展，激發(fā)科研靈感，促進科研合作，降低科研門檻。

讀書會活動始于 2008 年，至今已經(jīng)有 50 余個主題，內(nèi)容涵蓋復(fù)雜系統(tǒng)、人工智能、腦與意識、生命科學(xué)、因果科學(xué)、高階網(wǎng)絡(luò)等。凝聚了眾多優(yōu)秀科研工作者，促進了科研合作發(fā)表論文，孵化了許多科研產(chǎn)品。如：2013 年的“深度學(xué)習(xí)”讀書會孕育了彩云天氣 APP，2015 年的“集體注意力流”讀書會產(chǎn)生了眾包書籍《走近2050》，2020年的開始因果科學(xué)讀書會孕育了全國最大的因果科學(xué)社區(qū)等。

主辦方：集智俱樂部

協(xié)辦方：集智學(xué)園

集智俱樂部成立于 2003 年，是一個從事學(xué)術(shù)研究、享受科學(xué)樂趣的探索者的團體，也是國內(nèi)最早的研究人工智能、復(fù)雜系統(tǒng)的科學(xué)社區(qū)。它倡導(dǎo)以平等開放的態(tài)度、科學(xué)實證的精神，進行跨學(xué)科的研究與交流，力圖搭建一個中國的 “ 沒有圍墻的研究所 ”。集智科學(xué)研究中心（民間非營利企業(yè)）是集智俱樂部的運營主體，其使命為：營造跨學(xué)科探索小生境，催化復(fù)雜性科學(xué)新理論。

集智學(xué)園成立于2016年，是集智俱樂部孕育的創(chuàng)業(yè)團隊。集智學(xué)園致力于傳播復(fù)雜性科學(xué)、人工智能等前沿知識和新興技術(shù)，促進、推動復(fù)雜科學(xué)領(lǐng)域的知識探索與生態(tài)構(gòu)建。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.