99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型怎樣工作?Transformer回路基礎丨周四直播·大模型可解釋性讀書會

0
分享至


導語

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語言模型可解釋性的科學方法論。

本期是「大模型可解釋性」讀書會的第一次分享,也是自下而上視角理解大模型機制可解釋性的概覽和入門引導,絕對不能錯過!

分享簡介

Transformer已成為大模型的事實標準架構。它的能力邊界在哪里?為什么會出錯/幻覺?能否/怎樣改進?了解Transformer的內部工作機理對這些問題都有基礎性意義。本次分享將介紹由注意力頭和前饋網絡組成的Transformer circuits(回路)的基本概念,通過探尋induction head、indirect object identification (IOI)、事實知識回憶等經典例子的回路理解Transformer完成這些的任務的機制,并介紹回路發現的常用方法的原理。可作為回路研究這個大模型機制可解釋性子領域的概覽和入門引導。

分享大綱

機制可解釋性的兩種研究方法

  • 靜態分析(權重)

  • 動態分析(回路)

Transformre和回路基礎

  • 殘差流和線性結構

  • 注意力頭和前饋網絡的作用

  • 注意力頭的組合

  • Hello World回路:induction head

典型回路舉例

  • indirect object identification (IOI)

  • 事實知識回憶

  • 上下文學習

回路發現

  • 基于patch的方法(activation patching、path patching)

  • 自動化方法(ACDC)

  • 基于梯度的方法(EAP、EAP-IG)

核心概念

Transformer circuit

這個大家都聽說過,但是可能又不是特別理解,期待肖達老師的講解:它的數學框架是什么,為什么有效?

induction head(感應頭)

感應頭是 Transformer 最基本的情境學習形式。它指的是 Transformer 如何在第二次識別已經見到過的模式,例如觀察到"AB"子序列時學習到模式("B"跟隨"A"),這可能意味著當模型第二次看到"Barack"時,即使它沒有使用包含此名稱的數據進行訓練,也能預測"Obama"跟隨"Barack"

activation patching(激活補丁)

激活補丁(又名因果中介分析、互換干預、因果追蹤、重采樣消融 ...)是一種核心機械可解釋性技術。關鍵思想是,對于給定的模型行為,只有一組稀疏的組件(頭部和神經元)可能是相關的。希望通過因果干預來定位這些組成部分。但是,只要有任何提示,就會涉及到許多模型行為。

Indirect object identification (IOI)

IOI 電路是在 GPT2-small 中發現的,相當龐大且復雜。是指模型內部是否“理解”了誰是接收者。例如,給定句子"John and Mary went to the shops, John gave a bag to Mary",IOI 任務會預測單詞"Mary"緊跟在單詞"to"之后。

Edge attribution patching(EAP)

EAP with integrated gradients (EAP-IG)

EAP和EAP-IG通過集成梯度來更好地維護電路的忠實度,從而找到更加忠實的電路。旨在解決語言模型可解釋性研究中的一個問題找到能夠最小化計算子圖的電路,以解釋模型在特定任務上的行為?

Automated circuit discovery(自動回路發現,ACDC)

參考文獻

經典的思考Transformer基礎思想的文章,文章可以分成兩個部分,一個部分是如何用數學框架去推理Transformer,比如其代數表達,分解方式,以及一些需要了解的概念性內容;另一部分是在真實語言數據上訓練tiny版的transformer,并去解釋,驗證上部分的內容。本期講座主講人會重點講解,并期待和大家充分討論的一篇Anthropic發布的研究文獻。

Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

這篇博客建立了一個Transformer的隱喻:一群人排成一隊,每人(殘差流中的向量)手里拿著一個單詞 ([2]) 。每個人都知道自己的單詞和在隊伍中的位置,但他們看不到隊伍中的其他人。每個人的目標是猜出前面的人拿著的單詞。人們可以向隊伍中站在他們后面的每個人大聲提問(前面的人聽不到)(注意力頭)。聽到問題后,每個人都可以選擇是否回答,以及將哪些信息傳達給提問者(MLP)。此后,人們不會記住他們被問到的問題(因此信息不能在隊伍中后退,只能前進)。當隊伍中的個人從這些交流中收集信息時,他們可以使用這些信息來組織后續問題并提供答案。


Callum McDougall. An Analogy for Understanding Transformers — EA Forum

IOI 電路是在 GPT2-small 中發現的,相當龐大且復雜。在大模型(如GPT)的機制分析中,“indirect object identification” 可能指模型內部是否“理解”了誰是接收者。

Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

這是一篇關于大語言模型的提取過程的文獻,提出一種三階段提取方法。

  • 階段1:發生在Transformer底層,實體的最關鍵的詞匯會不斷集成信息,觸發更多相關屬性詞匯。

  • 階段2:發生在Transformer底層,上下文的重要信息通過Attention集成到提示詞最后一個位置。

  • 階段3:發生在Transformer高層,最后一個位置在高層通過Attention Heads把編碼的知識提取出來(Attention Head里會編碼 <實體-屬性> 信息)。

Geva, Mor, et al. "Dissecting recall of factual associations in auto-regressive language models." arXiv preprint arXiv:2304.14767 (2023).

本文提出了自動回路發現的算法ACDC,遞歸地構建一個子圖,該子圖通過將模型激活修補到與特定任務相關的數據點上來識別。作者證明,ACDC 能夠基本忠實地恢復先前研究人員在各種任務(尤其是 Python 文檔字符串、IOI 和Induction head)中手動識別的電路。

Conmy, Arthur, et al. "Towards automated circuit discovery for mechanistic interpretability." Advances in Neural Information Processing Systems 36 (2023): 16318-16352.

這篇文獻提出了一種新的方法——EAP-IG,它通過集成梯度來更好地維護電路的忠實度,從而找到更加忠實的電路。旨在解決語言模型可解釋性研究中的一個問題:如何找到能夠最小化計算子圖的電路,以解釋模型在特定任務上的行為?

Hanna, Michael, Sandro Pezzelle, and Yonatan Belinkov. "Have faith in faithfulness: Going beyond circuit overlap when finding model mechanisms." arXiv preprint arXiv:2403.17806 (2024).

主講人簡介

肖達,人工智能公司彩云科技聯合創始人、首席科學家、北京郵電大學網絡空間安全學院副教授。

研究方向:主要負責深度神經網絡模型和算法的研發用于彩云天氣、彩云小譯、彩云小夢等產品。

參與時間

2025年6月19日(周四)晚上19:30-21:30


報名加入社群交流

https://pattern.swarma.org/study_group_issue/919?from=wechat

掃碼參與,加入社群,獲取系列讀書會永久回看權限,與社區的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領域的發展。

大模型可解釋性讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?

復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?

系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?

五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會計劃于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享10周左右。

詳情請見:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機壞了!官方緊急回應

突然崩了!很多人以為手機壞了!官方緊急回應

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調查

LV近42萬香港客戶資料外泄,香港隱私公署展開調查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊了!布倫森:我感覺每一年步行者都在賣特納

終于離隊了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

中產生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產證上的人去世了,家人一直住著,不辦過戶行不行?

房產證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5234文章數 4646關注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

周渝民談大S離開,F4會努力再合體

財經要聞

宗馥莉為何要對"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

手機
游戲
教育
旅游
軍事航空

手機要聞

余承東自曝:華為Pura 80標準版7月23日開啟預售

外媒點名10款被微交易毀掉的神作:第1曾是現象級作品

教育要聞

南陽市中心城區2025年普通高中提前批分數線公布!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 库尔勒市| 丰台区| 德安县| 同心县| 兴城市| 日喀则市| 抚州市| 永城市| 东乌珠穆沁旗| 浑源县| 格尔木市| 巴林左旗| 嘉鱼县| 泸定县| 宾川县| 尼玛县| 固阳县| 仙游县| 台山市| 连南| 百色市| 青阳县| 阳城县| 伊春市| 新乡市| 方城县| 会泽县| 阿拉善盟| 锦州市| 江津市| 泸定县| 墨江| 霍州市| 巧家县| 普格县| 新龙县| 海盐县| 丹凤县| 长白| 迁西县| 枝江市|