99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型知識回路的形成與SAE在可解釋中的潛力丨周六直播·大模型可解釋性讀書會

0
分享至


導語

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語言模型可解釋性的科學方法論。

大模型的知識回路是如何形成的?如何利用稀疏自編碼器(SAE)這個新興的解釋性工具來“理解” LLM 的行為?如何利用它來實現可控的文本分類和文本生成?本次分享將圍繞這幾個核心問題展開。兩位主講人將詳細介紹稀疏自編碼器的工作原理、訓練方法、并和大家一起討論它的應用前景和未來挑戰。


分享簡介

本次分享首先介紹語言模型內部知識回路的形成過程并展現理解LLM的難點:多義性。為了解決每一維編碼了多個互相正交的知識,我們進一步介紹稀疏自編碼器(Sparse Auto Encoder)這個打破多義性邁向單義性的新興的解釋性工具。我們會進一步討論稀疏自編碼器的三個應用前景,包括如何利用它來“理解” LLM 的行為(以 Anthropic Haiku 為例),以及如何利用它來實現可控的文本分類和文本生成。作為一個新興的技術,分享會將以討論該方向的前景與挑戰結束。

分享大綱

  • 大語言模型的知識回路的形成過程

    • 語言模型知識召回的回路

    • 回路視角下語言模型是如何學習新知識

  • 稀疏自編碼器簡述

    • Polysemantic下可解釋的挑戰

    • 稀疏自編碼器的原理

    • 稀疏自編碼器的架構與訓練

  • 稀疏自編碼器的應用

    • SAE用于模型分析:大型語言模型的生物學原理

    • SAE用于文本分類:去除“捷徑”特征,提升分類泛化性

    • SAE用于文本生成:增強模型安全意識,抵御越獄攻擊

    • 如何更好地利用SAE來理解更復雜的模型行為(如數學推理)?

    • SAE是否能更好地實現可控文本生成?

核心概念

  • 稀疏自編碼器 Sparse Auto Encoder(SAE)

  • 知識回路 Knowledge Circuits

  • 多義性 Polysemanticity

參考文獻

  1. Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

  2. Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

  3. Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

  4. Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

  5. Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

  6. Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

  7. Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

  8. Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

  9. Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主講人簡介

姚云志,浙江大學計算機科學與技術學院博士生,導師為陳華鈞教授與張寧豫教授,目前是UCLA的Nanyun Peng組訪問研究學者。研究方向為大語言模型知識增強,知識編輯與可解釋性。

吳烜圣,佐治亞大學計算機系四年級博士生,研究方向為可用的大語言模型解釋性(Usable XAI),關注于如何更好地理解知識在模型隱空間的表示以實現更好的模型控制。他已發表同行評審論文14篇,累計引用量700+,曾于騰訊 AI Lab、百度 NLP、亞馬遜Rufus等業內頂尖團隊實習。

參與時間

2025年7月19日(周六)上午10:00-12:00

報名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

掃碼參與,加入社群,獲取系列讀書會永久回看權限,與社區的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領域的發展。

大模型可解釋性讀書會

集智俱樂部聯合上海交通大學副教授張拳石、阿里云大模型可解釋性團隊負責人沈旭、彩云科技首席科學家肖達、北京師范大學碩士生楊明哲和浙江大學博士生姚云志共同發起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經網絡的精細決策邏輯和性能根因是否可以被嚴謹、清晰地解釋清楚?

復雜科學:滲流相變、涌現、自組織等復雜科學理論如何理解大模型的推理與學習能力?

系統工程:如何擁抱不確定性,在具體的業界實踐中創造價值?

五位發起人老師會帶領大家研讀領域前沿論文,現誠邀對此話題感興趣的朋友,一起共創、共建、共享「大模型可解釋性」主題社區,通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復雜系統與智能本質的交叉學科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會已于2025年6月19日啟動,每周四晚19:30-21:30,預計持續分享8-10周左右。

詳情請見:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

北京軍區司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機壞了!官方緊急回應

突然崩了!很多人以為手機壞了!官方緊急回應

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

歐盟向我國出手后,德財長:中國“垃圾產品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調查

LV近42萬香港客戶資料外泄,香港隱私公署展開調查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

湖南省養老金將迎調整,歷年定額調整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

湖人裁掉古德溫!連續放棄兩人為斯馬特騰空間 隊記列新援優缺點

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊了!布倫森:我感覺每一年步行者都在賣特納

終于離隊了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

患者心跳未停就被開胸取器官,55名醫生曝行業潛規則

中產生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復仇or商戰,你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產證上的人去世了,家人一直住著,不辦過戶行不行?

房產證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關知識技能
5234文章數 4646關注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

周渝民談大S離開,F4會努力再合體

財經要聞

宗馥莉為何要對"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

家居
藝術
數碼
健康
公開課

家居要聞

別樣老上海 重塑復古優雅

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

華為MatePad Pro 12.2英寸新平板定檔 標準/柔光雙版本

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 石嘴山市| 启东市| 全州县| 剑阁县| 含山县| 安仁县| 芷江| 镇安县| 新丰县| 长丰县| 句容市| 广东省| 盘山县| 顺义区| 民县| 昂仁县| 图木舒克市| 墨脱县| 嘉义县| 嫩江县| 商丘市| 郁南县| 扎囊县| 房产| 平阳县| 扬州市| 周宁县| 仁化县| 利津县| 和顺县| 肥东县| 黑河市| 大安市| 拜泉县| 柳林县| 稷山县| 积石山| 新竹市| 乌苏市| 承德市| 佛坪县|