99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型知識(shí)回路的形成與SAE在可解釋中的潛力丨周四直播·大模型可解釋性讀書(shū)會(huì)

0
分享至


導(dǎo)語(yǔ)

集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論。

大模型的知識(shí)回路是如何形成的?如何利用稀疏自編碼器(SAE)這個(gè)新興的解釋性工具來(lái)“理解” LLM 的行為?如何利用它來(lái)實(shí)現(xiàn)可控的文本分類和文本生成?本次分享將圍繞這幾個(gè)核心問(wèn)題展開(kāi)。兩位主講人將詳細(xì)介紹稀疏自編碼器的工作原理、訓(xùn)練方法、并和大家一起討論它的應(yīng)用前景和未來(lái)挑戰(zhàn)。

分享簡(jiǎn)介

本次分享首先介紹語(yǔ)言模型內(nèi)部知識(shí)回路的形成過(guò)程并展現(xiàn)理解LLM的難點(diǎn):多義性。為了解決每一維編碼了多個(gè)互相正交的知識(shí),我們進(jìn)一步介紹稀疏自編碼器(Sparse Auto Encoder)這個(gè)打破多義性邁向單義性的新興的解釋性工具。我們會(huì)進(jìn)一步討論稀疏自編碼器的三個(gè)應(yīng)用前景,包括如何利用它來(lái)“理解” LLM 的行為(以 Anthropic Haiku 為例),以及如何利用它來(lái)實(shí)現(xiàn)可控的文本分類和文本生成。作為一個(gè)新興的技術(shù),分享會(huì)將以討論該方向的前景與挑戰(zhàn)結(jié)束。

分享大綱

  • 大語(yǔ)言模型的知識(shí)回路的形成過(guò)程

    • 語(yǔ)言模型知識(shí)召回的回路

    • 回路視角下語(yǔ)言模型是如何學(xué)習(xí)新知識(shí)

  • 稀疏自編碼器簡(jiǎn)述

    • Polysemantic下可解釋的挑戰(zhàn)

    • 稀疏自編碼器的原理

    • 稀疏自編碼器的架構(gòu)與訓(xùn)練

  • 稀疏自編碼器的應(yīng)用

    • SAE用于模型分析:大型語(yǔ)言模型的生物學(xué)原理

    • SAE用于文本分類:去除“捷徑”特征,提升分類泛化性

    • SAE用于文本生成:增強(qiáng)模型安全意識(shí),抵御越獄攻擊

    • 如何更好地利用SAE來(lái)理解更復(fù)雜的模型行為(如數(shù)學(xué)推理)?

    • SAE是否能更好地實(shí)現(xiàn)可控文本生成?

核心概念

  • 稀疏自編碼器 Sparse Auto Encoder(SAE)

  • 知識(shí)回路 Knowledge Circuits

  • 多義性 Polysemanticity

參考文獻(xiàn)

  1. Yunzhi, Yao, et al. Knowledge Circuits in Pretrained Transformers. NeurIPS 2024

  2. Yixin, Ou, et al. How do llms acquire new knowledge? a knowledge circuits perspective on continual pre-training. ACL 2025

  3. Huben, Robert, et al. "Sparse autoencoders find highly interpretable features in language models." The Twelfth International Conference on Learning Representations. 2023.

  4. Gao, Leo, et al. "Scaling and evaluating sparse autoencoders." The Thirteenth International Conference on Learning Representations.

  5. Anthropic. "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning." Transformer Circuits Thread. 2023. https://transformer-circuits.pub/2023/monosemantic-features

  6. Anthropic. "On the Biology of a Large Language Model." Transformer Circuits Thread. 2025. https://transformer-circuits.pub/2025/attribution-graphs/biology.html

  7. Shu, Dong, et al. "A survey on sparse autoencoders: Interpreting the internal mechanisms of large language models." arXiv. 2025.

  8. Wu, Xuansheng, et al. "Self-regularization with latent space explanations for controllable llm-based classification." KDD. 2025.

  9. Wu, Xuansheng, et al. "Interpreting and steering llms with mutual information-based explanations on sparse autoencoders." arXiv. 2025.

主講人簡(jiǎn)介

姚云志,浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士生,導(dǎo)師為陳華鈞教授與張寧豫教授,目前是UCLA的Nanyun Peng組訪問(wèn)研究學(xué)者。研究方向?yàn)榇笳Z(yǔ)言模型知識(shí)增強(qiáng),知識(shí)編輯與可解釋性。

吳烜圣,佐治亞大學(xué)計(jì)算機(jī)系四年級(jí)博士生,研究方向?yàn)榭捎玫拇笳Z(yǔ)言模型解釋性(Usable XAI),關(guān)注于如何更好地理解知識(shí)在模型隱空間的表示以實(shí)現(xiàn)更好的模型控制。他已發(fā)表同行評(píng)審論文14篇,累計(jì)引用量700+,曾于騰訊 AI Lab、百度 NLP、亞馬遜Rufus等業(yè)內(nèi)頂尖團(tuán)隊(duì)實(shí)習(xí)。

參與時(shí)間

2025年7月17日(周四)晚上19:30-21:30


報(bào)名加入社群交流

https://pattern.swarma.org/study_group_issue/945?from=wechat

掃碼參與,加入社群,獲取系列讀書(shū)會(huì)永久回看權(quán)限,與社區(qū)的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領(lǐng)域的發(fā)展。

大模型可解釋性讀書(shū)會(huì)

集智俱樂(lè)部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書(shū)會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語(yǔ)言模型可解釋性的科學(xué)方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?

復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?

系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?

五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠(chéng)邀對(duì)此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過(guò)互相的交流與碰撞,促進(jìn)我們更深入的理解以上問(wèn)題。無(wú)論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠(chéng)邀您共同參與這場(chǎng)揭開(kāi)大模型“黑箱”的思想盛宴。

讀書(shū)會(huì)已于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享8-10周左右。

詳情請(qǐng)見(jiàn):

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問(wèn):是你四野的人吧?

北京軍區(qū)司令空缺,林彪趁機(jī)點(diǎn)將,毛主席反問(wèn):是你四野的人吧?

南書(shū)房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽(yáng)如愿得到庫(kù)明加,理查茲馳援庫(kù)里沖冠

共贏!1換2交易方案!太陽(yáng)如愿得到庫(kù)明加,理查茲馳援庫(kù)里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機(jī)壞了!官方緊急回應(yīng)

浙江之聲
2025-07-21 11:06:07
宗澤后對(duì)親侄女各種背刺,不過(guò)有句話他還真說(shuō)中了!宗馥莉危險(xiǎn)了

宗澤后對(duì)親侄女各種背刺,不過(guò)有句話他還真說(shuō)中了!宗馥莉危險(xiǎn)了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時(shí)我看起來(lái)沮喪只因?yàn)槲蚁胨X(jué)

楊瀚森:不在乎別人看法,有時(shí)我看起來(lái)沮喪只因?yàn)槲蚁胨X(jué)

懂球帝
2025-07-21 10:53:50
歐盟向我國(guó)出手后,德財(cái)長(zhǎng):中國(guó)“垃圾產(chǎn)品”,誓言清零中國(guó)制造

歐盟向我國(guó)出手后,德財(cái)長(zhǎng):中國(guó)“垃圾產(chǎn)品”,誓言清零中國(guó)制造

游古史
2025-07-21 11:13:05
衛(wèi)生間男女標(biāo)識(shí)亂象叢生,抽象粗俗、不良暗示,人民日?qǐng)?bào)下場(chǎng)怒批

衛(wèi)生間男女標(biāo)識(shí)亂象叢生,抽象粗俗、不良暗示,人民日?qǐng)?bào)下場(chǎng)怒批

大魚(yú)簡(jiǎn)科
2025-07-20 11:37:40
王偉忠還是沒(méi)忍住,看s媽一直走不出悲傷,終于松口為s家公開(kāi)講話

王偉忠還是沒(méi)忍住,看s媽一直走不出悲傷,終于松口為s家公開(kāi)講話

小娛樂(lè)悠悠
2025-07-21 09:39:48
LV近42萬(wàn)香港客戶資料外泄,香港隱私公署展開(kāi)調(diào)查

LV近42萬(wàn)香港客戶資料外泄,香港隱私公署展開(kāi)調(diào)查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開(kāi)娛樂(lè)圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開(kāi)娛樂(lè)圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊(duì)記列新援優(yōu)缺點(diǎn)

羅說(shuō)NBA
2025-07-21 10:10:45
45歲母親霧天開(kāi)車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛(ài)車

45歲母親霧天開(kāi)車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛(ài)車

今天說(shuō)故事
2025-07-02 17:31:55
終于離隊(duì)了!布倫森:我感覺(jué)每一年步行者都在賣特納

終于離隊(duì)了!布倫森:我感覺(jué)每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開(kāi)胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

患者心跳未停就被開(kāi)胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

中產(chǎn)生活指南針
2025-07-21 12:51:22
1962年對(duì)印反擊前夕,各元帥仍在爭(zhēng)論打不打,毛主席一錘定音:打

1962年對(duì)印反擊前夕,各元帥仍在爭(zhēng)論打不打,毛主席一錘定音:打

天夢(mèng)見(jiàn)證
2025-07-14 22:02:22
25歲男子在登山時(shí)凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時(shí)凍死,父母直言:不收尸,就讓她留在雪山吧

無(wú)名講堂
2025-07-18 18:44:40
明日開(kāi)播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

明日開(kāi)播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對(duì)象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對(duì)象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產(chǎn)證上的人去世了,家人一直住著,不辦過(guò)戶行不行?

房產(chǎn)證上的人去世了,家人一直住著,不辦過(guò)戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂(lè)部 incentive-icons
集智俱樂(lè)部
科普人工智能相關(guān)知識(shí)技能
5234文章數(shù) 4646關(guān)注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國(guó)男子在菲律賓被連開(kāi)七槍射殺 兇手還涉另一綁架案

頭條要聞

中國(guó)男子在菲律賓被連開(kāi)七槍射殺 兇手還涉另一綁架案

體育要聞

中國(guó)女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂(lè)要聞

周渝民談大S離開(kāi),F(xiàn)4會(huì)努力再合體

財(cái)經(jīng)要聞

宗馥莉?yàn)楹我獙?duì)"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設(shè)計(jì)師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

數(shù)碼
家居
健康
教育
公開(kāi)課

數(shù)碼要聞

華為MatePad Pro 12.2英寸新平板定檔 標(biāo)準(zhǔn)/柔光雙版本

家居要聞

別樣老上海 重塑復(fù)古優(yōu)雅

呼吸科專家破解呼吸道九大謠言!

教育要聞

南陽(yáng)市中心城區(qū)2025年普通高中提前批分?jǐn)?shù)線公布!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 民勤县| 宁安市| 张家界市| 白河县| 江永县| 海安县| 惠安县| 无棣县| 四会市| 高要市| 鹰潭市| 宁波市| 肇州县| 平潭县| 霍邱县| 黑龙江省| 慈溪市| 岫岩| 麻阳| 铜川市| 叙永县| 遂溪县| 嘉善县| 新绛县| 黎城县| 皋兰县| 通州市| 吐鲁番市| 定边县| 武乡县| 望城县| 盖州市| 大兴区| 平乐县| 莱西市| 佛学| 曲靖市| 岱山县| 紫金县| 区。| 龙游县|