99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型可解釋性在工業(yè)界的應(yīng)用實戰(zhàn)丨周五直播·大模型可解釋性讀書會

0
分享至


導(dǎo)語

集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會旨在突破大模型“黑箱”困境,嘗試從不同視角梳理大語言模型可解釋性的科學(xué)方法論。

大模型可解釋性方法在實際應(yīng)用中面臨哪些挑戰(zhàn)?這些挑戰(zhàn)如何解決?不同的可解釋性方法如何有效結(jié)合解決特定業(yè)務(wù)問題?本次分享將結(jié)合沈旭老師在工業(yè)界的實踐經(jīng)驗,通過數(shù)學(xué)、知識召回、指令遵循、上下文學(xué)習(xí)、多語言、量化等方面的研究,詳細(xì)闡述可解釋性方法如何結(jié)合模型微調(diào)、模型控制、模型量化等方法在分析模型內(nèi)部機理機制的同時,提升模型應(yīng)用效果。

分享簡介

大語言模型(LLMs)的快速發(fā)展展現(xiàn)出了前所未有的能力,但其不透明的內(nèi)部決策過程仍是一項關(guān)鍵挑戰(zhàn)。機制可解釋性已成為提升大語言模型安全性、可靠性和可控性的重要前沿領(lǐng)域。在本次講座中,首先帶大家梳理通過逆向工程理解大語言模型內(nèi)部結(jié)構(gòu),確立基礎(chǔ)性原理和可部署的應(yīng)用方案的領(lǐng)域前沿研究。然后重點分析大語言模型的算術(shù)計算、多語言處理和事實召回等關(guān)鍵能力機制,揭示了大語言模型如何將信息作為離散的 “電路”(Circuit)進行表示和處理。最后,會介紹基于上述的機制理解催生的一系列新穎應(yīng)用:

  • 精準(zhǔn)控制:在Token-、activation-、neuron- 和module-level 進行干預(yù),以調(diào)整大語言模型的行為;

  • 精準(zhǔn)微調(diào):在Head-和neuron-level進行微調(diào),以提升大語言模型的性能;

  • 精準(zhǔn)量化:基于可解釋性的量化策略,實現(xiàn)了 3.4-bit與 4 -bit 基準(zhǔn)水平相當(dāng)?shù)男Ч?/p>

分享大綱

可解釋性研究背景

可解釋性基礎(chǔ)回顧

  • Head/MLP/Neuron/Logits/Circuit

  • Path patching/Logit Lens/Information Flow

可解釋性典型應(yīng)用案例

  • 數(shù)學(xué)

  • 知識召回

  • 指令遵循

  • 上下文學(xué)習(xí)

  • 模型控制

  • 模型融合

可解釋性在多語言上的綜合實戰(zhàn)

  • 知識注入

  • 知識召回

  • 語言生成

Ongoing Works

  • 融合增強的多語言模型

  • 模型低比特量化

核心概念

Circuit

模型內(nèi)部特定能力或完成特定任務(wù)的相關(guān)模塊及其連接(head/neuron等)構(gòu)成的子圖。

Path Patching

通過對模型各模塊進行擾動并分析對模型特定行為的影響,定位模型內(nèi)部與特定任務(wù)相關(guān)的關(guān)鍵模塊(head/neuron等)。

Neuron Description

通過分析原子在激活響應(yīng)比較大的樣本集合上的共性,分析原子的功能。

模型微調(diào)

通過CPT、SFT、DPO、RL等方式,對基礎(chǔ)模型進行繼續(xù)微調(diào)訓(xùn)練,提升模型在特定任務(wù)上的能力,比如特定領(lǐng)域(法律、金融等)、數(shù)學(xué)、推理、多語言等。

模型控制

通過對模型內(nèi)部表征進行編輯,定向增強或者抑制模型特定行為。

模型融合

通過對多個特定專家模型(比如數(shù)學(xué)、代碼、翻譯等)進行參數(shù)加權(quán)融合,合成一個在各個任務(wù)上都接近專家模型能力的統(tǒng)一模型。

模型量化

通過將模型參數(shù)精度降低到特定低比特數(shù)(比如INT4,INT8等),提升模型推理效率,降低模型顯存消耗。

參考文獻

[1] Elhage, Nelson, et al. "A mathematical framework for transformer circuits." Transformer Circuits Thread 1.1 (2021): 12.

經(jīng)典的思考Transformer基礎(chǔ)思想的文章,文章詳細(xì)闡述了如何用數(shù)學(xué)框架去推理Transformer,比如其代數(shù)表達(dá),分解方式,以及一些需要了解的概念性內(nèi)容。

[2] Wang, Kevin, et al. "Interpretability in the wild: a circuit for indirect object identification in gpt-2 small." arXiv preprint arXiv:2211.00593 (2022).

提出path patching方法和circuit概念的經(jīng)典文章,通過path patching方法在 GPT2-small 中發(fā)現(xiàn)了相當(dāng)龐大且復(fù)雜的IOI回路。

[3] Dami Choi et al. "Scaling Automatic Neuron Description." https://transluce.org/neuron-descriptions.

原子可解釋性經(jīng)典工作,通過分析原子在激活響應(yīng)比較大的樣本集合上的共性,分析原子的功能。

[4] Wei Zhang, et al, Interpreting and Improving Large Language Models in Arithmetic Calculation. ICML (Oral), 2024.

本文基于可解釋性方法分析了大模型完成數(shù)值計算的關(guān)鍵Head以及處理過程,并通過對這些關(guān)鍵head進行精準(zhǔn)微調(diào),提升模型數(shù)學(xué)能力的基礎(chǔ)上,保持模型通用能力不下降。

[5] Yiqun Wang et.al. Tracing and Dissecting How LLMs Recall Factual Knowledge for Real World Questions. ACL, 2025.

本文基于可解釋性方法分析了大模型完成多步知識召回推理的關(guān)鍵步驟及關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),提升模型知識推理能力的基礎(chǔ)上,保持模型通用能力不下降。

[6] Wei Chen, et al. From yes-men to truth-tellers: addressing sycophancy in large language models with pinpoint tuning. ICML, 2024.

本文基于可解釋性方法分析了大模型與諂媚行為相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),降低模型諂媚行為的基礎(chǔ)上,保持模型其他能力不下降。

[7] Chenghao Sun, et al. Interpret and Improve In-Context Learning via the Lens of Input-Label Mappings. ACL, 2025.

本文基于可解釋性方法分析了大模型與上下文學(xué)習(xí)能力相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)微調(diào),提升模型上下文學(xué)習(xí)能力的基礎(chǔ)上,保持模型其他能力不下降。

[8] Yuxin Xiao, et al, Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control. NeurIPS, 2024.

本文基于可解釋性方法分析了大模型與安全性相關(guān)的關(guān)鍵模塊,并通過對這些關(guān)鍵模塊進行精準(zhǔn)控制,提升模型在多種安全任務(wù)上的性能,并且保持模型其他能力不下降。

[9] Rui Dai, et al, Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs. ICLR, 2025.

本文分析了大模型各模塊的線性性質(zhì),并通過對這些關(guān)鍵模塊參數(shù)進行精準(zhǔn)融合,提升多個不同任務(wù)專家模型在融合之后的性能。

[10] Wangyun Gu, et al. NeuronMerge: Merging Models via Functional Neuron Groups. ACL, 2025.

本文分析了大模型內(nèi)與各個任務(wù)相關(guān)的原子,并通過對模型參數(shù)進行原子級別的精準(zhǔn)融合,提升多個不同任務(wù)專家模型在融合之后的性能。

主講人簡介

沈旭,阿里云-飛天實驗室高級算法專家。博士畢業(yè)于中國科學(xué)技術(shù)大學(xué)。曾獲浙江省科技進步一等獎,在ICLR/ICML/NeurIPS/ACL/CVPR/ECCV/ICCV等國際頂會上發(fā)表論文40余篇,google scholar引用1900余次。

研究方向:大模型可解釋性、主權(quán)大模型。

參與時間

2025年7月11日(周五)晚上19:30-21:30


報名加入社群交流

https://pattern.swarma.org/study_group_issue/936?from=wechat

掃碼參與,加入社群,獲取系列讀書會永久回看權(quán)限,與社區(qū)的一線科研工作者溝通交流,共同探索大模型可解釋性這一前沿領(lǐng)域的發(fā)展。

大模型可解釋性讀書會

集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團隊負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會旨在突破大模型“黑箱”困境,嘗試從以下四個視角梳理大語言模型可解釋性的科學(xué)方法論:

自下而上:Transformer circuit 為什么有效?

自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?

復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?

系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實踐中創(chuàng)造價值?

五位發(fā)起人老師會帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠邀對此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實踐者,誠邀您共同參與這場揭開大模型“黑箱”的思想盛宴。

讀書會已于2025年6月19日啟動,每周四晚19:30-21:30,預(yù)計持續(xù)分享8-10周左右。

詳情請見:

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
北京軍區(qū)司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

北京軍區(qū)司令空缺,林彪趁機點將,毛主席反問:是你四野的人吧?

南書房
2025-07-11 15:50:03
共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

共贏!1換2交易方案!太陽如愿得到庫明加,理查茲馳援庫里沖冠

鬼魅突破上籃
2025-07-20 12:19:44
突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

突然崩了!很多人以為手機壞了!官方緊急回應(yīng)

浙江之聲
2025-07-21 11:06:07
宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

宗澤后對親侄女各種背刺,不過有句話他還真說中了!宗馥莉危險了

美美談情感
2025-07-18 23:41:01
楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

楊瀚森:不在乎別人看法,有時我看起來沮喪只因為我想睡覺

懂球帝
2025-07-21 10:53:50
歐盟向我國出手后,德財長:中國“垃圾產(chǎn)品”,誓言清零中國制造

歐盟向我國出手后,德財長:中國“垃圾產(chǎn)品”,誓言清零中國制造

游古史
2025-07-21 11:13:05
衛(wèi)生間男女標(biāo)識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛(wèi)生間男女標(biāo)識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

王偉忠還是沒忍住,看s媽一直走不出悲傷,終于松口為s家公開講話

小娛樂悠悠
2025-07-21 09:39:48
LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

LV近42萬香港客戶資料外泄,香港隱私公署展開調(diào)查

界面新聞
2025-07-21 08:16:52
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

湖南省養(yǎng)老金將迎調(diào)整,歷年定額調(diào)整金額分析,3176元能漲多少?

興史興談
2025-07-20 17:51:15
湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊記列新援優(yōu)缺點

湖人裁掉古德溫!連續(xù)放棄兩人為斯馬特騰空間 隊記列新援優(yōu)缺點

羅說NBA
2025-07-21 10:10:45
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發(fā)現(xiàn)是媽媽的愛車

今天說故事
2025-07-02 17:31:55
終于離隊了!布倫森:我感覺每一年步行者都在賣特納

終于離隊了!布倫森:我感覺每一年步行者都在賣特納

直播吧
2025-07-20 18:56:08
患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

患者心跳未停就被開胸取器官,55名醫(yī)生曝行業(yè)潛規(guī)則

中產(chǎn)生活指南針
2025-07-21 12:51:22
1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

1962年對印反擊前夕,各元帥仍在爭論打不打,毛主席一錘定音:打

天夢見證
2025-07-14 22:02:22
25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

25歲男子在登山時凍死,父母直言:不收尸,就讓她留在雪山吧

無名講堂
2025-07-18 18:44:40
明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

明日開播!三部新劇同天定檔,懸疑or復(fù)仇or商戰(zhàn),你打算追哪部?

影視快通車
2025-07-21 11:52:56
王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

王鷗又曝猛料!驚人程度不輸夜光劇本,爆料對象竟是相聲演員

策略剖析
2025-07-21 09:46:47
房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

房產(chǎn)證上的人去世了,家人一直住著,不辦過戶行不行?

巢客HOME
2025-07-17 10:00:03
2025-07-21 15:15:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5234文章數(shù) 4646關(guān)注度
往期回顧 全部

科技要聞

OpenAI自嗨“IMO金牌”遭官方怒斥

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

頭條要聞

中國男子在菲律賓被連開七槍射殺 兇手還涉另一綁架案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術(shù)

娛樂要聞

周渝民談大S離開,F(xiàn)4會努力再合體

財經(jīng)要聞

宗馥莉為何要對"小媽"杜建英虎視眈眈?

汽車要聞

勞斯萊斯前設(shè)計師全新力作 榮威M7正式亮相

態(tài)度原創(chuàng)

健康
時尚
本地
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

微胖女生夏天別碰這5件衣服!顯胖10斤,土到掉渣!

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美記者:若特朗普決定 澤連斯基或被流放

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 霍林郭勒市| 牟定县| 灵武市| 海原县| 呼图壁县| 咸丰县| 峨边| 东城区| 漠河县| 淮滨县| 兴安县| 万山特区| 馆陶县| 新绛县| 慈利县| 郴州市| 河间市| 旬阳县| 南部县| 吉水县| 普洱| 桂东县| 南涧| 孟州市| 鄂托克前旗| 高邑县| 永川市| 侯马市| 高密市| 彭阳县| 临城县| 建湖县| 株洲市| 六盘水市| 阿克苏市| 常山县| 儋州市| 廉江市| 常德市| 六安市| 仪征市|