99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型到底是怎么「思考」的?第一篇系統(tǒng)性綜述SAE的文章來了

0
分享至


來源:機器之心

作者介紹:本篇文章的作者團隊來自美國四所知名高校:西北大學(xué)、喬治亞大學(xué)、新澤西理工學(xué)院和喬治梅森大學(xué)。第一作者束東與共同第一作者吳烜圣、趙海燕分別是上述高校的博士生,長期致力于大語言模型的可解釋性研究,致力于揭示其內(nèi)部機制與 “思維” 過程。通訊作者為新澤西理工學(xué)院的杜夢楠教授。

在 ChatGPT 等大語言模型(LLMs)席卷全球的今天,越來越多的研究者意識到:我們需要的不只是 “會說話” 的 LLM,更是 “能解釋” 的 LLM。我們想知道,這些龐大的模型在接收輸入之后,到底是怎么 “思考” 的?

為此,一種叫做Sparse Autoencoder(簡稱 SAE)的新興技術(shù)正迅速崛起,成為當前最熱門的 mechanistic interpretability(機制可解釋性) 路線之一。最近,我們撰寫并發(fā)布了第一篇系統(tǒng)性的 SAE 綜述文章,對該領(lǐng)域的技術(shù)、演化和未來挑戰(zhàn)做了全面梳理,供關(guān)注大模型透明性、可控性和解釋性的研究者參考。


  • 論文題目:

    A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

  • 論文地址:

    https://arxiv.org/pdf/2503.05613


(圖 1):該圖展示了 SAE 的基本框架。

什么是 Sparse Autoencoder?

簡單來說,LLM 內(nèi)部的許多神經(jīng)元可能是“多義的”,意思是它們同時處理好幾個不相關(guān)的信息。在處理輸入時,LLM 會在內(nèi)部生成一段高維向量表示,這種表示往往難以直接理解。然后,如果我們將它輸入一個訓(xùn)練好的 Sparse Autoencoder,它會解構(gòu)出若干稀疏激活的“特征單元”(feature),而每一個feature,往往都能被解釋為一段可讀的自然語言概念

舉個例子:假設(shè)某個特征(feature 1)代表 “由鋼鐵建造的建筑”,另一個特征(feature 2)代表 “關(guān)于歷史的問題”。當 LLM 接收到輸入 “這座跨海大橋真壯觀” 時,SAE 會激活 feature 1,而不會激活 feature 2。這說明模型 “意識到” 橋是一種鋼結(jié)構(gòu)建筑,而并未將其理解為歷史類話題。

而所有被激活的特征就像拼圖碎片,可以拼接還原出原始的隱藏表示(representation),讓我們得以窺見模型內(nèi)部的 “思維軌跡”。這也正是我們理解大模型內(nèi)部機制的重要一步。


(圖 2):該圖展示了 SAE 的發(fā)展歷史。

為什么大家都在研究 SAE?

過去主流的可解釋方法多依賴于可視化、梯度分析、注意力權(quán)重等 “間接信號”,這些方法雖然直觀,但往往缺乏結(jié)構(gòu)性和可控性。而SAE 的獨特優(yōu)勢在于:它提供了一種結(jié)構(gòu)化、可操作、且具語義解釋力的全新視角。它能夠?qū)⒛P蛢?nèi)部的黑盒表示分解為一組稀疏、具備明確語義的激活特征(features)。

更重要的是,SAE 不只是可解釋性工具,更可以用于控制模型怎么想、發(fā)現(xiàn)模型的問題、提升模型的安全性等一系列實際應(yīng)用。當前,SAE 已被廣泛應(yīng)用于多個關(guān)鍵任務(wù):

  • 概念探測(Concept Discovery):自動從模型中挖掘具有語義意義的特征,如時間感知、情緒傾向、語法結(jié)構(gòu)等;

  • 模型操控(Steering):通過激活或抑制特定特征,定向引導(dǎo)模型輸出,實現(xiàn)更精細的行為控制;

  • 異常檢測與安全分析:識別模型中潛藏的高風險特征單元,幫助發(fā)現(xiàn)潛在的偏見、幻覺或安全隱患。

這種 “解釋 + 操控” 的結(jié)合,也正是 SAE 能在當前 LLM 可解釋性研究中脫穎而出的關(guān)鍵所在。目前包括OpenAI、Anthropic、Google DeepMind等機構(gòu)都在推進 SAE 相關(guān)研究與開源項目。


(圖 3):該圖演示了如何通過 SAE 操控模型輸出,實現(xiàn)對大語言模型行為的定向引導(dǎo)。

本文有哪些內(nèi)容?

作為該領(lǐng)域的首篇系統(tǒng)綜述,我們的工作涵蓋以下幾個核心部分:

1. Technical Framework of SAEs(SAE 的技術(shù)框架)

本部分系統(tǒng)介紹了 SAE 的基本結(jié)構(gòu)及其訓(xùn)練流程,它是一種特殊的神經(jīng)網(wǎng)絡(luò)。具體包括:

  1. 編碼器:把 LLM 的高維向量表示 “分解” 成一個更高維并且稀疏的特征向量。

  2. 解碼器:根據(jù)這個稀疏特征向量,嘗試 “重建” 回原始的 LLM 信息。

  3. 稀疏性損失函數(shù):確保重建得足夠準確,并且特征足夠稀疏。

同時我們總結(jié)了現(xiàn)有的常見架構(gòu)變體與改進策略。例如解決收縮偏差(shrinkage bias)的 Gated SAE,通過直接選擇 Top-K 個激活來強制稀疏性的 TopK SAE,等等。

2. Explainability Analysis of SAEs(SAE 可解釋性分析)

總結(jié)當前主流的解釋方法,旨在將 SAE 學(xué)習(xí)到的稀疏特征用自然語言進行描述,從而把模型的 “抽象思維” 轉(zhuǎn)化為人類可理解的見解 。這些方法主要分為兩大類:

  1. 輸入驅(qū)動:尋找那些能最大程度激活某個特征的文本片段。通過總結(jié)這些文本,我們就能大致推斷出這個特征代表什么意思(如 MaxAct、PruningMaxAct)。

  2. 輸出驅(qū)動:將特征與 LLM 生成的詞語聯(lián)系起來。例如,一個特征激活時,LLM 最可能輸出哪些詞,這些詞就能幫助我們理解這個特征的含義(如 VocabProj、Mutual Info)。

3. Evaluation Metrics and Methods(評估指標與方法)

評估 SAE 就像評估一個工具:既要看它內(nèi)部構(gòu)造是否合理(結(jié)構(gòu)評估),也要看它實際用起來有沒有效果(功能評估)。

  1. 構(gòu)性評估:檢查 SAE 是否按設(shè)計工作,比如重建的準確度如何,稀疏性是否達到要求(如重構(gòu)精度與稀疏度)。

  2. 功能評估:評估 SAE 能否幫助我們更好地理解 LLM,以及它學(xué)習(xí)到的特征是否穩(wěn)定和通用(如可解釋性、健壯性與泛化能力)。

4. Applications in Large Language Models(在大語言模型中的應(yīng)用)

SAE 不僅能幫助我們理解 LLM,還能實際操作它們。我們展示了 SAE 在模型操控、行為分析、拒答檢測、幻覺控制、情緒操控等方面的實際應(yīng)用案例與前沿成果。

5. 與 Probing 方法的對比分析

除了 SAE,還有一種叫做 “Probing(探針)” 的方法也被用于理解 LLM。本文比較了 SAE 與傳統(tǒng)的 Probing 技術(shù)在模型操縱和特征提取等方面的優(yōu)勢與不足。盡管 Probing 方法在某些方面表現(xiàn)出色,但 SAE 作為一種新興的機制可解釋性方法,具有其獨特的潛力。然而,研究也指出,在某些復(fù)雜場景(如數(shù)據(jù)稀缺、類別不平衡等)下,SAE 在提供一致優(yōu)勢方面仍有很長的路要走。

6. 當前研究挑戰(zhàn)與未來方向

盡管 SAE 前景廣闊,但仍面臨一些挑戰(zhàn),如:語義解釋仍不穩(wěn)定;特征字典可能不完整;重構(gòu)誤差不可忽視;訓(xùn)練計算成本較高。同時也展望了未來可能的突破點,包括跨模態(tài)擴展、自動解釋生成、架構(gòu)輕量化等。

結(jié)語:從 “看得懂” 到 “改得動”

在未來,解釋型 AI 系統(tǒng)不能只滿足于可視化 attention 或 saliency map,而是要具備結(jié)構(gòu)化理解和可操作性。SAE 提供了一個極具潛力的路徑 —— 不僅讓我們看到模型 “在想什么”,還讓我們有能力去 “改它在想什么”。

我們希望這篇綜述能為廣大研究者提供一個系統(tǒng)、全面、易于參考的知識框架。如果您對大模型可解釋性、AI 透明性或模型操控感興趣,這將是一篇值得收藏的文章。

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
東北大學(xué)遇難學(xué)生家屬發(fā)聲,其中一位學(xué)生姐姐透露弟弟去世后模樣

東北大學(xué)遇難學(xué)生家屬發(fā)聲,其中一位學(xué)生姐姐透露弟弟去世后模樣

振華觀史
2025-07-25 16:34:19
汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權(quán)

汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權(quán)

云間娛樂
2025-07-25 15:34:44
陜西這件事,每個字都寫滿了諷刺

陜西這件事,每個字都寫滿了諷刺

清書先生
2025-07-25 18:11:26
中南大學(xué)職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

中南大學(xué)職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

娜烏和西卡
2025-07-25 10:26:46
九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

籃球資訊達人
2025-07-25 19:24:20
DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術(shù)全都開源免費【附大模型行業(yè)市場分析】

DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術(shù)全都開源免費【附大模型行業(yè)市場分析】

前瞻網(wǎng)
2025-07-25 09:17:51
細節(jié)披露:6名大學(xué)生溺亡事故獲救老師照片公布,重傷截肢消息不實

細節(jié)披露:6名大學(xué)生溺亡事故獲救老師照片公布,重傷截肢消息不實

上觀新聞
2025-07-25 10:02:38
觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

派大星紀錄片
2025-07-25 10:26:14
中國銀行業(yè)協(xié)會原黨委委員、秘書長黃潤中被開除黨籍

中國銀行業(yè)協(xié)會原黨委委員、秘書長黃潤中被開除黨籍

澎湃新聞
2025-07-25 19:34:26
女子面試被打后續(xù):多處骨折,更多受害者發(fā)聲,打人只是冰山一角

女子面試被打后續(xù):多處骨折,更多受害者發(fā)聲,打人只是冰山一角

削桐作琴
2025-07-25 12:48:07
面試被打后續(xù):警方出手,更多受害者站出來,老板身份越扒越可怕

面試被打后續(xù):警方出手,更多受害者站出來,老板身份越扒越可怕

通鑒史智
2025-07-25 18:29:27
澤連斯基做出讓步,烏克蘭人值得擁有最好的

澤連斯基做出讓步,烏克蘭人值得擁有最好的

山河路口
2025-07-25 12:56:51
2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網(wǎng)欺負人

2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網(wǎng)欺負人

鬼魅突破上籃
2025-07-26 01:20:00
PPT戰(zhàn)神集體翻車,智駕測試憑什么特斯拉拿第一

PPT戰(zhàn)神集體翻車,智駕測試憑什么特斯拉拿第一

汽扯扒談
2025-07-25 11:52:18
懂車帝測試各方反應(yīng):有人曬,有人不想說話,有人沉默是今晚的康橋

懂車帝測試各方反應(yīng):有人曬,有人不想說話,有人沉默是今晚的康橋

三言科技
2025-07-25 19:01:41
偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

林輕吟
2025-07-25 19:47:47
請給北京日報帶個話,死了的學(xué)生情緒更穩(wěn)定

請給北京日報帶個話,死了的學(xué)生情緒更穩(wěn)定

李宇琛
2025-07-25 20:50:23
洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰(zhàn)

洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰(zhàn)

南宮一二
2025-07-25 16:50:07
女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

極目新聞
2025-07-25 16:46:56
獨女身份坐實,宗馥莉王炸證據(jù)公開!

獨女身份坐實,宗馥莉王炸證據(jù)公開!

品牌頭版
2025-07-25 17:55:51
2025-07-26 01:55:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4046文章數(shù) 37239關(guān)注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財經(jīng)要聞

劉煜輝:當下重要不是找確定性而是轉(zhuǎn)折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態(tài)度原創(chuàng)

教育
家居
游戲
健康
時尚

教育要聞

再獲國際物理奧賽金牌,南師附中學(xué)子勇登世界之巔!

家居要聞

環(huán)繞設(shè)計 空間動線合理

《無主之地4》已開發(fā)完畢進廠壓盤

呼吸科專家破解呼吸道九大謠言!

今年夏天一定要有這件衣服,好看又復(fù)古!

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 宁乡县| 乳山市| 梁河县| 万年县| 建平县| 山东| 南丹县| 襄城县| 延安市| 九江市| 大石桥市| 上虞市| 昭苏县| 济南市| 临汾市| 昆山市| 麻阳| 若羌县| 南投市| 蛟河市| 冀州市| 济南市| 滁州市| 陇西县| 田阳县| 东辽县| 庄浪县| 灵丘县| 且末县| 上犹县| 乐平市| 舟山市| 扎赉特旗| 福鼎市| 临邑县| 舞钢市| 西宁市| 新野县| 蒙山县| 岑溪市| 抚松县|