99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek-R1「內(nèi)心世界」首次曝光!AI顯微鏡破解R1大腦,發(fā)現(xiàn)神秘推理機制

0
分享至


新智元報道

編輯:犀牛 定慧

【新智元導(dǎo)讀】推理模型與普通大語言模型有何本質(zhì)不同?它們?yōu)楹螘负詠y語」甚至「故意撒謊」?Goodfire最新發(fā)布的開源稀疏自編碼器(SAEs),基于DeepSeek-R1模型,為我們提供了一把「AI顯微鏡」,窺探推理模型的內(nèi)心世界。

推理模型的內(nèi)心世界是怎么想的?推理模型與普通LLM之間有沒有本質(zhì)的區(qū)別?

一直以來,AI內(nèi)部的運作機理就像個「黑箱子」。

我們知道模型輸入的是什么,也能看到它們輸出的結(jié)果,但中間的過程,就連開發(fā)AI的人自己也不知道。

像謎一樣。


這種不透明帶來了很多問題。比如,我們不知道模型為什么會「胡說八道」,也就是出現(xiàn)所謂的「幻覺」。

更可怕的是,有些情況下模型會撒謊,甚至是故意騙人!

這給AI的安全應(yīng)用帶來了很大的阻礙。

一直有團(tuán)隊試圖破解這個「黑箱子」。比如不久前,

就在剛剛,AI安全公司Goodfire發(fā)布了首個基于DeepSeek-R1訓(xùn)練的開源稀疏自編碼器(SAE),為我們提供了理解和引導(dǎo)模型思考的新工具。


什么是SAE

稀疏自編碼器(SAE)是一種特殊的神經(jīng)網(wǎng)絡(luò),類似于「壓縮包」,能將復(fù)雜的數(shù)據(jù)壓縮成更簡單的形式,然后再恢復(fù)原來的數(shù)據(jù)。

不同之處在于,SAE會確保中間處理層(隱藏層)中只有少數(shù)神經(jīng)元被激活,大部分神經(jīng)元保持「沉默」(接近零的激活)。

這種「稀疏性」就像團(tuán)隊合作:假設(shè)你有一個團(tuán)隊,每次任務(wù)只需要少數(shù)幾個人完成,SAE通過讓大部分神經(jīng)元「休息」,只讓少數(shù)神經(jīng)元「工作」,來學(xué)習(xí)數(shù)據(jù)的關(guān)鍵特征。

這不僅使模型更高效,還能讓結(jié)果更容易理解,比如減少數(shù)據(jù)維度,同時保留重要信息。

簡單地說,SAE就像一個「挑剔的專家」,它只保留數(shù)據(jù)中最有價值的部分,特別適用于需要高可解釋性的場景。

像DeepSeek-R1、o3和Claude 3.7這樣的推理模型能夠通過增加「思考」計算量,為復(fù)雜問題提供更可靠、更連貫的響應(yīng)。

但理解它們的內(nèi)部機制仍然是個挑戰(zhàn)。

不過,Goodfire這個基于DeepSeek-R1訓(xùn)練的SAE,則可以像顯微鏡一樣,深入模型內(nèi)部,揭示R1如何處理和響應(yīng)信息。


研究者從SAE中發(fā)現(xiàn)了一些有趣的早期洞察,通俗點說就是:

  • 想要有效「引導(dǎo)」模型,得等到它生成完「好的,用戶問了個關(guān)于……」這樣的語句,而不是直接用類似 這樣的明確標(biāo)簽。這說明模型內(nèi)部的推理token方式挺出人意料的。

  • 如果「引導(dǎo)」過頭,模型反而可能退回到原本的行為,感覺它內(nèi)部好像有種更深的「自我意識」。

這些發(fā)現(xiàn)表明,推理模型和普通的大語言模型在根本上有很大不同。


Goodfire對加快可解釋性和對齊研究方面的進(jìn)展感到了興奮,目前它們已將這些SAE開源,希望確保人工智能系統(tǒng)既安全又強大。


開源地址:https://github.com/goodfire-ai/r1-interpretability

推理模型的內(nèi)部結(jié)構(gòu)

本次研究團(tuán)隊分享了兩個最先進(jìn)的開源稀疏自動編碼器 (SAE)。

研究人員的早期實驗表明,R1與非推理語言模型在本質(zhì)上有所不同,并且需要一些新的見解來理解它。

由于R1是一個非常大的模型,因此對于大多數(shù)獨立研究者來說本地運行很困難,團(tuán)隊上傳了包含每個特征的最大激活示例的SQL數(shù)據(jù)庫。

本次分享的SAE已經(jīng)學(xué)習(xí)了許多能夠重建推理模型核心行為的特性,例如回溯。

首先展示的是通用推理SAE中的5個精選特性(比如研究團(tuán)隊命名為Feature 15204),分別看一下:

回溯:當(dāng)模型識別出其推理中的錯誤并明確糾正自身時的特性。下圖中的「wait...not」表明模型意識到錯誤,然后回溯并糾正。


自引用:模型在響應(yīng)中引用其先前的陳述或分析時所具備的功能。下圖中的「earlier...previously」等。


句子關(guān)于子集和子序列之后的時期:在模型引用了子集或子序列后觸發(fā)的功能。


需要跟蹤的實體:用于標(biāo)識模型需要跟蹤的實體的功能。比如下圖中「beacon 4、section 3」等表明模型正在跟蹤實體。


在多步驟計算的結(jié)果之前:在多步驟計算結(jié)果之前觸發(fā)的功能。比如下圖中各個公式計算前觸發(fā)的「空格」。


推理機制可解釋性

如果想要「解釋」推理模型的內(nèi)部機制,目前有辦法嗎?

研究團(tuán)隊構(gòu)建了一個工具:通過逆向工程神經(jīng)網(wǎng)絡(luò)的內(nèi)部組件來科學(xué)地理解它們?nèi)绾翁幚硇畔ⅰ?/p>

關(guān)于這一領(lǐng)域的最新研究,比如有Anthropic在Claude中的電路追蹤研究,揭示了從心算到幻覺等模型行為背后的計算路徑和特征。


Claude做心算時思維過程中復(fù)雜而平行的路徑

發(fā)展這種更深層次的理解,對于科學(xué)進(jìn)步以及確保這些日益強大的系統(tǒng)可靠且符合人類意圖至關(guān)重要。

作為這一使命的一部分,為生成式AI能力的前沿構(gòu)建可解釋性工具是至關(guān)重要的。

雖然SAE并不能解決推理機制可解釋性的全部問題,但它們?nèi)匀皇钱?dāng)今研究模型推理機制工具箱中的核心「武器」。

無監(jiān)督可解釋性技術(shù)的進(jìn)一步發(fā)展最終可能允許更可靠的對齊、按需增強或抑制特定推理能力,甚至在不破壞整體模型性能的情況下糾正特定故障模式。

如果能實現(xiàn)這一愿景,也許對于人類現(xiàn)在還是「黑箱」的大模型會有真正被理解的一天。

為DeepSeek-R1開發(fā)的SAE

團(tuán)隊為DeepSeek-R1發(fā)布了兩個SAE:

第一個是在自定義推理數(shù)據(jù)集上使用R1的激活進(jìn)行訓(xùn)練的(開源了這個數(shù)據(jù)集);

第二個使用了OpenR1-Math,這是一個用于數(shù)學(xué)推理的大規(guī)模數(shù)據(jù)集。

這些數(shù)據(jù)集使得能夠發(fā)現(xiàn)R1用來回答那些考驗其推理能力的難題時所使用的特征。

在671B參數(shù)下,未蒸餾的R1模型在大規(guī)模運行時是一個工程挑戰(zhàn)。

使用DataMapPlot創(chuàng)建了通用推理SAE特征的交互式UMAP可視化的特征圖。

UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) 是一種用于降維的算法和工具。它基于流形學(xué)習(xí)和拓?fù)鋽?shù)據(jù)分析的數(shù)學(xué)理論。

UMAP將高維度的數(shù)據(jù)(有很多特征或變量的數(shù)據(jù))映射到低維度空間(通常是 2 維或 3 維),以便于可視化和分析。


關(guān)于引導(dǎo)R1的兩個初步見解

雖然還沒有系統(tǒng)地研究這些特征的出現(xiàn)頻率或原因,但這里想分享兩個關(guān)于引導(dǎo)R1的見解,這些是在非推理模型中沒有遇到過的。

在「好吧,用戶問了一個關(guān)于……」之后進(jìn)行引導(dǎo)

通常會從模型響應(yīng)的第一個token開始進(jìn)行引導(dǎo)。

然而,直接在R1思考鏈條的開始階段進(jìn)行引導(dǎo)是無效的。相反,需要等到模型以類似「好吧,用戶問了一個關(guān)于……」這樣的話語開始響應(yīng)之后,才能有效地進(jìn)行引導(dǎo)。

在這種「響應(yīng)前綴」的末尾,存在注意力匯聚(attention sinks)的現(xiàn)象,即某些token的平均激活強度遠(yuǎn)高于正常水平。

通常情況下,注意力匯聚會出現(xiàn)在模型響應(yīng)的開始階段。這表明,R1在開始響應(yīng)之前并沒有真正識別出自己進(jìn)入了「真實的響應(yīng)」階段,直到「好吧……」這個前綴出現(xiàn)。

研究人員最后囤點,像上面這樣的短語在R1訓(xùn)練時的推理軌跡中非常常見,因此模型實際上將其視為提示的一部分。(類似的前綴在R1的推理軌跡中極為常見:超過95%的英語推理軌跡都以「好吧」開頭)。

在提示(包括這個思考軌跡的前綴)、思考軌跡和助手的響應(yīng)之間,特征分布發(fā)生了顯著的變化。

這種微妙的、不直觀的R1內(nèi)部過程特征表明,最初對外部用戶來說直觀的概念邊界,可能并不完全符合模型自身所使用的邊界。

引導(dǎo)示例#1,在數(shù)學(xué)問題中交換運算符,比如下圖將times變成了divide。


過度引導(dǎo)R1會導(dǎo)致其恢復(fù)原來的行為

在引導(dǎo)模型時,我們通過調(diào)整所操控特征的強度,從而控制該特征對下游模型輸出的顯著性。

例如,如果增加一個表示「狗」的特征的激活強度,那么模型的輸出會更多地與狗相關(guān)。

如果過度引導(dǎo),通過不斷增加這個特征的激活強度,通常會觀察到模型越來越專注于狗,直到其輸出變得不連貫。

然而,在對R1進(jìn)行某些特征的引導(dǎo)時,發(fā)現(xiàn)過度引導(dǎo)反而會讓模型恢復(fù)到原始行為中去。

引導(dǎo)示例#2(減少思考時間)


研究者初步猜想是,當(dāng)模型內(nèi)部的激活狀態(tài)受到過度干擾時,它會隱性地察覺到一種困惑或不連貫的狀態(tài),從而停下來進(jìn)行調(diào)整。

為什么這種「重新平衡」效應(yīng)會特別出現(xiàn)在推理模型中?

研究人員認(rèn)為,這可能與它們的訓(xùn)練方式有關(guān),訓(xùn)練過程可能促使模型對自身內(nèi)部狀態(tài)有更高的隱性「察覺」。

從經(jīng)驗上看,推理模型在處理難題時,如果某條推理路徑行不通,常常會回溯并嘗試其他方法,這暗示它們在某種程度上能「感知」到自己何時「迷路」了。

如果這種現(xiàn)象是推理模型的普遍特性,那么試圖改變模型行為——比如抑制不誠實的回答——可能需要更復(fù)雜的技術(shù),因為模型可能會找到繞過修改的方法。

為什么這很重要

推理機制可解釋性通過深入研究模型如何生成回答,可以幫我們:

  • 更好地了解模型的能力和局限性

  • 識別、監(jiān)控和修復(fù)意外行為或失敗模式

  • 開發(fā)更精準(zhǔn)的安全干預(yù)措施

  • 提升用戶對模型的透明度和信任

Goodfire此次開源的是針對R1的SAE,他們很期待看到社區(qū)如何基于這些成果進(jìn)一步發(fā)展,開發(fā)新的技術(shù)來理解和對齊強大的AI系統(tǒng)。

隨著推理模型的能力和應(yīng)用不斷增強,像這樣的工具將對確保模型的可靠性、透明度,以及與人類意圖的一致性起到關(guān)鍵作用。

參考資料:

https://www.goodfire.ai/blog/under-the-hood-of-a-reasoning-model

https://x.com/GoodfireAI/status/1912217312566137335

https://github.com/goodfire-ai/r1-interpretability

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
奧美拉唑被列為重點監(jiān)控藥物!醫(yī)生提醒:長期服用,注意4大細(xì)節(jié)

奧美拉唑被列為重點監(jiān)控藥物!醫(yī)生提醒:長期服用,注意4大細(xì)節(jié)

奇妙的本草
2025-05-03 18:00:10
江蘇氣象發(fā)布:陣雨+雷雨!雨量中等!

江蘇氣象發(fā)布:陣雨+雷雨!雨量中等!

魯中晨報
2025-05-04 07:48:02
趙心童vs馬克-威廉姆斯戰(zhàn)績:趙心童2勝4負(fù),近兩次交手均勝

趙心童vs馬克-威廉姆斯戰(zhàn)績:趙心童2勝4負(fù),近兩次交手均勝

懂球帝
2025-05-04 04:34:13
單價超10萬/㎡!南京學(xué)區(qū)房為何突然‘殺瘋’?

單價超10萬/㎡!南京學(xué)區(qū)房為何突然‘殺瘋’?

揚子晚報
2025-05-03 22:43:47
天助曼城!1-2大冷門,阿森納遭英超第10掀翻,僅領(lǐng)先曼城3分

天助曼城!1-2大冷門,阿森納遭英超第10掀翻,僅領(lǐng)先曼城3分

側(cè)身凌空斬
2025-05-04 02:25:04
劉傳興得到安慰!CBA公司為其出頭,給北京隊開出了大罰單

劉傳興得到安慰!CBA公司為其出頭,給北京隊開出了大罰單

體育哲人
2025-05-04 01:09:00
合肥文旅因300塊錢,葬送了五一假期的流量

合肥文旅因300塊錢,葬送了五一假期的流量

映射生活的身影
2025-05-03 14:55:22
3-3遭壓哨絕平!凱恩被搞心態(tài),超極端情況:拜仁仍有可能丟冠軍

3-3遭壓哨絕平!凱恩被搞心態(tài),超極端情況:拜仁仍有可能丟冠軍

侃球熊弟
2025-05-03 22:13:36
川普原地掉頭,通過波蘭轉(zhuǎn)運F16

川普原地掉頭,通過波蘭轉(zhuǎn)運F16

難得君
2025-05-03 15:45:36
節(jié)目效果拉滿!主裁判受傷無法堅持,瓦爾迪蹲下吹哨暫停比賽

節(jié)目效果拉滿!主裁判受傷無法堅持,瓦爾迪蹲下吹哨暫停比賽

懂球帝
2025-05-03 23:38:35
電影市場已回到2012年水準(zhǔn)

電影市場已回到2012年水準(zhǔn)

犀牛娛樂
2025-05-03 15:33:21
后續(xù):蘇州直升機墜落1死4傷,死者為女大學(xué)生,坐飛機的4人沒事

后續(xù):蘇州直升機墜落1死4傷,死者為女大學(xué)生,坐飛機的4人沒事

新語愛八卦
2025-05-03 23:09:57
票房從11.8億跌到4075萬,我感慨:這塊喜劇片金字招牌算砸了

票房從11.8億跌到4075萬,我感慨:這塊喜劇片金字招牌算砸了

靠譜電影君
2025-05-02 23:34:22
蘇迪曼杯|耗時六小時險勝印尼隊,“戰(zhàn)損版”韓國隊成為國羽的決賽對手

蘇迪曼杯|耗時六小時險勝印尼隊,“戰(zhàn)損版”韓國隊成為國羽的決賽對手

文匯報
2025-05-04 00:12:09
后續(xù):校領(lǐng)導(dǎo)出面道歉,60件裙子被回購,涉事老師沉默,雙方和解

后續(xù):校領(lǐng)導(dǎo)出面道歉,60件裙子被回購,涉事老師沉默,雙方和解

奇思妙想草葉君
2025-05-03 22:41:17
中央氣象臺發(fā)布暴雨藍(lán)色預(yù)警、大風(fēng)藍(lán)色預(yù)警及沙塵暴藍(lán)色預(yù)警

中央氣象臺發(fā)布暴雨藍(lán)色預(yù)警、大風(fēng)藍(lán)色預(yù)警及沙塵暴藍(lán)色預(yù)警

界面新聞
2025-05-04 07:22:34
7死8傷! 華人游客在美遭遇慘烈車禍! 奔馳瞬間爆燃, 家屬緊急赴美

7死8傷! 華人游客在美遭遇慘烈車禍! 奔馳瞬間爆燃, 家屬緊急赴美

北國向錫安
2025-05-03 11:01:21
曝安徽女子出軌4次懷孕1次:不雅照流出,長相清純!

曝安徽女子出軌4次懷孕1次:不雅照流出,長相清純!

農(nóng)村情感故事
2025-05-03 20:10:41
網(wǎng)友三亞購買水果9斤變6斤?官方:屬實,擬罰5萬元

網(wǎng)友三亞購買水果9斤變6斤?官方:屬實,擬罰5萬元

界面新聞
2025-05-03 16:45:25
俄媒:菲科和武契奇因病將缺席莫斯科閱兵式

俄媒:菲科和武契奇因病將缺席莫斯科閱兵式

桂系007
2025-05-04 02:54:11
2025-05-04 08:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12639文章數(shù) 66026關(guān)注度
往期回顧 全部

科技要聞

特朗普下手,英偉達(dá)對華“特供版”要改

頭條要聞

澤連斯基:無法"確保"出席俄閱兵式的各國領(lǐng)導(dǎo)人安全

頭條要聞

澤連斯基:無法"確保"出席俄閱兵式的各國領(lǐng)導(dǎo)人安全

體育要聞

北京請神馬布里?許利民真有“玄學(xué)”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經(jīng)要聞

巴菲特談貿(mào)易、AI、股市、房地產(chǎn)!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態(tài)度原創(chuàng)

親子
旅游
教育
手機
藝術(shù)

親子要聞

五一出行要牢記~

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

七年級經(jīng)典,常考易錯

手機要聞

蘋果 iPhone 16e 后續(xù)機型規(guī)劃曝光,iPhone 17e 或缺席

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 梁河县| 溆浦县| 勐海县| 渑池县| 萨嘎县| 黄浦区| 丰原市| 望江县| 光山县| 灵宝市| 谷城县| 平舆县| 长丰县| 曲阜市| 平果县| 虞城县| 无锡市| 佛学| 宁德市| 错那县| 安仁县| 井研县| 龙门县| 洞口县| 同江市| 清水河县| 东乡族自治县| 射洪县| 金阳县| 三亚市| 寿阳县| 达州市| 庆云县| 南昌县| 图木舒克市| 崇阳县| 稷山县| 堆龙德庆县| 广南县| 兖州市| 甘谷县|