新智元報道
編輯:KingHZ
【新智元導讀】ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 一場關于「機制可解釋性」的路線分歧,正撕裂AI研究最核心的價值共識。谷歌認慫,Anthropic死磕——AI還能被「看懂」嗎?
然而,沒有人知道這到底是因為什么。
這恰恰暴露了當前AI的致命短板:缺乏可解釋性。
而關于AI可解釋性的研究價值,專家間的討論近期變得更加激烈。
具體而言,是AI巨頭谷歌和Anthropic之間關于「機制可解釋性」(mechanistic interpretability)的爭論:
3月,谷歌DeepMind宣布將不再把「機制可解釋性」作為研究重點。
4月,Anthropic的首席執行官Dario Amodei主張應該更加重視「機制可解釋性」的研究,并表達了對未來5到10年內實現「AI的核磁共振成像」(即深入了解AI內部機制)的樂觀態度。
所謂的機制可解釋性,目標是對AI系統進行「逆向工程」。
但十多年的研究成果表明,這種方法可能難以真正落地,而這一切都被不完善的基礎假設誤導。
人類無知之危,
GenAI懸頂之劍
很多與GenAI相關的風險和擔憂,本質上都是因為這些算法內部機制的「黑箱」特性所引發的。
如果模型是可解釋的,這些問題會更容易被解決。
但可解釋性AI非常難以研究。
2018年,在一次采訪中Geoffrey Hinton認為可解釋性AI堪比「雞生蛋 VS 蛋生雞」。當時,他是這樣說的:
人類在大多數時候其實都無法解釋自己是如何做出決策的。 ……
神經網絡也有類似的問題。你給它輸入一張圖片,它會輸出合理的判斷,比如判斷這是不是行人。
但如果你問它「為什么這么判斷?」,那問題在于:如果判斷一張圖片是否包含行人真的有一套簡單規則,這個問題早就解決了。
紐約大學教授Bob Rehder曾寫道:「解釋會促使學習者尋找通用模式,但這也可能讓他們忽視例外情況。結果就是,在那些例外頻繁出現的領域中,解釋反而可能帶來負面效果。」
Anthropic聯合創始人Chris Olah常說,GenAI更像是「被培養出來的」,而不是「被構建出來的」
——它們的內部機制是「涌現」的,而不是人為精心設計的。
這有點像種菜或養花:人類可以設定整體的生長條件,但不可預測且難以解釋最終形成的具體結構。
當我們試圖去了解這些系統內部時,看到的只是由數十億個數組成的龐大矩陣。這些數字能夠完成重要的認知任務,但它們是如何做到這一點的,目前無人知曉。
AI系統的不可解釋性,也意味著在許多重要領域無法使用AI,因為我們無法明確設定它們行為的邊界,而一旦出現錯誤,后果可能極其嚴重。
事實上,在某些場景下,模型不可解釋甚至在法律上直接阻止了它們的使用。
同樣地,AI在科學領域取得了重大進展。
比如對DNA和蛋白質序列的預測能力大幅提高,但這些由AI發現的模式和結構人類往往難以理解,也無法帶來生物學上的真正洞見。
機制可解釋性,主要是試圖找出模型中哪些具體的「神經元」和「回路」在執行某項任務時發揮了作用。
研究者希望借此能夠追蹤模型的思考過程,從而以「硬件原理」的方式解釋它的行為。
許多人認為這種詳細的理解對于AI安全來說是無價的;它可以使研究人員精確地設計模型,在所有條件下按預期行為運作,可靠地避免所有風險。
谷歌:感覺被坑了
對機制可解釋性的研究,源于研究人員對真理的信仰:知識就是力量;命名即了解,了解即控制。
早在谷歌工作期間,Chris Olah嘗試以系統化方式研究如何打開這個LLM「黑箱」、理解模型內部運作。
機制可解釋性的早期階段(2014–2020)主要集中在圖像模型上,研究者成功識別出了一些與人類可理解概念對應的神經元。
這與早期神經科學的假設類似,例如大腦中存在識別特定人物或概念的神經元,被稱為「Jennifer Aniston神經元」。
CLIP模型的最終層部分神經元
Anthropic:矢志不渝AI解釋性
Anthropic創辦時,聯合創始人Chris Olah和Dario Amodei,決定將可解釋性方法應用到語言模型。
Dario Amodei
很快,他們就在模型中發現了一些基礎機制,這些機制對語言理解至關重要,比如復制、序列匹配等。
同時,也找到了類似于圖像模型中的、可以表示特定詞語或概念的可解釋神經元。
但問題的復雜性曾一度阻礙了解釋性的研究進展,直到后來他們發現,信號處理領域已有的一種技術——
稀疏自編碼器(sparse autoencoders,SAE)可以識別出神經元組合,這些組合能更清晰地表達接近人類理解的概念。
相較于單個神經元,這些組合能表達更微妙的概念,比如「字面或隱喻上的猶豫與回避」,或是「表達不滿情緒的音樂流派」。
這些組合被稱為「特征」(features),并用稀疏自編碼器方法映射了各種規模的模型,包括最先進的商用模型。
最近,他們的研究已經從「追蹤和操作單個特征」拓展到了「追蹤和操作一組特征」,稱之為「回路」(circuits)。
借助這些回路,大家可以「追蹤」模型的思維路徑。
例如,當你問模型「達拉斯所在州的首府是哪座城市?」時,模型內部會啟用一個「包含關系」(located within)的回路,使得「達拉斯」這個特征激活「德克薩斯」,接著再通過另一個回路,讓「德克薩斯」和「首府」這兩個概念共同激活「奧斯汀」。
使用回路追蹤方法,Anthropic研究了Claude 3.5 Haiku所使用的內部機制。
谷歌DeepMind:暫緩SAE研究
事實證明,要讓SAE穩定有效地工作非常困難。
這正是DeepMind最近決定降低SAE優先級的原因之一。
DeepMind研究團隊發表了技術博客,詳細解釋了為什么他們不看好稀疏子編碼器的原因。
他們最初的核心動機在于,可解釋性研究領域中的許多人,在稀疏自編碼器(SAE)上投入了大量精力。
但SAE缺乏「真實」特征的客觀參照標準,無法與語言模型中的真實結構進行比對,這很難判斷它究竟工作得有多好。
雖然定性分析表明SAE確實捕捉到了某些結構(遠非隨機噪聲所能解釋),但局限性同樣明顯——
當在Neuronpedia中輸入任意句子并觀察激活的潛在變量時,這些變量往往無法對應清晰的語義解釋。
Neuronpedia最初是專為稀疏自編碼器(SAE)研究設計的平臺,但現已升級為支持廣義機制可解釋性研究的開放基礎設施
在決定是否繼續優先發展SAE時,有必要更宏觀地思考可解釋性研究的評價標準。
傳統思路假設模型內部存在某種精確的、人類可理解的「客觀真相」,并試圖通過逆向工程揭示它。
對SAE而言,這種理想化愿景體現為「希望SAE潛在變量能捕捉模型內部的規范概念集合」。
但現在谷歌清楚地認識到SAE存在眾多問題:
現狀評估:現有SAE技術距離這一目標相去甚遠
哲學質疑:模型內部是否真的存在這種「真實概念」尚屬未知
技術瓶頸:即使存在真實概念,SAE也存在多重固有缺陷:概念覆蓋不全(missing concepts)、噪聲表征問題(如微小激活量缺乏可解釋性)、特征扭曲現象(如特征吸收等異常變形)、高假陰性率(看似可解釋的潛在變量存在大量漏檢)
研究團隊精心設計并完成了探測實驗,從中得到的關鍵新發現是:
當前的稀疏自編碼器(SAE)并不能識別出在某些關鍵任務中所需的「概念」;而線性探測器(linear probe)卻能找到一個有用的方向。
這可能有多種解釋,但無論是哪種情況,這都表明,SAE可能并不是在實際任務中所需要的合適工具。
雖然任何一個單獨的負面結果都不構成強有力的結論,但如果SAE真的是可解釋性研究的一大突破,那應該不至于難以找到能夠明顯優于基線方法的應用場景。
DeepMind相關研究團隊認為:在短期內,SAE以及基于SAE的技術不太可能帶來革命性突破,甚至有可能永遠無法成為真正的轉折點。
十年研究,一地雞毛
機制可解釋性這個目標可能過于理想化。
在過去十多年里,各大公司和研究機構投入了大量人才和數百萬美元,推進多個可解釋性研究項目。
雖然這些研究常常帶來短暫的興奮和關注,但至今沒有哪項成果真正經受住了時間的考驗。
特征可視化
在2015年,Mordvintsev等人年提出特征可視化,發現哪些特征激活單個神經元來理解圖像分類器的工作原理。
然而,對該技術的可靠性和實用性仍存疑慮。
神經元常常對多個不相關的特征產生反應,難以對其角色給出簡潔的解釋。
顯著性圖
顯著性圖生成了令人信服的圖像,從人類視角看似乎突出了圖像中最重要的部分。
但2020年的研究表明顯著性圖并未捕捉到訓練模型所學內容或其關注的重點。
論文鏈接:https://arxiv.org/abs/1810.03292
引導反向傳播是一種顯著性圖技術,對隨機模型和實際訓練模型提供相似的解釋,表明它并未真正解釋任何內容。
BERT可解釋性錯覺
語言模型的解釋技術也存在類似的缺陷。
在2021年,研究人員描述了尋找能最大程度激活BERT模型中單個目標神經元的句子,最初發現了一個令人信服的模式。但當使用不同的數據集時,該模式消失,同一神經元對完全不同類型的句子反應最強烈。
論文鏈接:https://arxiv.org/abs/2104.07143
Chinchilla回路分析
在2023年,DeepMind的一篇論文中將可解釋性方法應用于700億參數的Chinchilla模型,結果喜憂參半。
論文鏈接:https://arxiv.org/abs/2307.09458
盡管作者發現了一組似乎與特定任務相關的神經元,但這一過程耗時數月,令人質疑以這種方式理解大型模型的實用性。
此外,當任務格式稍有變化時,識別節點的性能下降,表明它們僅提供了部分解釋,模型的其他部分也必須參與其中。
迷途知返
這種「自下而上」「從局部到整體」的機制解釋性研究,或許從根本上就錯了?
畢竟,核磁共振(MRI)可以探測大腦中的血流,揭示哪些區域與某些想法或任務有關,但它無法逐個神經元地追蹤人的思想。
非營利機構AI Frontiers的Dan Hendrycks(下圖男士)和Laura Hiscott(下圖女士),認為AI可解釋性研究應當從更高層次的特征入手。
研究人員應該借鑒其他復雜系統的方法,就像氣象學家、生物學家和心理學家往往先研究其對象的高層特征一樣,
我們也應該采取「自上而下」的方式來推動AI的可解釋性研究,而不是從底層機制出發的「自下而上」方法。
2001年,Leo Breiman發表了一篇開創性但當時極具爭議的論文,主張復雜而不透明的機器學習系統遠比整潔的統計公式更強大。
從這個角度看,機制可解釋性可能更像是一種吸引「理性審美」的研究方向,而不是一個具有廣闊前景的實用領域。
而執著于機制可解釋性,或許在希望深度學習系統變成本質上「面目全非」的樣子。
參考資料:
https://www.ai-frontiers.org/articles/the-misguided-quest-for-mechanistic-ai-interpretability
https://www.darioamodei.com/post/the-urgency-of-interpretability
https://www.alignmentforum.org/posts/4uXCAJNuPKtKBsi28/sae-progress-update-2-draft
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.