作者 | Sergio De Simone
譯者 | 明知山
策劃 | Tina
Anthropic 最近發布的兩篇論文試圖揭示大語言模型內部的運作機制,探討如何確定可解釋的概念,并將其與將這些概念轉化為語言的計算“電路”聯系起來。論文還描述了 Claude Haiku 3.5 的關鍵行為,包括幻覺、規劃和其他核心特征。
大型語言模型的內部工作機制仍然鮮為人知,導致人們難以解釋或解釋它們用來解決問題的策略。根據 Anthropic 的說法,這些策略隱藏在模型生成文本的數十億次計算之中——然而,它們大多仍然不透明。為了揭開這層隱藏的推理面紗,Anthropic 研究人員開發了一種他們稱之為“AI 顯微鏡”的新方法:
我們從神經科學中汲取靈感,這個領域一直在探索思維生物復雜的內在結構,我們試圖構建一種 AI 顯微鏡,幫助我們識別活動模式和信息流動。
簡單來說,Anthropic 的 AI 顯微鏡技術就是用所謂的替代模型來替換被研究的模型。在這個替代模型中,原本的神經元被一些稀疏激活的特征所替代,這些特征通常能夠代表一些可解釋的概念。比如,當模型要生成一個州的首府時,某個特征就會被激活。
當然,替代模型并不總是能與底層模型產生相同的輸出。為了克服這一局限,Anthropic 的研究人員針對他們想要研究的每個提示詞構建了一個專門的替代模型。他們通過將誤差項和固定的注意力模式納入替代模型實現了這一目標。
本地替代模型生成的輸出與原始模型完全相同,但盡可能多地使用特征替換來執行計算。
作為最后一步,為了描述從初始提示詞到最終輸出的特征傳遞過程,研究人員通過修剪掉所有不影響輸出的特征構建了一個歸因圖。
請注意,這里僅提供 Anthropic AI 顯微鏡的一個大致介紹。若要了解詳細內容,請參考上文鏈接中的原始論文。
通過采用這種方法,Anthropic 的研究團隊取得了一系列有趣的成果。在多語言能力的研究中,他們找到了一些證據,顯示 Claude 在將概念翻譯成特定語言之前使用了一種通用語言來生成概念。
我們通過使用不同的語言向 Claude 詢問“小的反義詞”來探究這一現象,結果發現相同的核心特征被激活,這些特征既代表了“小”和“反義”的概念,并觸發了“大”的概念,而這一概念被翻譯成了提問所使用的語言。
另一個有趣的發現與大語言模型通常被認為在生成輸出時“缺乏深思熟慮”的觀點相悖。相反,對 Claude 生成押韻詞的研究顯示,它實際上會提前進行規劃。
在開始第二行之前,它先“思考”一些與主題相關的押韻詞匯,這些詞匯要與“grab it”押韻。然后,帶著這些構思寫出下一行,并以計劃中的詞匯作為結尾。
Anthropic 的研究人員還深入研究了模型有時為何會編造信息,也就是它們產生幻覺的原因。從某種角度來看,幻覺是模型運作方式的固有特征,因為模型總是需要預測下一個輸出。這意味著模型必須依賴特定的防幻覺訓練來對抗這種傾向。換言之,有兩種不同的機制在起作用:一種是識別“已知實體”,另一種是處理“未知名稱”或“無法回答”的情況。這兩種機制之間的正確協同作用是防止模型產生幻覺的關鍵。
我們展示了一個場景,即當 Claude 識別出一個名字卻對這個人一無所知時可能會發生故障。在這種情況下,“已知實體”的特征可能被錯誤地激活,進而錯誤地抑制了默認的“不知道”特征。一旦模型決定要回答這個問題,它就會繼續編造,生成一個看似合理但實際上不真實的回答。
Anthropic 的研究人員還探索了一些其他有趣的領域,包括心算、生成解釋推理過程的思維鏈、多步推理和越獄行為。有關這些內容的細節可以在 Anthropic 的論文中找到。
Anthropic 的 AI 顯微鏡旨在為可解釋性研究做出貢獻,并提供一種工具,幫助我們理解模型如何進行推理,確保它們與人類價值觀對齊。然而,這仍然只是一個初步的嘗試,只能捕捉到模型計算的一小部分,并且只能應用于只有幾十個單詞的小型提示詞。隨著新的見解不斷涌現,InfoQ 將繼續報道大語言模型可解釋性研究的最新進展。
查看英文原文:
https://www.infoq.com/news/2025/04/anthropic-ai-microscope/
聲明:本文由 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.