Anthropic剛剛宣布了一個重磅消息:開源電路追蹤工具!簡單說,就是AI模型的“黑箱”有望被進一步打開
劃重點
1. “讀心術”:Anthropic開源的新方法能追蹤大型語言模型(LLM)的神經元
2. 歸因圖譜是關鍵:通過生成“歸因圖譜”(attribution graphs),部分揭示模型內部為啥會給出特定輸出
3. 工具全家桶:不僅開源了生成圖譜的庫,還聯合Neuronpedia提供了酷炫的交互式前端,讓你點點鼠標就能探索
長久以來,大模型的“黑箱”問題一直是AI研究者和開發者心頭的一塊大石。模型越來越強,但我們對其內部運作機制的理解卻遠遠跟不上。正如Anthropic的CEO Dario Amodei最近強調的,提升AI的可解釋性迫在眉睫。如果我們不知道AI是怎么“想”的,那安全性和可信度從何談起?
這次,Anthropic直接放了大招!他們開源的這套電路追蹤工具,核心就是生成“歸因圖譜”。你可以把它想象成一張詳細的“思維導圖”,展示了模型在處理你的輸入時,內部哪些神經元、哪些注意力頭在關鍵時刻發揮了作用,它們之間是如何相互影響,最終“合謀”生成了那個答案
開源地址:
https://github.com/safety-research/circuit-tracer
具體來說,Anthropic這次開源了:
一個開源庫:這個庫能讓你在流行的開源權重模型上生成歸因圖譜。以后研究者們不用從零開始造輪子了,直接上手就能用。
一個Neuronpedia托管的前端:你可以通過這個交互界面,直觀地查看、分析這些復雜的圖譜
地址:
https://www.neuronpedia.org/gemma-2-2b/graph
有了這些工具,可以做什么?
1.追蹤電路:在支持的模型上,針對你感興趣的輸入,生成專屬的歸因圖譜。
2.可視化、注釋和共享:利用交互式前端,不僅能看,還能在圖譜上做標記、寫注釋,甚至方便地分享給同行。
3.檢驗假設:更進一步,你可以修改圖譜中某些特征的數值,然后觀察模型的輸出會發生什么變化,以此來驗證你對模型內部機制的猜想。
Anthropic自己已經用這套工具在Gemma-2-2b和Llama-3.2-1b等模型上搞了不少有意思的研究,比如多步推理過程、多語言表征等。他們還準備了demo notebook,手把手教你怎么用
notebook地址:
https://github.com/safety-research/circuit-tracer/blob/main/demos/circuit_tracing_tutorial.ipynb
參考:
https://www.anthropic.com/research/open-source-circuit-tracing
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.