99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

苦研10年無果,千萬經費打水漂!AI黑箱依然無解,谷歌撕破臉

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】ChatGPT「舔狗化」事件背后,暴漏目前AI仍是「黑箱」。 一場關于「機制可解釋性」的路線分歧,正撕裂AI研究最核心的價值共識。谷歌認慫,Anthropic死磕——AI還能被「看懂」嗎?

然而,沒有人知道這到底是因為什么。

這恰恰暴露了當前AI的致命短板:缺乏可解釋性。

而關于AI可解釋性的研究價值,專家間的討論近期變得更加激烈。

具體而言,是AI巨頭谷歌和Anthropic之間關于「機制可解釋性」(mechanistic interpretability)的爭論:

3月,谷歌DeepMind宣布將不再把「機制可解釋性」作為研究重點

4月,Anthropic的首席執行官Dario Amodei主張應該更加重視「機制可解釋性」的研究,并表達了對未來5到10年內實現「AI的核磁共振成像」(即深入了解AI內部機制)的樂觀態度。

所謂的機制可解釋性,目標是對AI系統進行「逆向工程」。

但十多年的研究成果表明,這種方法可能難以真正落地,而這一切都被不完善的基礎假設誤導。


人類無知之危,

GenAI懸頂之劍

很多與GenAI相關的風險和擔憂,本質上都是因為這些算法內部機制的「黑箱」特性所引發的。

如果模型是可解釋的,這些問題會更容易被解決。

但可解釋性AI非常難以研究。

2018年,在一次采訪中Geoffrey Hinton認為可解釋性AI堪比「雞生蛋 VS 蛋生雞」。當時,他是這樣說的:

人類在大多數時候其實都無法解釋自己是如何做出決策的。 ……

神經網絡也有類似的問題。你給它輸入一張圖片,它會輸出合理的判斷,比如判斷這是不是行人。

但如果你問它「為什么這么判斷?」,那問題在于:如果判斷一張圖片是否包含行人真的有一套簡單規則,這個問題早就解決了。

紐約大學教授Bob Rehder曾寫道:「解釋會促使學習者尋找通用模式,但這也可能讓他們忽視例外情況。結果就是,在那些例外頻繁出現的領域中,解釋反而可能帶來負面效果。」


Anthropic聯合創始人Chris Olah常說,GenAI更像是「被培養出來的」,而不是「被構建出來的」

——它們的內部機制是「涌現」的,而不是人為精心設計的


這有點像種菜或養花:人類可以設定整體的生長條件,但不可預測且難以解釋最終形成的具體結構。

當我們試圖去了解這些系統內部時,看到的只是由數十億個數組成的龐大矩陣。這些數字能夠完成重要的認知任務,但它們是如何做到這一點的,目前無人知曉。


AI系統的不可解釋性,也意味著在許多重要領域無法使用AI,因為我們無法明確設定它們行為的邊界,而一旦出現錯誤,后果可能極其嚴重

事實上,在某些場景下,模型不可解釋甚至在法律上直接阻止了它們的使用。

同樣地,AI在科學領域取得了重大進展。

比如對DNA和蛋白質序列的預測能力大幅提高,但這些由AI發現的模式和結構人類往往難以理解,也無法帶來生物學上的真正洞見。


機制可解釋性,主要是試圖找出模型中哪些具體的「神經元」和「回路」在執行某項任務時發揮了作用。

研究者希望借此能夠追蹤模型的思考過程,從而以「硬件原理」的方式解釋它的行為。

許多人認為這種詳細的理解對于AI安全來說是無價的;它可以使研究人員精確地設計模型,在所有條件下按預期行為運作,可靠地避免所有風險。

谷歌:感覺被坑了

對機制可解釋性的研究,源于研究人員對真理的信仰知識就是力量;命名即了解,了解即控制。

早在谷歌工作期間,Chris Olah嘗試以系統化方式研究如何打開這個LLM「黑箱」、理解模型內部運作。


機制可解釋性的早期階段(2014–2020)主要集中在圖像模型上,研究者成功識別出了一些與人類可理解概念對應的神經元。

這與早期神經科學的假設類似,例如大腦中存在識別特定人物或概念的神經元,被稱為「Jennifer Aniston神經元」。


CLIP模型的最終層部分神經元

Anthropic:矢志不渝AI解釋性

Anthropic創辦時,聯合創始人Chris Olah和Dario Amodei,決定將可解釋性方法應用到語言模型


Dario Amodei

很快,他們就在模型中發現了一些基礎機制,這些機制對語言理解至關重要,比如復制、序列匹配等。

同時,也找到了類似于圖像模型中的、可以表示特定詞語或概念的可解釋神經元。


但問題的復雜性曾一度阻礙了解釋性的研究進展,直到后來他們發現,信號處理領域已有的一種技術——

稀疏自編碼器(sparse autoencoders,SAE)可以識別出神經元組合,這些組合能更清晰地表達接近人類理解的概念

相較于單個神經元,這些組合能表達更微妙的概念,比如「字面或隱喻上的猶豫與回避」,或是「表達不滿情緒的音樂流派」。

這些組合被稱為「特征」(features),并用稀疏自編碼器方法映射了各種規模的模型,包括最先進的商用模型。

最近,他們的研究已經從「追蹤和操作單個特征」拓展到了「追蹤和操作一組特征」,稱之為「回路」(circuits)。

借助這些回路,大家可以「追蹤」模型的思維路徑。

例如,當你問模型「達拉斯所在州的首府是哪座城市?」時,模型內部會啟用一個「包含關系」(located within)的回路,使得「達拉斯」這個特征激活「德克薩斯」,接著再通過另一個回路,讓「德克薩斯」和「首府」這兩個概念共同激活「奧斯汀」。


使用回路追蹤方法,Anthropic研究了Claude 3.5 Haiku所使用的內部機制。

谷歌DeepMind:暫緩SAE研究

事實證明,要讓SAE穩定有效地工作非常困難

這正是DeepMind最近決定降低SAE優先級的原因之一。

DeepMind研究團隊發表了技術博客,詳細解釋了為什么他們不看好稀疏子編碼器的原因。


他們最初的核心動機在于,可解釋性研究領域中的許多人,在稀疏自編碼器(SAE)上投入了大量精力。

但SAE缺乏「真實」特征的客觀參照標準,無法與語言模型中的真實結構進行比對,這很難判斷它究竟工作得有多好。

雖然定性分析表明SAE確實捕捉到了某些結構(遠非隨機噪聲所能解釋),但局限性同樣明顯——

當在Neuronpedia中輸入任意句子并觀察激活的潛在變量時,這些變量往往無法對應清晰的語義解釋。


Neuronpedia最初是專為稀疏自編碼器(SAE)研究設計的平臺,但現已升級為支持廣義機制可解釋性研究的開放基礎設施

在決定是否繼續優先發展SAE時,有必要更宏觀地思考可解釋性研究的評價標準。

傳統思路假設模型內部存在某種精確的、人類可理解的「客觀真相」,并試圖通過逆向工程揭示它。

對SAE而言,這種理想化愿景體現為「希望SAE潛在變量能捕捉模型內部的規范概念集合」。

但現在谷歌清楚地認識到SAE存在眾多問題:

現狀評估:現有SAE技術距離這一目標相去甚遠

哲學質疑:模型內部是否真的存在這種「真實概念」尚屬未知

技術瓶頸:即使存在真實概念,SAE也存在多重固有缺陷:概念覆蓋不全(missing concepts)、噪聲表征問題(如微小激活量缺乏可解釋性)、特征扭曲現象(如特征吸收等異常變形)、高假陰性率(看似可解釋的潛在變量存在大量漏檢)

研究團隊精心設計并完成了探測實驗,從中得到的關鍵新發現是:

當前的稀疏自編碼器(SAE)不能識別出在某些關鍵任務中所需的「概念」;而線性探測器(linear probe)卻能找到一個有用的方向。

這可能有多種解釋,但無論是哪種情況,這都表明,SAE可能并不是在實際任務中所需要的合適工具

雖然任何一個單獨的負面結果都不構成強有力的結論,但如果SAE真的是可解釋性研究的一大突破,那應該不至于難以找到能夠明顯優于基線方法的應用場景。

DeepMind相關研究團隊認為:在短期內,SAE以及基于SAE的技術不太可能帶來革命性突破,甚至有可能永遠無法成為真正的轉折點。

十年研究,一地雞毛

機制可解釋性這個目標可能過于理想化。

在過去十多年里,各大公司和研究機構投入了大量人才和數百萬美元,推進多個可解釋性研究項目。

雖然這些研究常常帶來短暫的興奮和關注,但至今沒有哪項成果真正經受住了時間的考驗。

特征可視化

在2015年,Mordvintsev等人年提出特征可視化,發現哪些特征激活單個神經元來理解圖像分類器的工作原理。

然而,對該技術的可靠性和實用性仍存疑慮。

神經元常常對多個不相關的特征產生反應,難以對其角色給出簡潔的解釋。


顯著性圖

顯著性圖生成了令人信服的圖像,從人類視角看似乎突出了圖像中最重要的部分。

但2020年的研究表明顯著性圖并未捕捉到訓練模型所學內容或其關注的重點。


論文鏈接:https://arxiv.org/abs/1810.03292


引導反向傳播是一種顯著性圖技術,對隨機模型和實際訓練模型提供相似的解釋,表明它并未真正解釋任何內容。

BERT可解釋性錯覺

語言模型的解釋技術也存在類似的缺陷。

在2021年,研究人員描述了尋找能最大程度激活BERT模型中單個目標神經元的句子,最初發現了一個令人信服的模式。但當使用不同的數據集時,該模式消失,同一神經元對完全不同類型的句子反應最強烈。


論文鏈接:https://arxiv.org/abs/2104.07143

Chinchilla回路分析

在2023年,DeepMind的一篇論文中將可解釋性方法應用于700億參數的Chinchilla模型,結果喜憂參半。


論文鏈接:https://arxiv.org/abs/2307.09458

盡管作者發現了一組似乎與特定任務相關的神經元,但這一過程耗時數月,令人質疑以這種方式理解大型模型的實用性。

此外,當任務格式稍有變化時,識別節點的性能下降,表明它們僅提供了部分解釋,模型的其他部分也必須參與其中。

迷途知返

這種「自下而上」「從局部到整體」的機制解釋性研究,或許從根本上就錯了?

畢竟,核磁共振(MRI)可以探測大腦中的血流,揭示哪些區域與某些想法或任務有關,但它無法逐個神經元地追蹤人的思想。

非營利機構AI Frontiers的Dan Hendrycks(下圖男士)和Laura Hiscott(下圖女士),認為AI可解釋性研究應當從更高層次的特征入手。


研究人員應該借鑒其他復雜系統的方法,就像氣象學家、生物學家和心理學家往往先研究其對象的高層特征一樣,

我們也應該采取「自上而下」的方式來推動AI的可解釋性研究,而不是從底層機制出發的「自下而上」方法。

2001年,Leo Breiman發表了一篇開創性但當時極具爭議的論文,主張復雜而不透明的機器學習系統遠比整潔的統計公式更強大。


從這個角度看,機制可解釋性可能更像是一種吸引「理性審美」的研究方向,而不是一個具有廣闊前景的實用領域。

而執著于機制可解釋性,或許在希望深度學習系統變成本質上「面目全非」的樣子。

參考資料:

https://www.ai-frontiers.org/articles/the-misguided-quest-for-mechanistic-ai-interpretability

https://www.darioamodei.com/post/the-urgency-of-interpretability

https://www.alignmentforum.org/posts/4uXCAJNuPKtKBsi28/sae-progress-update-2-draft

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
竟真不如降級隊曼聯近8輪僅拿2分,排英超倒1&比圣徒還少1分

竟真不如降級隊曼聯近8輪僅拿2分,排英超倒1&比圣徒還少1分

直播吧
2025-05-17 09:40:08
上官正義遭死亡威脅,注射艾滋病毒,2000萬買命,杭州警方已立案

上官正義遭死亡威脅,注射艾滋病毒,2000萬買命,杭州警方已立案

小嵩
2025-05-17 09:01:41
4.8萬/平起,西紅門降價大戰又開始了~

4.8萬/平起,西紅門降價大戰又開始了~

愛看劇的阿峰
2025-05-17 01:25:20
張云龍:早知道會火我就該清空我的微博 看著像個戀愛腦哈哈哈哈

張云龍:早知道會火我就該清空我的微博 看著像個戀愛腦哈哈哈哈

情感大頭說說
2025-05-17 02:20:57
官方:因草坪質量原因,本輪新鵬城vs三鎮比賽延期至6月18日

官方:因草坪質量原因,本輪新鵬城vs三鎮比賽延期至6月18日

懂球帝
2025-05-16 16:26:48
謝克哈真容曝光,二胎女兒出生40天,丈夫和酋長輪流寵,這下穩了

謝克哈真容曝光,二胎女兒出生40天,丈夫和酋長輪流寵,這下穩了

墨印齋
2025-05-17 08:26:31
高盛:未來10年中國房地產3大結局,明年有望真正企穩

高盛:未來10年中國房地產3大結局,明年有望真正企穩

光宇吐樓市
2025-05-16 17:30:11
1988年,河南村婦跑去北京找知青丈夫,說出名字后首長嚇了一跳

1988年,河南村婦跑去北京找知青丈夫,說出名字后首長嚇了一跳

紅豆講堂
2025-05-04 08:10:08
楊瀚森美國熱度爆了!ESPN發文超15萬點贊,引發各階級關注!

楊瀚森美國熱度爆了!ESPN發文超15萬點贊,引發各階級關注!

籃球資訊達人
2025-05-16 22:55:06
杜特爾特迎來好消息!“小老弟”獲得菲史最強支持,家族單身在即

杜特爾特迎來好消息!“小老弟”獲得菲史最強支持,家族單身在即

愛看劇的阿峰
2025-05-17 07:00:00
廣東女子飛機起飛后打電話,周圍乘客提醒被反懟,網友扒出正臉

廣東女子飛機起飛后打電話,周圍乘客提醒被反懟,網友扒出正臉

涵豆說娛
2025-05-16 09:52:06
20億富二代帶頭起哄叫老婆站上椅子食面!網友慨嘆闊太唔易做

20億富二代帶頭起哄叫老婆站上椅子食面!網友慨嘆闊太唔易做

粵睇先生
2025-05-15 02:30:18
Shams:塔圖姆將和杜蘭特討論康復計劃,并以他為榜樣

Shams:塔圖姆將和杜蘭特討論康復計劃,并以他為榜樣

雷速體育
2025-05-17 07:53:12
黃楊鈿甜塌房,最慘的是李昀銳,《冰湖重生》播出無望了

黃楊鈿甜塌房,最慘的是李昀銳,《冰湖重生》播出無望了

阿矗論古今
2025-05-16 15:47:53
廣發銀行,感受到了信用卡的寒氣

廣發銀行,感受到了信用卡的寒氣

松果財經
2025-05-16 22:23:11
領導最煩這種下屬,工作再努力,也不會提拔

領導最煩這種下屬,工作再努力,也不會提拔

互聯網思維
2025-05-16 23:34:08
1963年,朝鮮代表提出尋找東北屬于古朝鮮的證據,周總理這樣回應

1963年,朝鮮代表提出尋找東北屬于古朝鮮的證據,周總理這樣回應

歷史圖鑒
2025-05-14 17:48:08
白鹿在大導演懷里嬌羞甜美的樣子徹底火了!吳京的話終于有人信了

白鹿在大導演懷里嬌羞甜美的樣子徹底火了!吳京的話終于有人信了

南南說娛
2025-05-14 13:34:57
匈牙利明確表態:對華“脫鉤”觸及紅線

匈牙利明確表態:對華“脫鉤”觸及紅線

參考消息
2025-05-16 20:10:39
萬萬沒想到!被傳移民美國的王剛,已經走上了另一條人生大道

萬萬沒想到!被傳移民美國的王剛,已經走上了另一條人生大道

七公子娛樂
2025-05-14 17:26:22
2025-05-17 09:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12715文章數 66034關注度
往期回顧 全部

科技要聞

OpenAI最強寫代碼AI智能體來了:Codex上線

頭條要聞

媒體:澤連斯基前往土耳其又離開 向全球宣介一種誠意

頭條要聞

媒體:澤連斯基前往土耳其又離開 向全球宣介一種誠意

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

關鍵時刻,央媽出手了

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

教育
旅游
親子
游戲
軍事航空

教育要聞

2025年高考地理熱點-冷涼經濟

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

幼兒園教師拍打孩子額頭,新疆庫爾勒教育局:涉事教師已被辭退

ShiftUp稱D加密不會影響《星刃》性能 你信嗎?

軍事要聞

持續近2小時 俄烏在土耳其談成了什么

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临澧县| 镇雄县| 双流县| 吴忠市| 平乡县| 安岳县| 奉贤区| 台东市| 彝良县| 托克托县| 象州县| 弥勒县| 金阳县| 紫阳县| 静宁县| 鄂托克旗| 昂仁县| 皋兰县| 阳新县| 开封市| 漳平市| 梧州市| 韶山市| 铜鼓县| 龙游县| 瓦房店市| 行唐县| 长阳| 南华县| 武隆县| 乐安县| 高台县| 如皋市| 卢龙县| 三穗县| 台前县| 瑞安市| 出国| 若尔盖县| 嘉祥县| 靖江市|