Anthropic 公司 CEO Dario Amodei 于周四發(fā)表了一篇文章,指出研究人員對于全球領先 AI 模型內(nèi)部運作的了解非常有限。為了解決這一問題,Amodei 為 Anthropic 設定了一個雄心勃勃的目標,即到 2027 年能夠可靠地發(fā)現(xiàn)大多數(shù) AI 模型的問題。
Amodei 承認前路充滿挑戰(zhàn)。在 "The Urgency of Interpretability" 一文中,這位 CEO 表示,Anthropic 已經(jīng)在追蹤模型如何得到答案方面取得了早期突破——但他強調(diào),隨著系統(tǒng)變得更加強大,需要進行更多研究來解讀這些系統(tǒng)。
"在沒有更好地理解其可解釋性之前,我非常擔憂部署這種系統(tǒng)," Amodei 在文章中寫道。 "這些系統(tǒng)將對經(jīng)濟、技術和國家安全起到絕對核心的作用,并且擁有如此高度的自主性,以至于我認為人類對它們的運作原理一無所知是完全不可接受的。"
Anthropic 是在機械可解釋性領域的先驅(qū)公司之一,該領域旨在揭開 AI 模型黑箱,理解它們?yōu)楹巫龀鎏囟Q策。盡管科技行業(yè)的 AI 模型在性能上快速提升,但我們對這些系統(tǒng)如何做出決策仍知之甚少。
例如,OpenAI 最近推出了新的推理 AI 模型 o3 和 o4-mini,在某些任務上的表現(xiàn)更出色,但它們產(chǎn)生虛構內(nèi)容的情況也比其他模型更多。該公司尚未弄清楚原因所在。
"當一個生成式 AI 系統(tǒng)執(zhí)行某項任務時,例如總結一份財務文件,我們在具體、精確的層面上完全無法解釋它為何會做出這些選擇——為什么它會選擇某些詞語而不是其他詞語,或為何在通常準確的情況下偶爾出現(xiàn)錯誤," Amodei 在文章中寫道。
在文章中,Amodei 引用了 Anthropic 聯(lián)合創(chuàng)始人 Chris Olah 的觀點,他認為 AI 模型是 "更多是生長出來而非被建造的"。換句話說,AI 研究人員已經(jīng)找到提高 AI 模型智能的方法,但他們并不完全明白其中原因。
Amodei 在文章中表示,在不了解這些模型如何運作的情況下,達到 AGI——或者如他所稱的 "數(shù)據(jù)中心中的天才國度"——可能會帶來危險。在之前的一篇文章中,Amodei 曾聲稱科技行業(yè)有望在 2026 或 2027 年達到這一里程碑,但他認為我們在徹底理解這些 AI 模型方面還有很長的路要走。
從長遠來看,Amodei 表示 Anthropic 希望基本上能夠?qū)ψ罴舛说?AI 模型進行 "腦部掃描" 或 "MRI" 檢查。他稱,這些檢查將有助于發(fā)現(xiàn) AI 模型中廣泛存在的問題,包括它們?nèi)鲋e、追求權力或其他弱點的傾向。實現(xiàn)這一目標可能需要五到十年,但他補充道,這些措施對于測試和部署 Anthropic 未來的 AI 模型將是必要的。
Anthropic 已取得了一些研究突破,使其對 AI 模型的工作原理有了更深入的了解。例如,該公司最近找到了一種方法,能夠通過所謂的 circuits (電路) 追蹤 AI 模型的思維路徑。Anthropic 識別出了一條電路,幫助 AI 模型理解哪些美國城市位于哪些美國州內(nèi)。雖然該公司只發(fā)現(xiàn)了少數(shù)幾條這樣的電路,但它估計 AI 模型中可能存在數(shù)百萬條類似的電路。
Anthropic 一直在投資于可解釋性研究,并且最近首次對一家專注于該領域的初創(chuàng)企業(yè)進行了投資。雖然目前可解釋性大多被視為安全研究的一個領域,Amodei 指出,最終解釋 AI 模型如何得出答案可能會帶來商業(yè)優(yōu)勢。
在文章中,Amodei 呼吁 OpenAI 和 Google DeepMind 加大該領域的研究力度。除了這一友好的推動外,這位 CEO 還呼吁各國政府施加 "light-touch" (輕觸式) 監(jiān)管,以鼓勵可解釋性研究,例如要求公司公開其安全和保密措施。Amodei 在文章中還表示,美國應對向中國出口芯片實施管控,以減少全球失控 AI 競賽的可能性。
Anthropic 一直以對安全的關注在 OpenAI 和 Google 中脫穎而出。當其他科技公司對加州有爭議的 AI 安全法案 SB 1047 持反對態(tài)度時,Anthropic 對該法案給予了適度支持并提出了建議。該法案旨在為前沿 AI 模型開發(fā)者設定安全報告標準。
在這種情況下,Anthropic 似乎在推動整個行業(yè)共同努力,以更好地理解 AI 模型,而不僅僅是提升它們的能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.