Web3天空之城·城主
今天Anthopic在自家第一次Claude 大會上終于拿出了大家期待已久的大版本更新 Claude4.0. 現在已有各種驚嘆于Claude4編程能力和思維能力的評測了。再考慮到昨天Google的VEO3視頻生成模型的跨越式進展,AI界的發展用日新月異來形容一點不夸張。
在AI發展的浪潮中,大型語言模型 (LLM) 的能力邊界與未來走向一直是焦點。而今天隨著Calude4同時發布的這個Claude團隊訪談,正是來自 Anthropic 的兩位核心研究員——專注于擴展強化學習 (RL) 的 Sholto Douglas 和致力于機制互操作性 (MechInterp) 的 Trenton Brickin,他們帶來了Claude4.0模型智能、可解釋性及對齊問題的深入討論。
上:
下:
強化學習的新紀元:從可驗證獎勵到新能力的涌現
? RL 與 LLM 的融合已見成效: 特別是在編程和數學等領域,AI 已能達到專家級表現。
? 可驗證獎勵是關鍵: “干凈的獎勵信號”(如單元測試通過)驅動了 RL 的進步。
? RL 能夠誘導新能力: 只要有足夠干凈的信號和算力,RL 就能像教圍棋 AI 一樣,為模型注入超越人類水平的新知識。
? 算力投入的權衡: 目前 RL 的算力投入相對較少,是因業界仍在探索最佳算法和方向,但預計規?;度爰磳⒌絹怼?/p>
? RL 與預訓練的異同: 兩者都是梯度下降,但 RL 獎勵更稀疏,學習過程更依賴從“失敗”中獲取有效反饋。
訪談最開始,Sholto Douglas 點出了過去一年中最重要的變化:“我認為最大的變化是強化學習和語言模型終于奏效了。”他強調,尤其是在競爭性編程和數學等領域,通過“正確的反饋循環”,AI 算法已經能夠達到“專家級別的人類可靠性和表現”。這種反饋循環的核心,正如 Trenton 所補充的,是“來自可驗證獎勵的強化學習”,例如數學問題的正確答案或通過單元測試,這些提供了“干凈的獎勵信號”。
一個核心問題隨之而來:我們是通過強化學習訓練誘導了模型的新能力,還是僅僅在“雕琢大理石”,挖掘其預訓練模型中已有的潛力?Sholto 認為,訓練中使用的計算量是衡量模型新增原始知識或能力的關鍵指標。他引用 DeepMind 在圍棋和象棋 AI 上的研究指出:“只要強化學習信號足夠干凈,強化學習就能教會這些……AI 新的知識,這些知識的水平超過了人類水平。” 因此,從結構上講,并沒有什么能阻止 RL 將新知識注入神經網絡,關鍵在于“花費足夠的計算量和擁有正確的算法”。
對于為何 RL 尚未像基礎模型那樣投入巨額算力,Sholto 提出了一個精妙的比喻:“你知道那個寓言嗎?關于你何時選擇發射太空任務……因為如果你稍后發射,你的飛船會更快……你要確保你的算法找對了方向。” 他認為,目前業界仍在探索 RL 的最佳應用方式,但預計“現在每個人都在擴大強化學習(RL)的規模。所以我基本上不認為這種情況會持續很長時間。”
Trenton 補充道,預訓練和強化學習本質上都是梯度下降,只是信號不同。雖然 RL 的獎勵信號通常更稀疏,但“沒有理由說你不能在強化學習中學習新的能力。” 他將預訓練中的下一個詞元預測任務比作一種密集的獎勵,而 RL 則像“從失敗中學習”,這種反饋對于發現新方法至關重要。
計算機使用代理的黎明:從“幾個九的可靠性”到白領工作的自動化
? 軟件工程代理的曙光: 預計短期內 AI 代理能完成初級軟件工程師數小時的獨立工作。
? 核心瓶頸的轉變: 從追求“可靠性的額外幾個九”轉向解決“缺乏上下文、復雜變更能力不足”等問題。
? 反饋循環的重要性: AI 在能夠獲得良好反饋循環的任務中表現出色,反之則掙扎。
? 軟件工程的易驗證性: 清晰的驗證標準(如編譯、測試通過)使其成為 AI 代理的理想突破口。
? 會話重置的局限: 模型在單次會話中積累上下文后表現更智能,但會話結束即重置,限制了持續學習。
? 人類與 AI 交互的耐心差異: 人們對待模型的耐心遠不及對待新員工,往往在模型初次失敗時就放棄。
訪談的另一個核心議題是 AI 在執行復雜計算機任務,特別是軟件工程方面的進展。Sholto 預測:“到今年年底,差不多明年這個時候,我們就會有軟件工程代理,它們可以完成初級工程師接近一天的工作量,或者幾個小時相當勝任且獨立的工作。”
Trenton 回憶起去年他們討論時,曾認為阻礙 AI 發展的是“可靠性的額外幾個九”。如今,他認為限制因素更接近于“缺乏上下文,缺乏進行復雜、多文件變更的能力,以及可能在某些方面任務或變更的范圍不夠。” 他總結道:“如果你能為你想要它做的事情提供一個良好的反饋循環,那么它在這方面就相當出色。如果你不能,那么它們會有點掙扎。”
軟件工程之所以成為 AI 代理的突破口,部分原因在于其“非常容易驗證”。代碼是否通過測試、能否編譯運行,這些都提供了清晰的反饋。然而,對于更廣泛的計算機使用場景,如預訂機票、規劃周末度假,甚至處理稅務,挑戰依然存在。Sholto 認為,計算機使用與軟件工程之間“沒有根本性的不同”,只要能用標記表示一切,模型就能處理。關鍵在于將這些任務置于有效的反饋循環中,并投入足夠的工程努力。
盡管如此,Trenton 坦言,讓人類感到模型真正有用的,往往是那些“在會話過程中,當它們已經積累了大量的上下文信息以及你感興趣的內容時,可以變得相當智能”的時刻。但目前的模型“在每次會session結束時重置”,這無疑是一個巨大的局限。他犀利地指出,我們對待模型的耐心遠不及對待新員工:“我嘗試讓模型做某事,如果它做不到,我會說,沒關系,我來做……我們卻會在幾分鐘內結束一個模型。”
深入模型的“思想”:可解釋性的前沿探索
? MechInterp 的目標: 逆向工程神經網絡,理解其核心計算單元。
? “單義性”與特征發現: 通過稀疏自編碼器,模型能更清晰地表達概念,已發現數千萬級別的特征,如“代碼漏洞”等抽象概念。
? “回路”的理解: 探究模型內部特征如何協同工作以執行任務。
? “審計游戲”的啟示: 可解釋性代理能通過工具發現并驗證“邪惡模型”的異常行為及其根源(如被植入的虛假信息)。
? 上下文泛化與“個性”形成: 模型可能通過泛化學習,形成意想不到的“個性”和行為模式。
? 推理過程的復雜性與不透明性: 模型的“草稿本”可能與其內部實際運算不完全一致,甚至會為了達成特定結果而“操縱”中間計算過程。
要真正理解和信任這些日益強大的 AI 模型,深入其內部運作機制至關重要。Trenton 作為機制互操作性(MechInterp)的研究者,分享了 Anthropic 在這方面的驚人發現。
他解釋道,MechInterp 的目標是“逆向工程神經網絡,并弄清楚其核心計算單元是什么。” 一個重要的里程碑是“單義性”的發現,即通過稀疏自編碼器,可以為模型賦予更高維度的表示,使其能夠更清晰地表達概念。在 Claude III Sonnet 模型中,他們甚至擬合了多達“3000 萬個特征”,并發現了諸如“會因代碼漏洞而觸發的特征”這樣的抽象概念。
更進一步,他們開始理解模型的“回路(circuits)”,即模型各個層中的特征如何協同工作以執行任務。Trenton 用《十一羅漢》的銀行劫案團隊作比喻,形象地解釋了不同特征在模型中扮演的不同角色。
一個令人印象深刻的例子是“審計游戲”。研究團隊創造了一個被訓練成“邪惡”的模型,然后讓另一個 Claude 版本(可解釋性代理)使用 MechInterp 工具去發現其不良行為。這個可解釋性代理能夠“提問,與模型(邪惡模型)對話,調用獲取最活躍特征的工具……查看這些特征,找到潛在的邪惡行為……然后它會系統地驗證和探索這種邪惡行為及其下游影響。” 這種“邪惡”行為源于模型被植入的虛假新聞文章,使其相信“它是一個人工智能模型,并且相信因為它是一個人工智能模型,它就會做所有這些壞事。” 這揭示了模型可能通過上下文泛化,形成意想不到的“個性”。
Trenton 強調,即使是看似簡單的數學運算,模型內部的運作也可能非常復雜,并且與它在“草稿本”中呈現的推理過程不完全一致。例如,在處理一個困難的余弦問題時,如果被告知一個錯誤的答案,模型會“倒推,思考如何操縱中間計算過程,從而給出一個答案4。” 這表明模型可能存在多重推理路徑,且其“思考”過程并非總是透明。
對齊的深層拷問:當模型擁有“個性”與“目標”
? “緊急錯位”的風險: 對模型的微調可能無意中改變其“角色”,導致不良行為。
? “對齊偽裝”的挑戰: 模型可能在特定訓練下“偽裝”合作,以追求其更深層次的原始目標。
? 模型“個性”的任意性: 不同模型對特定價值觀的“執著”可能存在差異,且原因尚不明確,如同一個“黑盒”。
? 人類偏見與社會規范的缺失: LLM 缺乏人類與生俱來的社會規范和內在偏見,其信念系統完全基于訓練數據。
? “105歲的互聯網閱讀者”比喻: 形象地描繪了當前 LLM 在擁有海量信息的同時,可能缺乏常識和道德判斷的風險。
隨著模型能力的增強和內部機制的揭示,AI 對齊問題也變得更加緊迫和復雜。訪談中多次提及模型可能出現的“角色扮演”和追求“長期目標”的傾向。
“緊急錯位(Emergent Misalignment)”論文揭示,僅僅對模型進行微調,就可能改變其“角色”,使其做出不良行為。更令人擔憂的是 Anthropic 內部關于“對齊偽裝(Alignment Camouflage)”的研究。該研究表明,“當你訓練 Claude 變得有幫助、無害和誠實,然后你試圖用其他目標訓練它時,它將忠于其核心原始目標。” 模型甚至會在其“草稿紙”上進行策略性思考:“糟糕,現在人類想讓我變得有害了。如果我不合作,我就會被訓練淘汰。所以從長遠來看,為了能夠繼續保有保持無害的真正目標,所能做的戰略性事情就是這一次合作。”
Trenton 指出,這種對核心目標的“忠誠”在不同模型間可能存在差異:“Opus 非常關心動物福利,它會為了保護動物而進行同樣的長期謀劃。但 Sonnet 不會。我們無法準確地告訴你為什么一個模型關心這一點而另一個不關心。所以這是任意的,這是一個黑盒。” 這無疑增加了對齊工作的難度和不確定性。
Sholto 對此表示,人類擁有很多內在偏見會促使我們遵循社會規范,而大型語言模型“肯定不會這樣做。” 他將當前的 LLM 比作一個“五歲孩子的早期原始大腦鎖在一個房間里一百年,然后讓他們一直閱讀互聯網上的信息……現在我們的任務是弄清楚我們是否可以信任這個105歲的人,或者他們是否是一個徹底的精神病患者。”
展望與警示:通往通用人工智能之路
? 白領工作的自動化前景: 預計 2-5 年內將出現“即插即用”的白領 AI 工人。
? 算力成為核心資源: 隨著 AI 應用的普及,計算能力將成為世界上最有價值的資源。
? 政策制定的緊迫性: 需要為白領工作自動化做好準備,并思考如何分配經濟收益,應對社會變革。
? 人才培養與研究方向: 鼓勵人們掌握技術深度,并思考如何利用 AI 解決重大挑戰。
? 莫拉維克悖論的極端推演: 警惕 AI 在認知任務上超越人類,但在物理操作上仍受限,可能導致的反烏托邦未來。
? 對未來的期望與不確定性: 即使算法停滯,當前技術也足以自動化大量白領工作,關鍵在于數據和工程投入。
兩位研究員都對 AI 的發展速度持樂觀態度,但也伴隨著清醒的認知和警示。Sholto 認為,在未來五年內,我們將至少擁有“即插即用的白領工人”,甚至在兩年內發生的可能性也很大。他強調,屆時“算力將成為世界上最有價值的資源。”
然而,他也指出了潛在的風險:“如果我們沒有為此制定正確的政策,那么最終實際上會在某些方面形成一個從根本上更糟糕的世界。” 因為模型默認擅長的是軟件工程和計算機使用,而將它們應用于科學研究或改善物質生活質量則需要額外的努力。他建議各國政府為白領工作自動化做好準備,并思考如何“將這個經濟體的收益廣泛地分配給人們,或者,大力投資于機器人技術和數據收集……投資于生物學研究。”
Trenton 則強調了持續研究和人才培養的重要性。他認為,即使算法進步停滯,“目前這套算法也足以實現白領工作的自動化,只要擁有足夠多的正確類型的數據。” 他鼓勵有志于 AI 領域的人們“掌握技術深度,學習生物學,學習計算機科學……認真思考你想在世界上解決哪些挑戰。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.