杰夫·克倫(Jeff Clune)是前 OpenAI 研究團隊負責人,目前他在加拿大英屬哥倫比亞大學擔任教授。
(來源:https://www.cs.ubc.ca/people/jeff-clune)
出生于新加坡的英國帝國理工學院本科校友張卓婷,則是杰夫·克倫團隊的一名博士生。
圖 | 張卓婷(來源:張卓婷)
最近,杰夫·克倫團隊提出一種名為達爾文哥德爾機器(DGM,Darwin G?del Machine)的算法,張卓婷是相關論文的第一作者。
張卓婷告訴 DeepTech:“據我們所知這是第一個能以持續(xù)、開放的方式修改自身代碼,進而實現 AI 智能體的自我經驗驗證和迭代式自我改進的算法。”
達爾文哥德爾機器的編碼基準測試成績能夠實現大幅的自動提高,在軟件工程能力基準測試 SWE-bench 上其成績從 20.0% 提高到 50.0%,在代碼評測基準 Polyglot 上其成績從 14.2% 提高到 30.7%。
達爾文哥德爾機器將使人類距離這樣一種 AI 更進一步:這種 AI 的特征是它不僅能夠學習,還能在一個開放式、自我加速的軌跡中不斷演化。并且,該系統(tǒng)完全無正式證明,只需根據基準經驗驗證進行自我修改,就能讓系統(tǒng)根據所觀察到的結果進行改進和探索。
張卓婷表示:“這種方法類似于生物進化,生物所發(fā)生的突變和適應性變化并不是事先驗證的,而是先產生、再試驗,然后通過自然選擇進行篩選。”
對于達爾文哥德爾機器來說,它能自主地生成和評估新智能體,并能將它們積累在不斷增長的解決方案檔案中。
由于上述原理與達爾文進化論非常相似,即都是通過從先前發(fā)現的解決方案檔案中選擇一個實體,對其進行修改并在必要的情況下保留它從而實現新的創(chuàng)新,因此張卓婷等人將該算法命名為達爾文哥德爾機。
至關重要的是,由于自我改進任務是一項編碼任務,通過增強其編碼能力,達爾文哥德爾機器也提高了自我改進的能力,這種開放式的探索能夠幫助人們打造更優(yōu)秀編碼智能體。
同時,通過以安全和可追溯的方式,達爾文哥德爾機能夠實現自主的基于經驗的自我修改,從而能夠解決在構建通用型自我進化 AI 系統(tǒng)時所面臨的長期挑戰(zhàn)。
(來源:arXiv)
彌補哥德爾機器的不足
當前大多數 AI 系統(tǒng)仍然受限于固定的、由人類設計的架構,只能在預設的邊界內學習,無法自主重寫自己的源代碼來自我改進。因此,AI 的每一次進步仍然在很大程度上依賴于人類干預,而這會限制它們的進步速度。
那么,能否以既安全又自動化的方式讓 AI 實現自我進步?想象這樣一個 AI 系統(tǒng):它像科學發(fā)現本身一樣,能成為推動自身進步的引擎。它能在過去的基礎上不斷自我構建、遞歸式地自我改進,從而推動自己發(fā)展更高級的能力。
此前的方法例如元學習(Meta-Learning)和神經架構搜索,嚴重依賴于人類設計的搜索空間,并且通常只能產生漸進式的一階改進。此外,之前的理論框架比如德國計算機科學家于爾根·施密德胡伯(Jürgen Schmidhuber)在 2007 年提出的哥德爾機器(G?del Machine),已經提出通過代碼修改來實現自我改進的數學構想。
但是,由于難以在現實環(huán)境中證明復雜自我修改的影響,這些理論在很大程度上仍然缺乏實用性。為了解決這些局限性,張卓婷等人提出了達爾文哥德爾機器。
張卓婷在論文中寫道,哥德爾機器是一種通過數學證明來尋找自我改進方法的理論型 AI 構想。本次提出的達爾文哥德爾機器試圖實現這一長期愿景,同時放寬了哥德爾機器理論中“必須用數學證明改進有效性”這一不切實際的要求,轉而通過實驗獲得的實證證據來驗證新版本系統(tǒng)的性能提升。由于依賴經驗性改進證據,達爾文哥德爾機器在浩瀚的潛在系統(tǒng)搜索空間(即所有可計算算法)中可能會陷入局部最優(yōu)解。為此,達爾文哥德爾機器在搜索過程中會維護一個已發(fā)現解決方案的存檔庫,通過開放式探索、而非僅僅演化單一解決方案來突破限制。這種從存檔庫選取既有方案進行修改、保留具有創(chuàng)新性產出的機制,與達爾文進化論的核心思想相呼應。
近期有研究表明,通過對智能體設計要素(如提示詞、工作流、工具等)進行元學習改進可提升此類智能體性能,而這些要素均編碼于其代碼庫中。為此,張卓婷等人將自我改進定義為對智能體自身組件設計(即自身代碼)進行修改的編碼任務。這樣做的關鍵原因在于:實證證據必須同時反映系統(tǒng)自我改進與解決下游任務的能力。通過將達爾文哥德爾機器配置為編碼智能體并測試其編碼能力,證明它不僅能實現下游任務的性能提升,也證明它具備持續(xù)自我改進的潛力,原因在于這種自我改進本質上是修改智能體自身代碼庫的編碼任務。
據了解,達爾文哥德爾機器從單一初始編碼智能體出發(fā),進而逐步構建所有已發(fā)現智能體的存檔庫。在每一輪迭代中,系統(tǒng)選擇父代智能體進行自我修改并分支產生新智能體。對于父代選擇概率來說,它大致與其性能得分以及具有代碼庫編輯功能的子代數量成正比。每個被選中的父代會分析自身基準測試日志,進而提出待實現的新功能特性,并將該提案作為待執(zhí)行問題陳述接收。隨后父代將建議特性實現到自身代碼庫中,從而生成新的編碼智能體。每個新生智能體需要通過指定的編碼基準測試,來量化評估其編碼能力。而只有成功編譯且保留代碼庫編輯能力的個體才會被納入存檔庫(這意味著唯有這些個體能持續(xù)自我修改),其余均會被淘汰。通過持續(xù)循環(huán)“父代選擇-自我修改-評估”流程,解決方案存檔庫會被不斷擴展。值得注意的是,存檔方案可能會成為后續(xù)改進的墊腳石,這種特性使得達爾文哥德爾機器與爬山式智能體設計方法存在本質差異。
(來源:arXiv)
“無心插柳”之發(fā)現:達爾文哥德爾機器亦能用于識別幻覺和糾正幻覺
據了解,達爾文哥德爾機器的第一個概念經歷了多輪構思和批判性反饋,隨后張卓婷等人定下了初步研究計劃。
期間,他們遇到的一個關鍵障礙便是大模型的幻覺。在本次研究的一個案例里,他們發(fā)現當 Claude 3.5 Sonnet 的輸入上下文很長時,往往會產生工具使用的幻覺,即它會以純文本形式進行工具的輸入和輸出,而非以調用工具的方式。
例如,Claude 會聲稱它已經進行了必要的測試,并表示所有測試都已經通過,但事實上它沒有進行任何測試,所報告的結果也完全是捏造的。
一開始,張卓婷等人并沒有意識到 Claude 已經在連續(xù)幾周的時間里持續(xù)產生了幻覺。在這種不知情的情況下,他們耗費大量時間調試為什么系統(tǒng)輸出與研究預期不一樣。“意識到問題的那一刻既令人沮喪又讓人感到有趣,就像意識到你一直在和一個非常自信的朋友爭論,而這個朋友卻一直在胡編亂造一樣。”張卓婷表示。
為了解決這個問題,張卓婷等人開始思考:為什么不直接使用本次提出的達爾文哥德爾機器來自動修復系統(tǒng)呢?
正因此,原本他們只是想用達爾文哥德爾機器在 Claude 上展示編碼能力,結果卻“無心插柳”地發(fā)現達爾文哥德爾機器還能用于識別幻覺和糾正幻覺。
長期目標:實現全方位的自主修改和自我迭代
張卓婷表示,達爾文哥德爾機器這樣一個由代碼和開放式探索驅動的框架,其美妙之處在于它的通用性。如果進度是可以衡量的,并且由代碼充當媒介,那么達爾文哥德爾機器可以為任何這類任務進行優(yōu)化。無論編碼領域還是其他領域,達爾文哥德爾機器都可以通過“使用可測量的性能作為自我改進的指導”來適應這一領域。
更重要的是,通過外部引導達爾文哥德爾機器還能改善自己的安全機制。如前所述,它能識別和糾正大模型行為中的幻覺,這突顯了它的自我改進潛力,也意味著隨著時間的推移它將變得更加安全和可靠。
盡管達爾文哥德爾機器能夠修改自己代碼的能力開辟了令人興奮的可能性,但是如果只關注基準性能而不考慮安全性或一致性也會帶來風險。
為了解決這個問題,張卓婷等人在研究中實施了沙盒執(zhí)行、嚴格的時間限制和可追溯日志等保護措施。雖然目前暫時沒有觀察到有害行為,但是隨著能力的增長,她認為仍需對于達爾文哥德爾機器的安全性保持謹慎。
(來源:arXiv)
截至目前,張卓婷等人只在代碼領域演示了達爾文哥德爾機器。雖然代碼是一種高度通用和富有表現力的媒介,但有些任務可能依賴于超出代碼本身所能表示的模式。目前,大多數 AI 系統(tǒng)都是由人類構建的,部署后基本保持不變。但是,如果能夠構建一個不斷改進的 AI:讓它重寫自己的代碼、更新它所使用的工具,甚至重新訓練底層的基礎模型呢?
正如人類可以重新設計 AI 系統(tǒng)的所有部分一樣,達爾文哥德爾機器的長期目標是能夠自主修改和改進自身的方方面面。也就是說,達爾文哥德爾機器的更廣泛愿景是創(chuàng)建隨著時間推移能夠完全重新設計和改進自己的 AI 系統(tǒng)。
張卓婷表示,預計這將是一個重大飛躍。讓 AI 學習如何改進自己,并能隨著時間推移變得更好,就像給 AI 提供了成為科學家的工具。想象一下,AI 系統(tǒng)不僅能自己解決問題,還能找出更好的方法來解決新問題,比如編寫更好的代碼、幫助發(fā)現新藥、設計更安全的技術等。
而達爾文哥德爾機器已經朝著這個方向邁出了第一步,這表明 AI 可以開始掌控自己的進步。盡管目前仍有大量工作要做,但是張卓婷等人希望實現的是,AI 不僅會自我學習還能更快地進化。
未來:
她希望實現的第一個新能力是:將單個編碼智能體擴展到多智能體設置之中,在該設置之中整個智能體檔案可以相互修改。這意味著智能體能夠模仿人類的互動,在這種互動之中,智能體的成長和決策不僅會受到自己的經歷的影響,還受到周圍的影響。
她希望實現的第二個新能力是:在智能體改進的同時共同發(fā)展任務分配。正如在自然進化中,每一次適應都會重塑環(huán)境并帶來新的挑戰(zhàn)從而推動進一步的變異一樣,這種共同進化循環(huán)也能推動智能體的持續(xù)進步和日益增長。
預計隨著智能體能力的提高,任務分配的復雜性和范圍也能不斷發(fā)展,這反過來能夠指導智能體的后續(xù)修改,從而形成一個相互促進的動態(tài)反饋循環(huán)。
參考資料:
https://arxiv.org/pdf/2505.22954
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.