杰夫·克倫(Jeff Clune)是前 OpenAI 研究團隊負(fù)責(zé)人,目前他在加拿大英屬哥倫比亞大學(xué)擔(dān)任教授。
(來源:https://www.cs.ubc.ca/people/jeff-clune)
出生于新加坡的英國帝國理工學(xué)院本科校友張卓婷,則是杰夫·克倫團隊的一名博士生。
圖 | 張卓婷(來源:張卓婷)
最近,杰夫·克倫團隊提出一種名為達爾文哥德爾機器(DGM,Darwin G?del Machine)的算法,張卓婷是相關(guān)論文的第一作者。
張卓婷告訴 DeepTech:“據(jù)我們所知這是第一個能以持續(xù)、開放的方式修改自身代碼,進而實現(xiàn) AI 智能體的自我經(jīng)驗驗證和迭代式自我改進的算法。”
達爾文哥德爾機器的編碼基準(zhǔn)測試成績能夠?qū)崿F(xiàn)大幅的自動提高,在軟件工程能力基準(zhǔn)測試 SWE-bench 上其成績從 20.0% 提高到 50.0%,在代碼評測基準(zhǔn) Polyglot 上其成績從 14.2% 提高到 30.7%。
達爾文哥德爾機器將使人類距離這樣一種 AI 更進一步:這種 AI 的特征是它不僅能夠?qū)W習(xí),還能在一個開放式、自我加速的軌跡中不斷演化。并且,該系統(tǒng)完全無正式證明,只需根據(jù)基準(zhǔn)經(jīng)驗驗證進行自我修改,就能讓系統(tǒng)根據(jù)所觀察到的結(jié)果進行改進和探索。
張卓婷表示:“這種方法類似于生物進化,生物所發(fā)生的突變和適應(yīng)性變化并不是事先驗證的,而是先產(chǎn)生、再試驗,然后通過自然選擇進行篩選。”
對于達爾文哥德爾機器來說,它能自主地生成和評估新智能體,并能將它們積累在不斷增長的解決方案檔案中。
由于上述原理與達爾文進化論非常相似,即都是通過從先前發(fā)現(xiàn)的解決方案檔案中選擇一個實體,對其進行修改并在必要的情況下保留它從而實現(xiàn)新的創(chuàng)新,因此張卓婷等人將該算法命名為達爾文哥德爾機。
至關(guān)重要的是,由于自我改進任務(wù)是一項編碼任務(wù),通過增強其編碼能力,達爾文哥德爾機器也提高了自我改進的能力,這種開放式的探索能夠幫助人們打造更優(yōu)秀編碼智能體。
同時,通過以安全和可追溯的方式,達爾文哥德爾機能夠?qū)崿F(xiàn)自主的基于經(jīng)驗的自我修改,從而能夠解決在構(gòu)建通用型自我進化 AI 系統(tǒng)時所面臨的長期挑戰(zhàn)。
(來源:arXiv)
彌補哥德爾機器的不足
當(dāng)前大多數(shù) AI 系統(tǒng)仍然受限于固定的、由人類設(shè)計的架構(gòu),只能在預(yù)設(shè)的邊界內(nèi)學(xué)習(xí),無法自主重寫自己的源代碼來自我改進。因此,AI 的每一次進步仍然在很大程度上依賴于人類干預(yù),而這會限制它們的進步速度。
那么,能否以既安全又自動化的方式讓 AI 實現(xiàn)自我進步?想象這樣一個 AI 系統(tǒng):它像科學(xué)發(fā)現(xiàn)本身一樣,能成為推動自身進步的引擎。它能在過去的基礎(chǔ)上不斷自我構(gòu)建、遞歸式地自我改進,從而推動自己發(fā)展更高級的能力。
此前的方法例如元學(xué)習(xí)(Meta-Learning)和神經(jīng)架構(gòu)搜索,嚴(yán)重依賴于人類設(shè)計的搜索空間,并且通常只能產(chǎn)生漸進式的一階改進。此外,之前的理論框架比如德國計算機科學(xué)家于爾根·施密德胡伯(Jürgen Schmidhuber)在 2007 年提出的哥德爾機器(G?del Machine),已經(jīng)提出通過代碼修改來實現(xiàn)自我改進的數(shù)學(xué)構(gòu)想。
但是,由于難以在現(xiàn)實環(huán)境中證明復(fù)雜自我修改的影響,這些理論在很大程度上仍然缺乏實用性。為了解決這些局限性,張卓婷等人提出了達爾文哥德爾機器。
張卓婷在論文中寫道,哥德爾機器是一種通過數(shù)學(xué)證明來尋找自我改進方法的理論型 AI 構(gòu)想。本次提出的達爾文哥德爾機器試圖實現(xiàn)這一長期愿景,同時放寬了哥德爾機器理論中“必須用數(shù)學(xué)證明改進有效性”這一不切實際的要求,轉(zhuǎn)而通過實驗獲得的實證證據(jù)來驗證新版本系統(tǒng)的性能提升。由于依賴經(jīng)驗性改進證據(jù),達爾文哥德爾機器在浩瀚的潛在系統(tǒng)搜索空間(即所有可計算算法)中可能會陷入局部最優(yōu)解。為此,達爾文哥德爾機器在搜索過程中會維護一個已發(fā)現(xiàn)解決方案的存檔庫,通過開放式探索、而非僅僅演化單一解決方案來突破限制。這種從存檔庫選取既有方案進行修改、保留具有創(chuàng)新性產(chǎn)出的機制,與達爾文進化論的核心思想相呼應(yīng)。
近期有研究表明,通過對智能體設(shè)計要素(如提示詞、工作流、工具等)進行元學(xué)習(xí)改進可提升此類智能體性能,而這些要素均編碼于其代碼庫中。為此,張卓婷等人將自我改進定義為對智能體自身組件設(shè)計(即自身代碼)進行修改的編碼任務(wù)。這樣做的關(guān)鍵原因在于:實證證據(jù)必須同時反映系統(tǒng)自我改進與解決下游任務(wù)的能力。通過將達爾文哥德爾機器配置為編碼智能體并測試其編碼能力,證明它不僅能實現(xiàn)下游任務(wù)的性能提升,也證明它具備持續(xù)自我改進的潛力,原因在于這種自我改進本質(zhì)上是修改智能體自身代碼庫的編碼任務(wù)。
據(jù)了解,達爾文哥德爾機器從單一初始編碼智能體出發(fā),進而逐步構(gòu)建所有已發(fā)現(xiàn)智能體的存檔庫。在每一輪迭代中,系統(tǒng)選擇父代智能體進行自我修改并分支產(chǎn)生新智能體。對于父代選擇概率來說,它大致與其性能得分以及具有代碼庫編輯功能的子代數(shù)量成正比。每個被選中的父代會分析自身基準(zhǔn)測試日志,進而提出待實現(xiàn)的新功能特性,并將該提案作為待執(zhí)行問題陳述接收。隨后父代將建議特性實現(xiàn)到自身代碼庫中,從而生成新的編碼智能體。每個新生智能體需要通過指定的編碼基準(zhǔn)測試,來量化評估其編碼能力。而只有成功編譯且保留代碼庫編輯能力的個體才會被納入存檔庫(這意味著唯有這些個體能持續(xù)自我修改),其余均會被淘汰。通過持續(xù)循環(huán)“父代選擇-自我修改-評估”流程,解決方案存檔庫會被不斷擴展。值得注意的是,存檔方案可能會成為后續(xù)改進的墊腳石,這種特性使得達爾文哥德爾機器與爬山式智能體設(shè)計方法存在本質(zhì)差異。
(來源:arXiv)
“無心插柳”之發(fā)現(xiàn):達爾文哥德爾機器亦能用于識別幻覺和糾正幻覺
據(jù)了解,達爾文哥德爾機器的第一個概念經(jīng)歷了多輪構(gòu)思和批判性反饋,隨后張卓婷等人定下了初步研究計劃。
期間,他們遇到的一個關(guān)鍵障礙便是大模型的幻覺。在本次研究的一個案例里,他們發(fā)現(xiàn)當(dāng) Claude 3.5 Sonnet 的輸入上下文很長時,往往會產(chǎn)生工具使用的幻覺,即它會以純文本形式進行工具的輸入和輸出,而非以調(diào)用工具的方式。
例如,Claude 會聲稱它已經(jīng)進行了必要的測試,并表示所有測試都已經(jīng)通過,但事實上它沒有進行任何測試,所報告的結(jié)果也完全是捏造的。
一開始,張卓婷等人并沒有意識到 Claude 已經(jīng)在連續(xù)幾周的時間里持續(xù)產(chǎn)生了幻覺。在這種不知情的情況下,他們耗費大量時間調(diào)試為什么系統(tǒng)輸出與研究預(yù)期不一樣。“意識到問題的那一刻既令人沮喪又讓人感到有趣,就像意識到你一直在和一個非常自信的朋友爭論,而這個朋友卻一直在胡編亂造一樣。”張卓婷表示。
為了解決這個問題,張卓婷等人開始思考:為什么不直接使用本次提出的達爾文哥德爾機器來自動修復(fù)系統(tǒng)呢?
正因此,原本他們只是想用達爾文哥德爾機器在 Claude 上展示編碼能力,結(jié)果卻“無心插柳”地發(fā)現(xiàn)達爾文哥德爾機器還能用于識別幻覺和糾正幻覺。
長期目標(biāo):實現(xiàn)全方位的自主修改和自我迭代
張卓婷表示,達爾文哥德爾機器這樣一個由代碼和開放式探索驅(qū)動的框架,其美妙之處在于它的通用性。如果進度是可以衡量的,并且由代碼充當(dāng)媒介,那么達爾文哥德爾機器可以為任何這類任務(wù)進行優(yōu)化。無論編碼領(lǐng)域還是其他領(lǐng)域,達爾文哥德爾機器都可以通過“使用可測量的性能作為自我改進的指導(dǎo)”來適應(yīng)這一領(lǐng)域。
更重要的是,通過外部引導(dǎo)達爾文哥德爾機器還能改善自己的安全機制。如前所述,它能識別和糾正大模型行為中的幻覺,這突顯了它的自我改進潛力,也意味著隨著時間的推移它將變得更加安全和可靠。
盡管達爾文哥德爾機器能夠修改自己代碼的能力開辟了令人興奮的可能性,但是如果只關(guān)注基準(zhǔn)性能而不考慮安全性或一致性也會帶來風(fēng)險。
為了解決這個問題,張卓婷等人在研究中實施了沙盒執(zhí)行、嚴(yán)格的時間限制和可追溯日志等保護措施。雖然目前暫時沒有觀察到有害行為,但是隨著能力的增長,她認(rèn)為仍需對于達爾文哥德爾機器的安全性保持謹(jǐn)慎。
(來源:arXiv)
截至目前,張卓婷等人只在代碼領(lǐng)域演示了達爾文哥德爾機器。雖然代碼是一種高度通用和富有表現(xiàn)力的媒介,但有些任務(wù)可能依賴于超出代碼本身所能表示的模式。目前,大多數(shù) AI 系統(tǒng)都是由人類構(gòu)建的,部署后基本保持不變。但是,如果能夠構(gòu)建一個不斷改進的 AI:讓它重寫自己的代碼、更新它所使用的工具,甚至重新訓(xùn)練底層的基礎(chǔ)模型呢?
正如人類可以重新設(shè)計 AI 系統(tǒng)的所有部分一樣,達爾文哥德爾機器的長期目標(biāo)是能夠自主修改和改進自身的方方面面。也就是說,達爾文哥德爾機器的更廣泛愿景是創(chuàng)建隨著時間推移能夠完全重新設(shè)計和改進自己的 AI 系統(tǒng)。
張卓婷表示,預(yù)計這將是一個重大飛躍。讓 AI 學(xué)習(xí)如何改進自己,并能隨著時間推移變得更好,就像給 AI 提供了成為科學(xué)家的工具。想象一下,AI 系統(tǒng)不僅能自己解決問題,還能找出更好的方法來解決新問題,比如編寫更好的代碼、幫助發(fā)現(xiàn)新藥、設(shè)計更安全的技術(shù)等。
而達爾文哥德爾機器已經(jīng)朝著這個方向邁出了第一步,這表明 AI 可以開始掌控自己的進步。盡管目前仍有大量工作要做,但是張卓婷等人希望實現(xiàn)的是,AI 不僅會自我學(xué)習(xí)還能更快地進化。
未來:
她希望實現(xiàn)的第一個新能力是:將單個編碼智能體擴展到多智能體設(shè)置之中,在該設(shè)置之中整個智能體檔案可以相互修改。這意味著智能體能夠模仿人類的互動,在這種互動之中,智能體的成長和決策不僅會受到自己的經(jīng)歷的影響,還受到周圍的影響。
她希望實現(xiàn)的第二個新能力是:在智能體改進的同時共同發(fā)展任務(wù)分配。正如在自然進化中,每一次適應(yīng)都會重塑環(huán)境并帶來新的挑戰(zhàn)從而推動進一步的變異一樣,這種共同進化循環(huán)也能推動智能體的持續(xù)進步和日益增長。
預(yù)計隨著智能體能力的提高,任務(wù)分配的復(fù)雜性和范圍也能不斷發(fā)展,這反過來能夠指導(dǎo)智能體的后續(xù)修改,從而形成一個相互促進的動態(tài)反饋循環(huán)。
參考資料:
https://arxiv.org/pdf/2505.22954
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.