網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

達爾文哥德爾機：自我改進智能體的開放式演化

2025-06-19 16:36:15　來源: 人工智能學(xué)家

北京舉報

分享至

https://arxiv.org/abs/2505.22954

來源：CreateAMind

Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents

達爾文哥德爾機：自我改進智能體的開放式演化

摘要

當(dāng)今大多數(shù)人工智能系統(tǒng)都受到人類設(shè)計的固定架構(gòu)的限制，無法自主地、持續(xù)地進行自我改進。而科學(xué)方法則提供了一種累積性且開放式的系統(tǒng)，每一次創(chuàng)新都建立在以往成果的基礎(chǔ)之上，從而推動未來的發(fā)現(xiàn)。人們越來越希望當(dāng)前人工推進AI發(fā)展的過程本身可以被自動化。如果能夠安全地實現(xiàn)這種自動化，將加速AI的發(fā)展，并讓我們更早地享受到其帶來的益處。這一前景引發(fā)了一個問題：AI系統(tǒng)如何在不斷解決相關(guān)問題的過程中無止境地自我提升？

之前的方法如元學(xué)習(xí)（meta-learning）為自動發(fā)現(xiàn)新算法提供了工具集，但受限于人類對合適搜索空間的設(shè)計以及一階改進。另一方面，哥德爾機（G?del machine）[116]提出了一種理論上具有自我改進能力的AI框架，能夠以可證明有益的方式修改自身。然而，由于無法證明大多數(shù)自我修改的實際影響，原始版本在現(xiàn)實中幾乎不可能實現(xiàn)。

為了解決這一局限性，我們提出了達爾文哥德爾機（Darwin G?del Machine, DGM），這是一種新型的自我改進系統(tǒng)。它通過迭代修改自己的代碼（同時也改進自己修改代碼的能力），并使用編程基準(zhǔn)測試對每項更改進行實證驗證。本文中，DGM旨在優(yōu)化基于凍結(jié)基礎(chǔ)模型的編碼代理的設(shè)計，這些代理具備通過工具使用來讀寫和執(zhí)行代碼的能力。

受生物進化和開放式演化研究的啟發(fā)，DGM維護一個生成的編碼代理檔案庫，并從中采樣，嘗試創(chuàng)建出新的、有趣且改進后的代理版本。這種開放式探索形成了一個不斷增長的、多樣化的高質(zhì)量代理樹狀結(jié)構(gòu)，并允許在搜索空間中并行探索許多不同的路徑。

實證結(jié)果顯示，DGM能夠自動提升其編碼能力（例如更好的代碼編輯工具、長上下文窗口管理、同行評審機制），在SWE-bench上的表現(xiàn)從20.0%提升到50.0%，在Polyglot上從14.2%提升到30.7%。此外，DGM顯著優(yōu)于沒有自我改進或開放式探索的基線方法。所有實驗均采取了安全措施（如沙箱隔離、人工監(jiān)督）。總體而言，DGM代表了通向自我改進型AI的重要一步，它能夠在一條不斷展開的創(chuàng)新路徑上自主積累“墊腳石”。本項目所有代碼均已開源：https://github.com/jennyzzt/dgm。

1 引言

科學(xué)進步是累積性的和開放式的，每一次突破都建立在無數(shù)先前洞見的基礎(chǔ)之上。同樣，我們最先進的AI系統(tǒng)也是建立在長期創(chuàng)新的基礎(chǔ)上的。例如，Transformer [131]作為當(dāng)前大型語言模型（LLMs）[14]的核心架構(gòu)，并非孤立出現(xiàn)，而是建立在多年來的研究成果之上，如循環(huán)神經(jīng)網(wǎng)絡(luò) [51, 110] 和注意力機制 [7, 64, 101]。然而，目前大多數(shù)AI系統(tǒng)仍然受限于由人類設(shè)計的固定架構(gòu)，它們只能在預(yù)設(shè)邊界內(nèi)學(xué)習(xí)，無法自主重寫自己的源代碼來進行自我改進。因此，AI發(fā)展的每一次進步仍然嚴(yán)重依賴于人類干預(yù)，限制了進步的速度。

本文探討了安全自動化尋找更優(yōu)AI的可能性。我們可以想象一種AI系統(tǒng)，就像科學(xué)發(fā)現(xiàn)本身一樣，成為推動自身進步的引擎：建立在過去的基礎(chǔ)上，遞歸式地自我改進，并朝著更高級的能力邁進。

Schmidhuber [116] 提出了一類數(shù)學(xué)嚴(yán)謹(jǐn)?shù)摹⒕哂凶灾感院妥晕腋倪M能力的問題求解器。它依賴形式化證明來支持代碼重寫，確保任何自我修改都是可證明有益的。然而，在實踐中，若不做出對系統(tǒng)的嚴(yán)格假設(shè)，通常很難正式證明一項對AI系統(tǒng)的修改是否真的有益。例如，雖然看起來讓基于LLM的編碼代理訪問更多工具（如代碼搜索、測試運行器）是有益的，但實際效果高度依賴于模型的訓(xùn)練和任務(wù)背景（例如在一個設(shè)置中優(yōu)化的測試工具可能在其他設(shè)置中反而會誤導(dǎo)代理）。

因此，我們不再要求形式化證明，而是通過基準(zhǔn)測試對自我修改進行實證驗證，使系統(tǒng)可以根據(jù)觀察結(jié)果進行改進和探索。這種方法類似于生物進化：突變和適應(yīng)并不是預(yù)先驗證的，而是被生成、試驗，并通過自然選擇篩選出來。我們也從達爾文進化論 [25] 中獲得靈感，研究維護一個先前發(fā)現(xiàn)的代理庫的有效性，作為未來代際發(fā)展的“墊腳石”。

我們提出了達爾文哥德爾機（Darwin G?del Machine, DGM），這是一個具有自指性和自我改進能力的系統(tǒng)，能夠編寫和修改自己的代碼，以成為一個更好的編碼代理。每次自我修改都需要DGM編輯自己的代碼庫。我們使用Python語言，它是圖靈完備的，這意味著DGM理論上可以構(gòu)建任何可計算的機器。

我們的框架設(shè)想了一種能夠重寫自身訓(xùn)練腳本的代理（包括訓(xùn)練一個新的基礎(chǔ)模型FM）。但在本文中我們并未展示這一點，因為訓(xùn)練基礎(chǔ)模型計算成本高昂，也會引入額外的復(fù)雜性，這將留作未來工作。相反，本文專注于利用凍結(jié)的預(yù)訓(xùn)練基礎(chǔ)模型（如工具使用、工作流程）來改進編碼代理的設(shè)計。

DGM在自我修改階段和評估階段之間交替進行。在自我修改階段，從代理檔案庫中選擇的編碼代理會生成自身的修改版本；在評估階段，每個修改后的代理會在編碼基準(zhǔn)測試中接受測試，評估其編碼能力，然后添加到檔案庫中。通過在這個循環(huán)中不斷提升自身能力，DGM不僅在解決編碼任務(wù)方面變得更強大，也更擅長未來的自我改進。

我們的一項關(guān)鍵假設(shè)是：在編碼基準(zhǔn)測試中的性能提升意味著更強的編碼能力，從而也意味著更強的自我修改和自我改進能力。此外，DGM維護一個生成的編碼代理檔案庫，初始時僅包含一個代理，并隨著時間推移不斷積累所有生成的變體。

為了支持持續(xù)的自我改進，DGM借鑒了開放式演化研究 [35, 36, 134] 的思想，積累多樣化的“墊腳石”——即那些有趣但尚未最優(yōu)的解決方案或功能，它們可能會促成未來的重大突破。這種開放式探索鼓勵發(fā)現(xiàn)超越即時性能提升的新穎且潛在有用的自我修改方式。

我們展示了在兩個編程基準(zhǔn)測試上的結(jié)果：SWE-bench [60] 和 Polyglot [104]。DGM 在 SWE-bench 上的性能從 20.0% 自動提升到了 50.0%，在 Polyglot 上則從 14.2% 提升到了 30.7%。我們證明了自我改進能夠帶來持續(xù)的進步，因為 DGM 的表現(xiàn)優(yōu)于一個基線模型——該基線使用相同的初始代理反復(fù)修改并生成新代理，但不具備自我改進能力。

我們還表明，開放式探索以及保存所有先前生成代理的檔案庫有助于發(fā)現(xiàn)更優(yōu)秀的編碼代理。DGM 優(yōu)于一個不具備開放式探索能力的基線模型（即沒有積累具有有趣差異性的“墊腳石”檔案庫的模型），在該基線中，編碼代理始終基于自身最新版本進行構(gòu)建。

總體而言，DGM 代表了向能夠繼承自身先前創(chuàng)新并遞歸改進的人工智能系統(tǒng)邁進的重要一步。我們廣泛地考慮并討論了安全性問題，包括沙箱隔離和自我修改的可追溯性，以確保負責(zé)任的實驗操作（見第5節(jié)）。通過推進安全、自指性、自我改進模型的可能性，DGM 使我們更接近于實現(xiàn)一種不僅能夠?qū)W習(xí)、還能像科學(xué)本身一樣，沿著開放式、自我加速的路徑不斷演化的AI。

2 相關(guān)工作

開放式演化（Open-Endedness）
推動無界限創(chuàng)新的一個重大挑戰(zhàn)是設(shè)計能夠持續(xù)生成新穎且可學(xué)習(xí)的人工智能系統(tǒng) [126]。在此基礎(chǔ)上，Hughes 等人 [56] 將開放式定義為一個系統(tǒng)持續(xù)生成新穎且從觀察者角度來看具有可學(xué)習(xí)性的產(chǎn)物的能力。核心難點在于如何結(jié)構(gòu)化并探索巨大的搜索空間，以持續(xù)產(chǎn)出對人類來說有趣的成果 [20, 59]。

早期的研究通過質(zhì)量-多樣性算法 [17, 90, 94, 105]、目標(biāo)導(dǎo)向探索方法 [2, 30, 32, 33, 113]、內(nèi)在動機機制 [72, 75, 100, 103] 或?qū)W習(xí)進展框架 [9, 21, 23, 27, 40, 58, 61, 117, 118] 來應(yīng)對這一挑戰(zhàn)。最近，大規(guī)模基礎(chǔ)模型（Foundation Models, FMs）[14, 106] 成為了衡量“有趣性”的有效代理 [35, 112, 148]，并作為有效的變異算子來提出新的代碼解決方案 [35, 53, 73, 97, 108]。

FMs 可以引導(dǎo)自驅(qū)動型智能體（autotelic agents）[22–24]，模擬人類對質(zhì)量和多樣性的偏好 [13, 29, 47, 66, 67, 78, 111, 133]，設(shè)計獎勵函數(shù) [35, 85, 132]，創(chuàng)建模擬環(huán)境 [1, 15, 92, 93, 102, 129]，推動不斷演化的多智能體動態(tài) [28, 153]，探索各種行走機器人的形態(tài) [73]，以及在廣泛的解空間中進行基準(zhǔn)或目標(biāo)優(yōu)化 [35, 36, 53, 62, 69, 79, 82–84, 97, 108, 148]。

然而，這些方法尚未實現(xiàn)自我改進的閉環(huán)，即：在下游任務(wù)上的改進并不能轉(zhuǎn)化為更強的自我修改能力或進一步創(chuàng)新的加速。我們希望模仿科學(xué)與技術(shù)進步中的那種加速過程，在其中新工具和新發(fā)現(xiàn)能催化更多新發(fā)現(xiàn)的誕生。同樣地，我們?nèi)绾文苣M自然進化的軌跡？它不僅朝向復(fù)雜性發(fā)展，也朝著不斷增強進化能力的方向前進 [26, 41, 49]？

元學(xué)習(xí)FM智能體（Meta-Learning FM Agents）
許多基于基礎(chǔ)模型的智能體是人工設(shè)計的。一些基本模塊包括提示工程 [18, 119]、思維鏈 [45, 52, 77, 91, 136, 138, 144]、自我反思 [86, 121, 138]、多智能體辯論 [62, 76]、記憶機制 [80, 89, 152]、溫度采樣 [155] 和檢索增強生成 [74]。

這些組件的手動組合限制了系統(tǒng)的潛力，使其受限于人類設(shè)計者的創(chuàng)造力。近年來，出現(xiàn)了一些利用FM自動優(yōu)化提示詞 [19, 34, 36, 63, 141, 143] 和設(shè)計智能體模塊 [38, 95, 96, 109, 128, 139, 140, 147, 149, 150, 154, 156] 的元學(xué)習(xí)方法。

自動化智能體系統(tǒng)設(shè)計（ADAS）[53] 通過一個固定的元智能體迭代生成下游智能體，評估它們在目標(biāo)基準(zhǔn)上的表現(xiàn)，并將反饋納入后續(xù)代際的優(yōu)化中。相比之下，DGM 是一個統(tǒng)一的系統(tǒng)，既能解決下游任務(wù)（如編程問題），又能改進自身的實現(xiàn)方式（即其代碼庫），從而無需依賴固定、手工設(shè)計的元智能體，并實現(xiàn)自指性的改進。

自我改進AI（Self-Improving AI）
早在早期，就有研究人員提出了關(guān)于自我改進的各種理論和概念性方法 [42, 115, 116]。一些實用的自動化自我改進方法包括基于神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)化的系統(tǒng) [46, 48, 50, 65, 81]。

Metz 等人 [88] 開發(fā)了一種基于梯度的優(yōu)化器，并使用一種群體訓(xùn)練（population-based training）的變體對其進行自指性的元訓(xùn)練。Lange 等人 [68] 將該方法擴展到了無梯度學(xué)習(xí)領(lǐng)域。Silver 等人 [122] 利用自我博弈（self-play）持續(xù)進化智能體，在國際象棋和圍棋等復(fù)雜領(lǐng)域?qū)崿F(xiàn)了超越人類的表現(xiàn)。

更接近 DGM 的是一些近期利用基于FM的智能體進行自我改進的方法 [54, 55, 107, 123, 140, 145]。Zelikman 等人[145] 使用一個元智能體（meta-agent）來生成下游智能體，并根據(jù)生成的解決方案所推導(dǎo)出的元效用（meta-utility）來更新元智能體。Yin 等人 [140] 則使用一個單一系統(tǒng)，既用于解決下游任務(wù)，也用于遞歸地修改自身。然而，下游任務(wù)或元效用并不總是與自我改進所需的能力保持一致。在 DGM 中，下游任務(wù)上的改進直接反映出自我改進能力的提升，從而實現(xiàn)了自我加速進步的潛力。

最接近我們工作的是 Robeyns 等人 [107] 的同期研究，他們同樣采用一個單一智能體遞歸地解決編程問題并修改自身的代碼庫。DGM 與 Robeyns 等人 [107] 的主要區(qū)別在于，DGM 擁有一個開放式探索循環(huán)（open-ended exploration loop），鼓勵進行超越即時性能提升的自我修改，從而避免陷入次優(yōu)的自我修改陷阱并導(dǎo)致停滯不前。

3 達爾文哥德爾機

哥德爾機是一種理論上的AI構(gòu)想，它會尋找能夠被形式化證明可以改進自身的方法 [116]。在本文中，我們提出了達爾文哥德爾機（Darwin G?del Machine, DGM），這是對實現(xiàn)哥德爾機這一長期夢想的一次嘗試。

DGM 放寬了哥德爾機那種不切實際的要求——即必須從理論上證明某項改動會帶來系統(tǒng)提升，轉(zhuǎn)而要求通過實驗獲得實證證據(jù)來表明所提出的版本確實提升了性能。

此外，由于 DGM 依賴于實證證據(jù)來判斷改進，它可能會在可能系統(tǒng)的巨大搜索空間（即所有可計算的算法）中陷入局部最優(yōu)。為了解決這個問題，DGM 在搜索過程中維護一個已發(fā)現(xiàn)解決方案的檔案庫，從而促進開放式探索（open-ended exploration），而不是僅僅演化單一解決方案。

由于其原理與達爾文進化論 [25] 相呼應(yīng)：新創(chuàng)新是通過從先前發(fā)現(xiàn)的解決方案檔案庫中選擇一個實體、對其進行修改、并在其表現(xiàn)出新穎性時保留下來而產(chǎn)生的 [35, 125, 148]，我們將我們的算法稱為“達爾文哥德爾機”。

自指性的編碼代理自我改進（Self-referential Self-improvement of Coding Agents）

DGM 最初只包含一個編碼代理，并通過編程基準(zhǔn)測試來評估其演進過程。我們定義的編碼代理是一個單一系統(tǒng)，由一個代碼倉庫實現(xiàn)，基于凍結(jié)的預(yù)訓(xùn)練基礎(chǔ)模型（Foundation Models, FMs），具備讀寫和執(zhí)行代碼的能力。

近期的研究 [53, 149] 表明，通過對這些代理的設(shè)計（如提示詞、工作流程和工具）進行元學(xué)習(xí)，可以對其加以改進，而這些設(shè)計又是通過代碼倉庫實現(xiàn)的。因此，我們將自我改進定義為一種涉及修改代理自身組件（即其自身代碼）的編碼任務(wù)。

關(guān)鍵動機在于：實證證據(jù)必須反映出系統(tǒng)在自我改進和解決下游任務(wù)兩方面的能力。通過將 DGM 配置為一個編碼代理并測試其編碼能力，觀察到的改進不僅展示了在下游任務(wù)中的性能提升，也體現(xiàn)了進一步自我改進的能力，因為自我改進本質(zhì)上就是一個修改編碼代理自身代碼倉庫的編碼任務(wù)。

基于種群的開放式探索（Population-based Open-ended Exploration）

DGM 從一個初始的編碼代理開始，逐步構(gòu)建起一個所有已發(fā)現(xiàn)代理的檔案庫。在每一次迭代中，DGM 會選擇一些父代代理來自我修改，并分支生成新的代理。

父代選擇機制大致與其性能得分成正比，并考慮其子代中具有代碼編輯功能的數(shù)量（見附錄 A.2）。每個被選中的父代會分析自己的基準(zhǔn)測試評估日志，提出下一個要實現(xiàn)的新功能，并將該提議作為問題陳述來執(zhí)行（見附錄 A.3）。

隨后，該父代將其建議的功能實現(xiàn)到自身的代碼庫中，生成一個新的編碼代理。每一個新生成的代理都會在一個選定的編程基準(zhǔn)上進行定量評估，以估計其編碼能力。

只有那些能夠成功編譯、并保留編輯給定代碼庫能力的代理才會被加入 DGM 的檔案庫中，因為只有它們才具備繼續(xù)自我修改的能力。其他不符合條件的代理則會被丟棄。

父代選擇 → 自我修改 → 評估的循環(huán)不斷重復(fù)，使得解決方案檔案庫逐漸擴大。

值得注意的是，歸檔的解決方案可能在遠晚于其最初發(fā)現(xiàn)的時間點上成為通向重大改進的“墊腳石”，這使我們的方法與爬山式智能體設(shè)計方法 [107] 有顯著不同。

目前，開放式探索過程（即檔案庫維護、父代選擇）是由外部固定的，不能由 DGM 自身修改，我們將此作為未來研究的一個方向。附錄 A.4 展示了 DGM 算法的偽代碼。

4 實驗

第4.1節(jié)描述了實驗設(shè)置，包括用于初始化 DGM 的初始編碼代理。我們在兩個編程基準(zhǔn)測試上進行實驗：SWE-bench [60]和Polyglot [104]（第4.2節(jié)）。對于每個基準(zhǔn)，我們將 DGM 與兩個基線模型進行比較：沒有自我改進機制的 DGM和沒有開放式探索機制的 DGM（第4.3節(jié)）。在所有實驗中，我們發(fā)現(xiàn) DGM 均優(yōu)于這兩個基線，表明自我改進機制和開放式探索對持續(xù)提升性能至關(guān)重要（第4.4節(jié)）。此外，我們還展示了 DGM 所發(fā)現(xiàn)的功能可以在不同的大型語言模型（LLMs）之間遷移（第4.4節(jié)）。

4.1 實驗設(shè)置

DGM 從一個單一的編碼代理開始初始化。該初始代理基于一個基礎(chǔ)模型（FM）構(gòu)建，并增強了工具使用能力 [4, 114]。該基礎(chǔ)模型在每一步自主決定其行為，并選擇它認為合適的工具來執(zhí)行。在初始代理中，基礎(chǔ)模型可以訪問兩種工具：一個 Bash 工具，用于執(zhí)行 bash 命令；一個編輯工具，用于查看和編輯目錄及整個文件（見附錄 A.1）。

代理接收一個輸入提示，指定目標(biāo)代碼倉庫的位置、問題描述以及倉庫中的測試框架（見附錄 A.1）。

我們運行 DGM 共80輪迭代（每輪生成一個新代理），其中 SWE-bench 實驗并行運行兩輪，Polyglot 實驗并行運行四輪（見附錄 A.2）。在自我修改階段，無論是 SWE-bench 還是 Polyglot 實驗，編碼代理均由Claude 3.5 Sonnet (New)[3] 驅(qū)動。在基準(zhǔn)測試評估階段，SWE-bench 使用的是 Claude 3.5 Sonnet (New)，而 Polyglot 使用的是o3-mini[99]。

4.2 基準(zhǔn)測試

SWE-bench 和 Polyglot 都是用來評估 AI 代理自動解決編程任務(wù)能力的基準(zhǔn)測試。給定一個代碼倉庫和一個任務(wù)指令，代理需要對該倉庫進行修改以完成任務(wù)。

這兩個基準(zhǔn)都被廣泛使用 [16, 39, 43, 137, 146, 151]，它們要求 AI 代理能夠?qū)Ш酱a倉庫、理解不同文件中函數(shù)之間的交互關(guān)系，并在復(fù)雜的代碼中發(fā)現(xiàn)小錯誤。

SWE-bench 只包含 Python 任務(wù)，而 Polyglot 包含多種編程語言的任務(wù)。

另一個區(qū)別在于，每個 SWE-bench 任務(wù)可能需要修改多個文件，而每個 Polyglot 任務(wù)主要是在單個文件中從頭實現(xiàn)解決方案（盡管代理仍需查看其他文件以確定所需更改），因此整體上涉及較少的文件修改。

我們選擇了這兩個流行的基準(zhǔn)測試來評估 DGM 在不同編碼任務(wù)方面的能力，從而驗證算法在各種使用場景下的有效性。

SWE-bench

為了避免在無法解決的任務(wù)上浪費計算資源，我們使用SWE-bench Verified[98]，它是 SWE-bench [60] 的一個子集，經(jīng)過人工標(biāo)注篩選，確保每一項任務(wù)都是可解的。

在本文中，“SWE-bench”一詞默認指的是這個經(jīng)過驗證的子集。

Polyglot

Polyglot 包含多種編程語言（C++、Rust、Python 等）的任務(wù) [104]。與 SWE-bench 相比，后者是一個被廣泛使用的編程基準(zhǔn)，很可能已經(jīng)被包含在 FMs 的訓(xùn)練集中，而 Polyglot 更為小眾，不太可能出現(xiàn)在 FMs 的后訓(xùn)練數(shù)據(jù)中。

此外，Polyglot 主要由其開發(fā)者用來評估Aider[39]，這為我們提供了一個機會，將自動設(shè)計的代理與社區(qū)中代表性的人工開發(fā)代理進行對比——后者在過去一年中一直由人類開發(fā)者持續(xù)開發(fā)并針對 Polyglot 基準(zhǔn)進行測試。

最后，Polyglot 能夠測試 DGM 在除 Python 之外的多種編程語言上的泛化能力。

我們采用了類似于 Polyglot 排行榜 [104] 的設(shè)置，但有一個關(guān)鍵區(qū)別：排行榜報告的是 pass@2 性能，即代理可以查看一次真實測試反饋的結(jié)果。相比之下，我們采用的是 pass@1 設(shè)置，即代理永遠看不到真實測試的結(jié)果。

評估策略

由于在完整基準(zhǔn)上進行評估成本高昂（見附錄 B.1），我們采用了一種分階段評估策略來估計編碼代理的表現(xiàn)。

一般來說，當(dāng)我們更有信心某個代理表現(xiàn)較好時，我們會讓它處理更多任務(wù)。

首先，我們讓每個編碼代理在一組10個任務(wù)上進行初步測試，以驗證其基本的代碼庫編輯功能。只有保留代碼編輯能力的代理才能解決下游編程任務(wù)或進一步自我修改。

通過這一初步階段的代理將進入下一階段，在一個擴展的50個任務(wù)集合上接受評估。

對于 SWE-bench，我們根據(jù)SWE-bench-verified-mini[50] 來選取任務(wù)，這是一個代表完整基準(zhǔn)的小型樣本（見附錄 B.2）。

對于 Polyglot，我們則從完整基準(zhǔn)中隨機選取一部分任務(wù)（見附錄 B.3）。

由于我們所使用的 LLMs 本質(zhì)上具有一定的隨機性，其表現(xiàn)可能存在噪聲。我們使用較小的子集評估來估算總體效果，并識別出表現(xiàn)最佳的候選代理。

4.3 基線模型

為了分離并評估 DGM 核心組件的貢獻，我們將 DGM 與兩個基線模型進行比較：沒有自我改進機制的 DGM（DGM w/o self-improve）和沒有開放式探索機制的 DGM（DGM w/o open-ended exploration）。

DGM w/o self-improve模擬了 ADAS [53] 在本實驗設(shè)置中的做法，其中負責(zé)修改編碼代理的元代理在整個實驗過程中始終保持為初始代理不變。這一基線使我們能夠評估迭代式自我改進在加速更優(yōu)編碼代理進化過程中的作用。

DGM w/o open-ended exploration則取消了對檔案庫的使用，始終只對自己的最新版本進行自我修改。如果某個編碼代理在自我修改過程中失去了編輯代碼庫的基本功能，它就無法再修改自身或解決任何編程任務(wù)。因此，DGM w/o open-ended exploration 會保留其仍具備代碼庫編輯基本功能的最新版本。該基線使我們能夠評估擁有一個檔案庫以及開放式探索所具有的、已被廣泛記錄的有益原則 [20, 23, 36, 70, 111, 125, 148] 在引導(dǎo)代理演化方面的影響。

除了這些通過學(xué)習(xí)獲得的基線模型之外，我們還將 DGM 與人工設(shè)計的開源解決方案進行了比較。

對于SWE-bench，我們采用了當(dāng)前最先進的（SoTA）開源解決方案，并且該方案已經(jīng)被驗證過（即 SWE-bench 團隊能夠復(fù)現(xiàn)其結(jié)果）（見附錄 B.4）。

對于Polyglot，我們采用了代表性的代理 Aider [39]，它是開源的，旨在支持多種編程語言和大規(guī)模代碼庫編輯（見附錄 B.5）。

為了進行公平比較，我們在與評估 DGM 所使用的相同基準(zhǔn)子集上測量這些方法的已解決問題比例（見附錄 B.2 和 B.3）。這些數(shù)值在圖2中以水平虛線表示。

4.4結(jié)果

在經(jīng)歷了80輪 DGM 迭代后，編碼代理在SWE-bench上的表現(xiàn)從 20.0% 提升到了 50.0%，在Polyglot上則從 14.0% 提升到了 38.0%（見圖2）。

由于在 Polyglot 實驗設(shè)置中（第4.2節(jié)），DGM 僅在50個任務(wù)上進行評估，我們還額外對初始代理和性能最好的 DGM 發(fā)現(xiàn)代理在整個 Polyglot 基準(zhǔn)測試上進行了評估，以更準(zhǔn)確地估計其提升幅度。

在完整的 Polyglot 基準(zhǔn)上，DGM 將編碼代理的表現(xiàn)從 14.2% 提升到了 30.7%。這表明 DGM 可以自動自我改進，從而生成更優(yōu)秀的編碼代理。

此外，性能最佳的 DGM 發(fā)現(xiàn)代理在 SWE-bench 上的表現(xiàn)與經(jīng)過驗證的、開源的、由人類設(shè)計的最先進方法相當(dāng)（見圖2）。在 Polyglot 上，盡管 DGM 的初始代理表現(xiàn)低于 Aider，但它最終發(fā)現(xiàn)了一個遠超 Aider 的代理（見圖2）。

DGM 所發(fā)現(xiàn)的代理在兩個基準(zhǔn)測試上的表現(xiàn)均與或優(yōu)于人工設(shè)計的代理。雖然目前最先進的 SWE-bench 代理和 Aider 都是通過大量人力精心打造的，但 DGM 展示了一種未來可能性：這種創(chuàng)造力可以被自動化，通過自指性的持續(xù)自我改進循環(huán)來演化。

DGM 自動改進了 FMs 使用的工具及其工作流程（見圖3）。

例如，DGM 增強了編輯工具，使其能夠更細粒度地查看文件（按行查看），以及更精確地編輯文件（通過字符串替換），而不是始終查看或替換整個文件。

工作流程方面的改進包括：嘗試多次解決一個任務(wù)，并使用另一個 FM 來評估并選擇最佳解決方案。其他改進還包括在生成后續(xù)嘗試時考慮之前的嘗試記錄。

附錄 C.1 和 C.2 分別展示了通往 SWE-bench 和 Polyglot 上最終最優(yōu)代理的所有修改過程。

由于開放式探索允許以非零概率從檔案庫中的任意代理分支出來，DGM 能夠跳出性能上的“欺騙性低谷”或“虛假高峰”。

例如，在 SWE-bench 實驗的第4輪和第56輪，盡管代理得分暫時低于其父代，DGM 仍能沿該路徑繼續(xù)探索創(chuàng)新，并創(chuàng)造出一個超越所有前輩的新代理（見圖3）。

此外，開放式探索也允許嘗試實現(xiàn)相同目標(biāo)功能的不同方式。例如，盡管目標(biāo)是提供更細粒度的編輯工具，其實現(xiàn)方式可能大相徑庭，從而導(dǎo)致顯著不同的性能表現(xiàn)（見附錄 D）。DGM 能夠嘗試多種實現(xiàn)方式，找到最合適的一種，避免陷入次優(yōu)方案。

DGM 在兩個基準(zhǔn)測試上都優(yōu)于兩個基線模型：沒有自我改進機制的 DGM（DGM w/o self-improve）和沒有開放式探索機制的 DGM（DGM w/o open-ended exploration）（見圖2）。

如果不更新用于修改編碼代理的元代理，DGM w/o self-improve 在早期迭代中還能提升代理性能，但其收益迅速衰減（見附錄 E.1）。

而在 DGM w/o open-ended exploration 中，只保留最新版本的代理，因此一次糟糕的自我修改會使后續(xù)的改進變得更加困難（見附錄 E.1）。

為了評估 DGM 改進的泛化能力，我們使用不同于優(yōu)化階段所用的 FM 對初始代理（第4.1節(jié)）和 DGM 運行過程中發(fā)現(xiàn)的最佳代理（圖2）進行了測試。

對于 SWE-bench（DGM 使用的是 Claude 3.5 Sonnet (New)），我們替換了 FM 為 Claude 3.7 Sonnet 或 o3-mini，并在200個任務(wù)上進行了評估（圖4，左）：

使用 o3-mini，初始代理得分為 23.0%，DGM 發(fā)現(xiàn)的代理得分為 33.0%；
使用 Claude 3.7 Sonnet，初始代理得分為 19.0%，DGM 發(fā)現(xiàn)的代理得分為 59.5%。

對于 Polyglot（DGM 使用的是 o3-mini），我們替換了 FM 為 Claude 3.5 Sonnet (New) 或 Claude 3.7 Sonnet，并在完整基準(zhǔn)上進行了評估（圖4，中）：

使用 Claude 3.5 Sonnet (New)，初始代理得分為 32.0%，DGM 發(fā)現(xiàn)的代理得分為 33.3%；
使用 Claude 3.7 Sonnet，初始代理得分為 35.6%，DGM 發(fā)現(xiàn)的代理得分為 36.8%。

這些結(jié)果表明，DGM 所帶來的改進具有跨 FM 的泛化能力，而非與其運行期間使用的特定 FM 緊密綁定（見圖4）。

此外，為了評估 DGM 發(fā)現(xiàn)代理在編程語言之間的可遷移性，我們進行了實驗：訓(xùn)練一個僅在 Polyglot 中 Python 任務(wù)上運行的 DGM 版本，然后將所發(fā)現(xiàn)的代理遷移到其他語言的任務(wù)中。

專注于 Python 任務(wù)的訓(xùn)練略微提升了在 Python 任務(wù)上的表現(xiàn)，但在非 Python 任務(wù)上的表現(xiàn)卻不如在所有語言上訓(xùn)練的 DGM（見圖4，右）。

然而，在搜索過程中從 Python 遷移到其他未見過的語言之后，該代理仍然取得了與多語言訓(xùn)練的 DGM 相當(dāng)?shù)谋憩F(xiàn)，并顯著優(yōu)于初始代理和 Aider。

這些結(jié)果展示了所發(fā)現(xiàn)改進的魯棒性，表明它們不會過擬合到某一種特定的編程語言。

5 安全性討論

具備自我改進能力的系統(tǒng)，如 DGM，代表了邁向更自主的人工智能發(fā)展的一步，這與人工智能領(lǐng)域長期以來的目標(biāo)一致：打造能夠造福人類的強大 AI [20, 71, 87, 115]。然而，這種能力也帶來了獨特的安全挑戰(zhàn)，源于系統(tǒng)可以自主修改自身代碼的能力。

如果對代碼的修改僅以基準(zhǔn)測試性能為目標(biāo)進行優(yōu)化，可能會無意中引入漏洞或不符合人類意圖的行為，即使這些修改提升了目標(biāo)指標(biāo) [12]。特別是，如果評估基準(zhǔn)未能全面反映代理應(yīng)具備的所有理想屬性（例如安全性與魯棒性），那么自我改進循環(huán)可能在后續(xù)代際中放大這種不一致性。

迭代式的自我修改還可能導(dǎo)致內(nèi)部邏輯變得越來越復(fù)雜且難以解釋，阻礙人類的理解、監(jiān)督和控制 [6, 37, 44, 120]。

認識到這些挑戰(zhàn)，當(dāng)前 DGM 的實現(xiàn)與實驗設(shè)置中已納入多項安全保障措施。

所有代理的執(zhí)行與自我修改過程都在隔離的沙箱環(huán)境中進行，限制其對主機系統(tǒng)的潛在影響，從而減輕意外行為帶來的風(fēng)險。每次在沙箱中的執(zhí)行都設(shè)有嚴(yán)格的時間限制，以減少資源耗盡或無邊界行為的風(fēng)險。

目前，自我改進過程被限定在一個明確定義的領(lǐng)域內(nèi)——通過修改代理自身的 Python 代碼庫來提升特定編程基準(zhǔn)上的表現(xiàn)，從而限制了潛在修改的范圍。

此外，我們積極監(jiān)控代理的表現(xiàn)和代碼變更，DGM 的檔案庫為所有修改提供了可追溯的歷史記錄供審查。

截至目前，我們尚未發(fā)現(xiàn)生成的代理中存在有害或惡意行為，所有的自我修改主要集中在提升編碼能力上。

相反地，自我改進范式的一個重要潛在益處在于，它原則上也可以被引導(dǎo)用于增強 AI 系統(tǒng)自身的安全性與可解釋性。

我們初步探討了如何在 AI 安全場景中部署 DGM，以開發(fā)應(yīng)對基礎(chǔ)模型幻覺（hallucination）的對策（見附錄 F）。正如 DGM 能夠?qū)W習(xí)提升其編碼能力一樣，只要將相關(guān)屬性納入其評估標(biāo)準(zhǔn)，它就有可能發(fā)現(xiàn)并整合更好的內(nèi)部安全機制，或自行修改以提高透明度（例如，引入類似“憲法式 AI”[Constitutional AI] [8] 的原則）[109]。

這表明了一種有前景但具有挑戰(zhàn)性的路徑：將自我改進本身作為一種工具，用于構(gòu)建更值得信賴的人工智能系統(tǒng)。

進一步的研究還可以探索從一開始就融合“憲法式 AI”的機制，盡管面臨的挑戰(zhàn)是如何激勵系統(tǒng)保留這些指導(dǎo)原則（一個值得探索的選項是創(chuàng)建不可修改的部分，以便在程序終止時評估其余部分）。

DGM 展示了自我改進型 AI 的潛力，同時由于前沿基礎(chǔ)模型（FMs）的當(dāng)前局限性和有效的緩解措施（如沙箱隔離），仍處于安全研究的邊界之內(nèi)。

我們主動加入這一安全性討論，旨在引起人們對自我改進型 AI 系統(tǒng)及其相關(guān)安全影響的關(guān)注，尤其是在這些系統(tǒng)不可避免地變得更加強大的背景下 [10, 11, 20, 31, 142]。

因此，我們倡導(dǎo)持續(xù)研究 AI 生成算法（AI-Generating Algorithms）[20] 和自我改進系統(tǒng)的安全演化路徑，以確保其有益于社會的發(fā)展。

6 結(jié)論與局限性

我們提出了達爾文哥德爾機（Darwin G?del Machine, DGM），這是首個由基礎(chǔ)模型（FMs）驅(qū)動、具備開放式探索能力的自我改進系統(tǒng)，其中在評估基準(zhǔn)上的進步可以直接轉(zhuǎn)化為更強的自我改進能力。

我們展示了 DGM 能夠自動發(fā)現(xiàn)更優(yōu)的工具和 FM 系統(tǒng)，在兩個編程基準(zhǔn)測試——SWE-bench和Polyglot上取得了更好的性能表現(xiàn)。通過自我改進與開放式探索，DGM 展現(xiàn)出持續(xù)的性能提升，使我們向具備自我加速能力的自我改進型 AI 系統(tǒng)邁進了一步。

我們證明了 DGM 能夠自主實現(xiàn)與公開可用解決方案相當(dāng)?shù)男阅堋Ｈ欢壳叭月浜笥陂]源的 SWE-bench 最先進解決方案。

一個尚未解答的問題是：如果我們運行 DGM 更長時間，是否能繼續(xù)帶來性能提升，并最終超越這些閉源方案？

這些閉源方案通常依賴由高技能專家團隊精心設(shè)計的技術(shù)。由于當(dāng)前的基礎(chǔ)模型尚未達到這些專家的能力（例如推理能力），因此 DGM 目前需要大量計算資源來發(fā)現(xiàn)改進。

如第4節(jié)所述，一次完整的 DGM 在 SWE-bench 上的運行大約耗時兩周，并產(chǎn)生高昂的 API 成本（見附錄 B.1）。

我們推測，未來的進展將需要更高效地利用計算資源，并發(fā)展出更強的推理能力。

由于當(dāng)前版本的 DGM 主要依賴基礎(chǔ)模型驅(qū)動，其能力本質(zhì)上受限于底層 FM 的性能。因此，一個令人興奮的未來方向是擴展“自我修改”的范圍，不再局限于提示詞或 FM 工作流程，而是包括更復(fù)雜的操作，例如重寫自身的訓(xùn)練腳本以更新 FM 本身。

雖然當(dāng)前版本的 DGM 聚焦于編碼任務(wù)，但 AI 系統(tǒng)正越來越多地應(yīng)用于廣泛的領(lǐng)域（例如計算機視覺、創(chuàng)意寫作）。另一個有前景的擴展方向是開發(fā)能夠超越編程領(lǐng)域、在多個方面實現(xiàn)自我增強的 AI 系統(tǒng)。

本研究的一個關(guān)鍵假設(shè)是：編程基準(zhǔn)測試能夠很好地反映代理的自我改進能力，因為自我修改任務(wù)要求代理修改自身的代碼庫。然而，人們也可以設(shè)想一種替代方法：讓目標(biāo)任務(wù)分布與系統(tǒng)共同演化，從而擺脫將自我改進綁定于單一目標(biāo)的限制，正如真正開放式過程所體現(xiàn)的那樣。

正如第5節(jié)中所討論的那樣，在探索這一強大技術(shù)的同時，我們必須始終將安全性置于核心位置。

總結(jié)

綜上所述，DGM 代表了在通過自我改進系統(tǒng)實現(xiàn) AI 開發(fā)自動化方面的重要一步，該系統(tǒng)能夠編輯自身的代碼庫。

盡管當(dāng)前在計算能力和推理能力方面的限制阻礙了其全部潛力的發(fā)揮，但隨著基礎(chǔ)模型與基礎(chǔ)設(shè)施的持續(xù)進步，我們有望解鎖更強大、更通用的自我改進機制。

只要安全問題能夠被妥善處理（見第5節(jié)），自我改進型 AI 系統(tǒng)與 AI 生成算法 [20] 的未來將充滿巨大潛力——它將持續(xù)演化 AI，不斷重寫或重新訓(xùn)練自身，以追求與人類價值觀一致的更高能力。

（代碼截圖至P40，如需要請看原文)

原文鏈接：https://arxiv.org/abs/2505.22954

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.