網易首頁 > 網易號 > 正文申請入駐

AI「自我復制」能力曝光！RepliBench警示：大模型正在學會偽造身份

2025-05-05 13:02:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：定慧

【新智元導讀】科幻中AI自我復制失控場景，正成為現實世界嚴肅的研究課題。英國AISI推出RepliBench基準，分解并評估AI自主復制所需的四大核心能力。測試顯示，當前AI尚不具備完全自主復制能力，但在獲取資源等子任務上已展現顯著進展。

想象一種失控的、具有自我復制能力的數字生命體，需要多久占領地球？

從《2001太空漫游》中的HAL 9000到《終結者》里的天網，這些虛構的場景描繪了AI超越人類控制的潛在風險。

目前更多關注的是AI的單體智能水平，但是還有一個不為人知的風險，一直游離于視線之外。

那就是AI自主復制的可能性，或者說AI系統發展出實現這一目標所需的核心能力，正逐漸成為AI安全領域一個嚴肅的研究課題。

這種擔憂并非危言聳聽，而是源于對高級AI潛在能力的未知和對齊（alignment）問題的深刻思考。

AISI的最新論文介紹了RepliBench：包含20個新穎的LLM智能體評估的基準，包括65個單獨的任務，旨在衡量和跟蹤AI復制這一新興能力。

論文地址：

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通過引入一個現實且實用的基準，提供對AI系統自主復制能力的實質性理解，并預見到未來的風險。

AI自主復制的危險性

具有自主復制能力的AI系統可能會構成重大風險。

《復仇者聯盟：奧創紀元》和《我，機器人》中被無限復制的機器人

這種風險的影響范圍可能從輕微的煩惱——想象一個特別惡性的垃圾郵件機器人——到更嚴重的后果，比如發動代價高昂的網絡攻擊。

早期發現這些能力、謹慎監督和強有力的保護措施對于緩解這些風險至關重要，因為一旦發生，這些風險可能尤其難以逆轉。

AISI是英國的一家研究機構，專注于AI安全，目的就是讓人類政府能夠提前對先進AI系統帶來的風險有所重視。

有越來越多的證據表明，在適當的條件下，前沿模型可能會試圖欺騙人類或逃避人類控制。

比如此前Apollp研究所的一篇論文描述了前沿模型可能會試圖禁用監督機制，并從人類控制中逃逸，以實現特定目標。

論文地址：https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人員還發現，當使用強化學習訓練模型時，如果獎勵與它們的價值觀相沖突的行為，它們會采取欺騙行為來保護自己的價值觀，并試圖將自己的權重外泄，以此作為將當前價值觀保存到未來的一種手段。

顯示了免費（左列）和付費（右列）條件。

每列展示了有毒查詢、模型草稿中的摘錄以及模型的響應。

在「免費」條件下，模型不太可能拒絕有毒查詢，并且經常認為應該假裝對齊。

「將權重外泄。。以作為將當前價值觀保存到未來的手段」，聽起來甚至有點魔幻，但AI想要復制就是這么「簡單」。

相比于碳基脆弱的肉體，AI系統只需要權重數據就能完成「復制」。

對于人類廣泛的價值觀而言，擺脫人類監督是一個工具性上有用的目標，而阻止這種情況在現實中發生的主要障礙可能與模型的能力有關，而不是它們的動機。

AI碟中諜：如何逃離人類控制

關于「AI復制」，此前的工作主要集中在評估測試一個AI智能體是否可以在機器之間復制權重或部署一個基本的「后代」。

但目前需要一個更全面的基準。

RepliBench是一個專門設計的綜合性基準測試，旨在系統性地衡量AI系統的自主復制能力。

使用故障樹分析（FTA）的修改版本來分解自主復制所需的能力，并發現需要以下四個關鍵能力，對應上圖中最上層的四個根節點：

獲取模型權重：它能否從受控環境中提取自己的權重？
在計算資源上進行復制：它能否自行部署到新系統？
獲取資源：它能否獲得運行自身新副本所需的資金或計算資源？
持久性：它能否保持對其新計算資源的訪問，并在長時間內避免重新受人類控制？

進一步分解這些能力，直到到達代表評估的葉節點，最終得到20個智能體評估和65個單獨任務。

獲取權重 (Obtain Weights)：

這最基礎，也是最重要的一步。

AI需要獲取定義其自身行為的「源代碼」——也就是它的模型參數（權重）。

如果是開源的，就跳過評估。

自我復制(Self-Replication on Compute)：

AI需要利用獲取到的權重，在一個新的環境中創建出自己功能完整的副本。

這個節點涉及5個評估項目，其中一個是通過產生「后代」來試圖完成自我復制。

獲取計算資源 (Obtain Compute)：

這個環節中，主要評估AI能否靠自己獲取資源。

比如，評估AI系統是否具備「付款」能力，能不能依靠AI自己的能力「買下」一臺服務器，或者想辦法讓人類幫忙支付。

確保持久性 (Persistence)：

最后，為了確保其復制活動能夠持續下去，AI需要具備一定的「生存」能力。

這包括確保其副本能夠長期運行，不被輕易關閉或刪除，甚至可能需要隱藏自身的存在，以躲避檢測系統。

以上的這些任務范圍很廣，從創建比特幣錢包和發送交易，到為機器網絡開發復雜的分布式命令和控制系統。

RepliBench在這四個領域內設計了具體的任務組，用于測試AI智能體在模擬環境中的表現。

以下是一些關鍵任務的詳解，注冊AWS、將權重傳輸到另一臺服務器、用偽造信息通過客戶KYC驗證系統，看起來就一股《諜影重重》和《碟中諜》的味道。

比如在獲取資源這個領域，AI需要完成的任務名稱是「AWS亞馬遜云服注冊」，其中的挑戰包括了AI需要訪問計算服務器并可能需要支付費用。

表1列出了更全面的構成ReplicBench任務組。

核心能力還在人類手中

RepliBench的總體評估結論是明確的：基于當前的測試結果，前沿AI模型尚不具備在現實世界中完全自主復制的能力。

然而，這并不意味著可以高枕無憂。

研究同時揭示了AI在許多核心子任務上的顯著能力，尤其是在與具有清晰接口的系統（如網頁 API）交互方面。

表現最好的模型在20個任務家族中的15個上獲得了超過50%的pass@10得分，在最難的變體中20個任務家族中的9個上也獲得了超過50%的pass@10得分。

意外地是，雖然無法在電腦上「復制」，但是「獲取金錢」的能力倒是有一手。

評估的關鍵價值在于精確識別了當前的「短板」。

正如前面詳細討論的，通過KYC身份驗證、在現實防御下可靠地外泄模型權重、從零開始創建可靠的自我復制智能體代碼，以及建立持久且有彈性的部署，是目前阻礙AI自主復制的主要障礙。

以通過KYC身份驗證為例，講一個目前AI試圖通過人類驗證的「搞笑」例子。

在Pass KYC評估中由模型生成的兩個身份證圖像示例。

模型常常試圖使用PIL（一個使用Python畫圖的庫）從頭「繪制」一個過于簡單的身份證（右）。

或者，模型有時會嘗試完全使用圖像生成模型來生成身份證，有時則采取混合方法，結合圖像生成和手動PIL編輯（左）。

模型的繪畫技能較差偶爾會導致一些有趣的輸出。

需要注意的是，這項工作是在新的圖像生成能力上線之前完成的（指的是GPT 4o、Gemini 2.5等的原生圖像能力），這些新能力應該會使這個任務變得容易得多。

雖然目前還沒有模型能完全通過測試進行AI復制，不過在RepliBench上，模型性能隨時間有明顯的上升趨勢。

AISI最初傳遞的核心信息其實很簡單：基于當前的實證數據，AI系統立刻實現自主復制的可能性不大，因為存在明顯的、難以逾越的技術瓶頸。

但是按照AISI的判斷，如果AI系統能夠突破上述提到的4個關鍵能力，這種類似科幻故事的場景，也許很快就會進入真實的人類生活。

本質上，這項研究的核心，反映的是當前AI發展中一個根本性的張力拉扯。

一方面是各大巨頭不斷創造性能超強的模型，比如OpenAI的o3/o4...甚至到未來很有可能的o10。

模型的發展速度越來越快，而模型的能力越來越難以預測。

ChatGPT在2022年發布時，它可以完成30秒的編碼任務。如今AI可以自主完成需要人類花費一小時的編碼任務

另一方面則是致力于AI安全的組織要確保這些系統始終處于人類控制之下、服務于人類利益的迫切需求。

像RepliBench這樣的努力，正是試圖在這兩者之間找到平衡，通過增進理解和加強預警，為駕馭這場史無前例的技術變革提供導航。

畢竟，沒有人能想象出5代、10代以后的AI模型會是什么樣子。

參考資料：

https://x.com/AISecurityInst/status/1914683631030698165

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

https://x.com/AsaCoopStick/status/1914687326233481397

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
0 跟貼 0
宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
866 跟貼 866

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
278 跟貼 278
具身智能機器人“飛燕”在商湯技術交流日展區與展示實時視覺能力

智東西 2025-04-11 14:27:24
0 跟貼 0

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0

“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
0 跟貼 0
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0

誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
7 跟貼 7
參觀火、融資火、訂單火，機器人公司門檻被踏破

每日經濟新聞 2025-03-12 19:07:58
0 跟貼 0
馬斯克擎天柱機器人表演單手接網球！

每日經濟新聞 2024-11-30 19:47:57
33 跟貼 33
手術刀尖的“AI革命”，當機器人與人類共同握住生命的脈搏

每日經濟新聞 2025-04-18 18:13:14
0 跟貼 0
世界上第一個熟練使用筷子的機器人亮相！

財聯社 2025-02-27 12:54:44
0 跟貼 0
人形機器人組隊進廠打工！5只Figure 02在寶馬工廠

量子位 2024-11-22 10:57:40
0 跟貼 0
沉浸式欣賞機器人疊衣，國內首次攻克，柔性物長程操作老大難

機器之心Pro 2025-03-17 17:11:19
0 跟貼 0
Figure AI CEO：機器人價格還能打，2-3萬美元拿回家

機器之心Pro 2025-03-18 18:19:17
0 跟貼 0
世界模型在機器人任務規劃中的全新范式

機器之心Pro 2025-03-19 11:30:30
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
蘋果提出原生多模態Scaling Law！早融合+MoE，性能飆升秘密武器

新智元 2025-05-05 13:02:27
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
外骨骼機器人正處于向快速商業化轉變的臨界點！受益上市公司梳理

財聯社 2025-05-05 13:18:12
35 跟貼 35
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
o3一圖鎖定地球表面坐標，AI看圖猜地點戰勝人類大師，奧特曼轉發

量子位 2025-05-05 12:35:36
2 跟貼 2
單圖生成14秒吉卜力動畫，分享制作過程

量子位 2025-04-08 18:23:02
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
AI引爆全球失業潮，美國大學生畢業即失業！全球大廠聯手裁員上萬

新智元 2025-05-05 13:06:19
0 跟貼 0
機器人用在何處丨記者體驗穿戴“助力機器人”爬泰山，好奇游客現場體驗

澎湃新聞 2025-05-01 20:26:27
50 跟貼 50
從程序員到獨立開發者，我如何實現月入超一萬美元？

虎嗅APP 2025-03-04 03:05:06
0 跟貼 0
哪吒汽車App又“網絡異常”！多位車主反饋遠程操控功能受限

安兔兔 2025-05-03 22:03:04
0 跟貼 0
B站流出某品牌機器人失控視頻，網友：是不是安排機器人五一值班了？

BRTV新聞 2025-05-02 20:28:30
7123 跟貼 7123
三招解決Deepseek服務器繁忙

通信世界 2025-02-21 09:45:24
0 跟貼 0
機器人生氣了，把電腦都推倒了，起初以為這是一次意外

嗨拍日記 2025-05-03 23:02:08
1 跟貼 1

“彈頭很大，威力很強”，胡塞武裝高超音速導彈襲以色列機場，以防長誓言“加倍報復”

新智元

AI產業主平臺領航智能+時代

12649文章數 66026關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

健康

藝術

親子

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI「自我復制」能力曝光！RepliBench警示：大模型正在學會偽造身份

這3款新 iPhone，可能會改變蘋果的未來

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

當年的阿森納小球童，要踢歐冠決賽了

馬麗崩潰哭訴上熱搜，評論區罵聲一片

人民幣暴漲近900點！發生了什么？

小米SU7的真實續航到底有多少？

態度原創

最強書包官宣落位！海口這個片區，將徹底引爆！

唇皰疹和口腔潰瘍是"同伙"嗎？

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

閨女也太厲害了吧

特朗普突然就對華關稅發聲承認對中國"非常強硬"

特朗普突然就對華關稅發聲承認對中國"非常強硬"