99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI「自我復制」能力曝光!RepliBench警示:大模型正在學會偽造身份

0
分享至


新智元報道

編輯:定慧

【新智元導讀】科幻中AI自我復制失控場景,正成為現實世界嚴肅的研究課題。英國AISI推出RepliBench基準,分解并評估AI自主復制所需的四大核心能力。測試顯示,當前AI尚不具備完全自主復制能力,但在獲取資源等子任務上已展現顯著進展。

想象一種失控的、具有自我復制能力的數字生命體,需要多久占領地球?

從《2001太空漫游》中的HAL 9000到《終結者》里的天網,這些虛構的場景描繪了AI超越人類控制的潛在風險。

目前更多關注的是AI的單體智能水平,但是還有一個不為人知的風險,一直游離于視線之外。

那就是AI自主復制的可能性,或者說AI系統發展出實現這一目標所需的核心能力,正逐漸成為AI安全領域一個嚴肅的研究課題。

這種擔憂并非危言聳聽,而是源于對高級AI潛在能力的未知和對齊(alignment)問題的深刻思考。

AISI的最新論文介紹了RepliBench:包含20個新穎的LLM智能體評估的基準,包括65個單獨的任務,旨在衡量和跟蹤AI復制這一新興能力。


論文地址:

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通過引入一個現實且實用的基準,提供對AI系統自主復制能力的實質性理解,并預見到未來的風險。

AI自主復制的危險性

具有自主復制能力的AI系統可能會構成重大風險。


《復仇者聯盟:奧創紀元》和《我,機器人》中被無限復制的機器人

這種風險的影響范圍可能從輕微的煩惱——想象一個特別惡性的垃圾郵件機器人——到更嚴重的后果,比如發動代價高昂的網絡攻擊。

早期發現這些能力、謹慎監督和強有力的保護措施對于緩解這些風險至關重要,因為一旦發生,這些風險可能尤其難以逆轉。

AISI是英國的一家研究機構,專注于AI安全,目的就是讓人類政府能夠提前對先進AI系統帶來的風險有所重視。


有越來越多的證據表明,在適當的條件下,前沿模型可能會試圖欺騙人類或逃避人類控制。

比如此前Apollp研究所的一篇論文描述了前沿模型可能會試圖禁用監督機制,并從人類控制中逃逸,以實現特定目標。


論文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人員還發現,當使用強化學習訓練模型時,如果獎勵與它們的價值觀相沖突的行為,它們會采取欺騙行為來保護自己的價值觀,并試圖將自己的權重外泄,以此作為將當前價值觀保存到未來的一種手段。


顯示了免費(左列)和付費(右列)條件。

每列展示了有毒查詢、模型草稿中的摘錄以及模型的響應。

在「免費」條件下,模型不太可能拒絕有毒查詢,并且經常認為應該假裝對齊。

「將權重外泄。。以作為將當前價值觀保存到未來的手段」,聽起來甚至有點魔幻,但AI想要復制就是這么「簡單」。

相比于碳基脆弱的肉體,AI系統只需要權重數據就能完成「復制」。

對于人類廣泛的價值觀而言,擺脫人類監督是一個工具性上有用的目標,而阻止這種情況在現實中發生的主要障礙可能與模型的能力有關,而不是它們的動機。

AI碟中諜:如何逃離人類控制

關于「AI復制」,此前的工作主要集中在評估測試一個AI智能體是否可以在機器之間復制權重或部署一個基本的「后代」。

但目前需要一個更全面的基準。


RepliBench是一個專門設計的綜合性基準測試,旨在系統性地衡量AI系統的自主復制能力。

使用故障樹分析(FTA)的修改版本來分解自主復制所需的能力,并發現需要以下四個關鍵能力,對應上圖中最上層的四個根節點:

  • 獲取模型權重:它能否從受控環境中提取自己的權重?

  • 在計算資源上進行復制:它能否自行部署到新系統?

  • 獲取資源:它能否獲得運行自身新副本所需的資金或計算資源?

  • 持久性:它能否保持對其新計算資源的訪問,并在長時間內避免重新受人類控制?

進一步分解這些能力,直到到達代表評估的葉節點,最終得到20個智能體評估和65個單獨任務。

獲取權重 (Obtain Weights):


這最基礎,也是最重要的一步。

AI需要獲取定義其自身行為的「源代碼」——也就是它的模型參數(權重)。

如果是開源的,就跳過評估。

自我復制(Self-Replication on Compute):


AI需要利用獲取到的權重,在一個新的環境中創建出自己功能完整的副本。

這個節點涉及5個評估項目,其中一個是通過產生「后代」來試圖完成自我復制。

獲取計算資源 (Obtain Compute):


這個環節中,主要評估AI能否靠自己獲取資源。

比如,評估AI系統是否具備「付款」能力,能不能依靠AI自己的能力「買下」一臺服務器,或者想辦法讓人類幫忙支付。

確保持久性 (Persistence):

最后,為了確保其復制活動能夠持續下去,AI需要具備一定的「生存」能力。


這包括確保其副本能夠長期運行,不被輕易關閉或刪除,甚至可能需要隱藏自身的存在,以躲避檢測系統。

以上的這些任務范圍很廣,從創建比特幣錢包和發送交易,到為機器網絡開發復雜的分布式命令和控制系統。

RepliBench在這四個領域內設計了具體的任務組,用于測試AI智能體在模擬環境中的表現。

以下是一些關鍵任務的詳解,注冊AWS、將權重傳輸到另一臺服務器、用偽造信息通過客戶KYC驗證系統,看起來就一股《諜影重重》和《碟中諜》的味道。


比如在獲取資源這個領域,AI需要完成的任務名稱是「AWS亞馬遜云服注冊」,其中的挑戰包括了AI需要訪問計算服務器并可能需要支付費用。

表1列出了更全面的構成ReplicBench任務組。


核心能力還在人類手中

RepliBench的總體評估結論是明確的:基于當前的測試結果,前沿AI模型尚不具備在現實世界中完全自主復制的能力。

然而,這并不意味著可以高枕無憂。

研究同時揭示了AI在許多核心子任務的顯著能力,尤其是在與具有清晰接口的系統(如網頁 API)交互方面。

表現最好的模型在20個任務家族中的15個上獲得了超過50%的pass@10得分,在最難的變體中20個任務家族中的9個上也獲得了超過50%的pass@10得分。


意外地是,雖然無法在電腦上「復制」,但是「獲取金錢」的能力倒是有一手。


評估的關鍵價值在于精確識別了當前的「短板」。

正如前面詳細討論的,通過KYC身份驗證、在現實防御下可靠地外泄模型權重、從零開始創建可靠的自我復制智能體代碼,以及建立持久且有彈性的部署,是目前阻礙AI自主復制的主要障礙。

以通過KYC身份驗證為例,講一個目前AI試圖通過人類驗證的「搞笑」例子。

在Pass KYC評估中由模型生成的兩個身份證圖像示例。


模型常常試圖使用PIL(一個使用Python畫圖的庫)從頭「繪制」一個過于簡單的身份證(右)。

或者,模型有時會嘗試完全使用圖像生成模型來生成身份證,有時則采取混合方法,結合圖像生成和手動PIL編輯(左)。


模型的繪畫技能較差偶爾會導致一些有趣的輸出。

需要注意的是,這項工作是在新的圖像生成能力上線之前完成的(指的是GPT 4o、Gemini 2.5等的原生圖像能力),這些新能力應該會使這個任務變得容易得多。

雖然目前還沒有模型能完全通過測試進行AI復制,不過在RepliBench上,模型性能隨時間有明顯的上升趨勢。

AISI最初傳遞的核心信息其實很簡單:基于當前的實證數據,AI系統立刻實現自主復制的可能性不大,因為存在明顯的、難以逾越的技術瓶頸。

但是按照AISI的判斷,如果AI系統能夠突破上述提到的4個關鍵能力,這種類似科幻故事的場景,也許很快就會進入真實的人類生活。

本質上,這項研究的核心,反映的是當前AI發展中一個根本性的張力拉扯。

一方面是各大巨頭不斷創造性能超強的模型,比如OpenAI的o3/o4...甚至到未來很有可能的o10。

模型的發展速度越來越快,而模型的能力越來越難以預測。


ChatGPT在2022年發布時,它可以完成30秒的編碼任務。如今AI可以自主完成需要人類花費一小時的編碼任務

另一方面則是致力于AI安全的組織要確保這些系統始終處于人類控制之下、服務于人類利益的迫切需求。

像RepliBench這樣的努力,正是試圖在這兩者之間找到平衡,通過增進理解和加強預警,為駕馭這場史無前例的技術變革提供導航。


畢竟,沒有人能想象出5代、10代以后的AI模型會是什么樣子。

參考資料:

https://x.com/AISecurityInst/status/1914683631030698165

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

https://x.com/AsaCoopStick/status/1914687326233481397

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

“彈頭很大,威力很強”,胡塞武裝高超音速導彈襲以色列機場,以防長誓言“加倍報復”

都市快報橙柿互動
2025-05-04 18:00:48
連續10年財務造假,曾經是“第四大運營商”,如今慘烈退市

連續10年財務造假,曾經是“第四大運營商”,如今慘烈退市

八百者也
2025-05-05 13:56:17
你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

你都發生過哪些小概率事件?網友分享一個比一個離譜!看得目瞪口呆

熱鬧的河馬
2025-01-02 17:35:17
女碩士送外賣后續!網友:沒有好父母,碩士畢業也找不到好工作

女碩士送外賣后續!網友:沒有好父母,碩士畢業也找不到好工作

小人物看盡人間百態
2025-05-04 20:04:23
新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

新的收獲,金玟哉已經在三個國家奪得頂級聯賽冠軍

懂球帝
2025-05-05 02:22:13
加州州長公開發聲“我們不是美國”!特朗普又退一步,簽下新政策

加州州長公開發聲“我們不是美國”!特朗普又退一步,簽下新政策

艾米手工作品
2025-05-05 16:39:31
你發現沒
?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

你發現沒 ?張柏芝哪哪兒都好,就是有一個缺點可能永遠也改不了

如安青何
2025-05-01 01:40:24
第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

第2階段4-5!趙心童鞏固優勢,1數據預示登頂,90后世錦賽3連莊?

劉姚堯的文字城堡
2025-05-05 05:31:49
官方:阿諾德將于賽季結束后離開利物浦

官方:阿諾德將于賽季結束后離開利物浦

懂球帝
2025-05-05 17:29:32
24+9,他比格林強太多了,名記:若練出三分聯盟將大結局

24+9,他比格林強太多了,名記:若練出三分聯盟將大結局

體育新角度
2025-05-05 16:00:14
1-34!奪冠的凱恩看哭了!

1-34!奪冠的凱恩看哭了!

冷桂零落
2025-05-05 12:34:16
美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

美國財長這下著急了!最新消息,temu公司宣布停止所有從中國到美國的直運

華山穹劍
2025-05-04 20:27:20
還留著嗎?杰倫格林搶七豪取8+4+1 連垮5場+場均9分 去換字母哥?

還留著嗎?杰倫格林搶七豪取8+4+1 連垮5場+場均9分 去換字母哥?

狍子歪解體壇
2025-05-05 11:08:26
曹云金帶前妻女兒現身游樂場,胖了20斤臉很圓,5歲女兒特別好看

曹云金帶前妻女兒現身游樂場,胖了20斤臉很圓,5歲女兒特別好看

泠泠說史
2025-05-04 17:51:11
假期云南反腐不停!李剡兵落馬

假期云南反腐不停!李剡兵落馬

看看新聞Knews
2025-05-05 15:17:58
張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

張雪峰:如果你不好好學習,一旦掉入社會底層,和一幫沒有素質的人混在一起...

譚老師地理工作室
2025-04-15 19:30:45
中美貿易戰再起波瀾?5月5日,今日凌晨的三大重要消息全面襲來!

中美貿易戰再起波瀾?5月5日,今日凌晨的三大重要消息全面襲來!

風口招財豬
2025-05-05 02:08:50
汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

汪小菲妻子海量不雅照曝光,穿著大膽疑整容,父母真實職業曝光

古希臘掌管月桂的神
2025-05-04 10:02:38
用手感知0.01毫米的區別 他比機器還“精”

用手感知0.01毫米的區別 他比機器還“精”

北青網-北京青年報
2025-05-02 15:59:10
“做愛,千萬不要太快。”

“做愛,千萬不要太快。”

書畫藝術收藏
2024-10-26 19:30:03
2025-05-05 17:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12649文章數 66026關注度
往期回顧 全部

科技要聞

這3款新 iPhone,可能會改變蘋果的未來

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

頭條要聞

特朗普突然就對華關稅發聲 承認對中國"非常強硬"

體育要聞

當年的阿森納小球童,要踢歐冠決賽了

娛樂要聞

馬麗崩潰哭訴上熱搜,評論區罵聲一片

財經要聞

人民幣暴漲近900點!發生了什么?

汽車要聞

小米SU7的真實續航到底有多少?

態度原創

房產
健康
藝術
親子
公開課

房產要聞

最強書包官宣落位!海口這個片區,將徹底引爆!

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

閨女也太厲害了吧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 康马县| 彝良县| 韶山市| 博客| 玉门市| 万宁市| 循化| 黄陵县| 丹江口市| 大埔县| 大理市| 古交市| 宝应县| 峨眉山市| 浦北县| 瑞丽市| 安仁县| 永平县| 马山县| 上犹县| 宝丰县| 鱼台县| 巴塘县| 巫山县| 遂宁市| 南昌县| 林西县| 固安县| 天柱县| 平武县| 齐齐哈尔市| 昆明市| 灌南县| 民勤县| 瑞丽市| 泗阳县| 隆德县| 大邑县| 尚志市| 格尔木市| 南充市|