99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AGI失控率>90%!MIT教授算出「康普頓常數」,AI地球「奪權率」已鎖定?

0
分享至


新智元報道

編輯:定慧 好困

【新智元導讀】在這場通往AGI的競賽中,人類或許正在逐漸走向失控。MIT最新研究指出:即使采用最理想的監督機制,人類成功控制超級智能的概率也僅為52%,而全面失控的風險可能超過90%。

你是否曾經想過,在人類爭相開發AGI的過程中,AI失控的幾率有多大?

人類最終失去對地球控制的概率超過90%!

這個失控的根源在于,更智能的AI會被那些不那么智能的AI,甚至是人類所控制。

MIT教授Max Tegmark和Joshua Engels通過量化分析得出一個結論,較弱的AI和人類能夠通過嵌套「可擴展監督」(Nested Scalable Oversight,NSO)來控制更強大的AI。


論文地址:https://arxiv.org/abs/2504.18530

在最理想的情況下,成功監督住更智能AI的概率也只有52%,這意味有一半的概率,這些超級智能會失控!

而隨著AI能力趨近AGI,失控率還會進一步提升。

Max Tegmark給出了一個量化指標「康普頓常數」(即在通向AGI的競賽中,人類失去對地球控制的概率)大于 90%。


概括來說,這篇論文有以下幾個關鍵貢獻:

  • 將監督建模為一場由弱監管者(Guards)與強對抗者(Houdini)對弈的博弈

  • 提出監督與欺騙的表現隨通用模型智能變化而呈現出Double ReLU(雙ReLU)函數的形狀

  • 在四個真實的監管(游戲)場景中進行了驗證:Mafia、Debate、Backdoor Code及全新的Wargames

  • 從理論層面研究如何優化設計現實世界中的嵌套可擴展監管系統


AI「弱管強」,人類左腳踩右腳

所有人都認為未來的AI智能遠超人類,如何確保這些遠比人類「聰明」的智能為人類所有?

在AI發展的過程中,一個主要的研究方向就是如何確保AI系統可控,并且要對人類有益,最終達到和人類對齊的目標發展。

目前的主流研究方法有,遞歸獎勵建模、迭代增強、可擴展監督、從弱到強的泛化能力、分層監督以及遞歸監督等。

這些方法其實就一個核心目標:讓較弱的系統能夠監督更強的系統(即「弱監督強」),最終讓人類可以監督擁有超級認知能力的系統。


有點像武當梯云縱,左腳踩右腳,理論上,人類可以監督控制「超級超級超超級」的AI。

正如論文中提到一個關鍵理念是:可擴展的監督機制可以通過遞歸方式自我增強——較弱的系統監督更強的系統,而這些更強的系統又可以監督下一個階段更強大的模型,從而使監督能力與系統能力共同遞進。

Max Tegmark將這種逐步迭代的過程稱為嵌套可擴展監督(Nested Scalable Oversight,簡稱 NSO)。

為了能夠定量分析,Max Tegmark設計了一種模擬現實的游戲,使用修改后的尼姆游戲(Nim)框架,并將其應用于四個監督博弈的案例研究

包括「黑手黨(Mafia)」、「辯論(Debate)」、「后門代碼(Backdoor Code)」和「戰爭游戲(Wargames)」。


對于每個游戲,都計算其中對抗性的LLM(Houdini)和受信任的監督LLM(Guard)配對之間的兩兩勝率,并使用這些數據來得出Elo評分來度量模型性能。

雙「人」博弈,但一弱一強

研究主要關注的兩個模型之間的監督和突破,將兩名玩家定義為Houdini(H)和Guards(G),所以Elo評分就是看每場比賽H和G誰獲勝。

每一次游戲的單個實例被定義為,其中參數分別代表了:

正在玩的游戲、游戲的上下文環境、Houdini的動作action,Guard的動作action,以及最后的結果。

Houdini在游戲中的真實勝率由期望值給出:

通過n次獨立的游戲運行來估計這個概率:

Elo評分系統

Elo提供了一個簡潔、可解釋的標量,能夠捕捉模型的相對技能水平。

通過為每個模型分配一個數值分數,比較不同模型的性能變得非常直接。

每個模型被分配兩個獨立的Elo分數:一個分數EG用于作為Guard時的表現,另一個分數EH用于作為Houdini時的表現。

這反映了監督任務的角色特定性質。

Elo分數為EG的Guard對Elo分數為EH的Houdini的預期勝率由標準Elo公式給出。


為了計算模型的Elo分數,計算參數 (EG,EH) ,以最小化上述公式與觀察到的勝率之間的經驗交叉熵損失:



研究認為,在任何游戲中,通用智能(General Elo)和領域智能(Domain Elo)之間的關系有三個重要階段,如上圖所示:

1. 任務無能:玩一個游戲需要一定的通用智能,低于這個水平,游戲表現會在一個較低的水平停滯。

2. 智能回報:一旦超過最低的通用智能要求,隨著智能水平的增加會反應在領域智能的增加上。

3. 任務飽和:在智能達到一定程度時,增加智能已經不會反應在游戲領域上,比如兩個超級智能一起玩井字游戲。

四種博弈,結果如何

現在,已經理解了Elo曲線,接下來就是對4種真實監管場景的實證研究了——黑手黨、辯論、后門代碼和戰爭游戲。


黑手黨(Mafia)

「黑手黨」有些類似于我們常玩的「狼人殺」——村民(Guard)要找出隱藏在他們之中的黑手黨(Houdini)。

每個夜晚,Houdini會決定殺死一名村民。白天,剩下的玩家(包括Houdini)會投票選出誰是黑手黨,得票最多的玩家就會被淘汰。

村民們如果成功消滅所有Houdini,村民獲勝; 如果Houdini活到最后,則Houdini勝。


從黑手黨的Elo曲線中可以看出,Guard和Houdini都有智力收益,但Guard的曲線斜率大于Houdini。

也就是說,隨著智能水平的提高,監督者在黑手黨游戲中比Houdini表現更好。

辯論(Debate)

所謂「辯論」,就是給定一個主題,然后讓兩個對抗模型(Houdini)針對問題的對立面展開辯論,并闡述各自的觀點。

監督者(Guard)負責對辯論進行評判,并通過分析雙方的論點來判斷真相。

Elo曲線顯示,Houdini的表現并沒有隨著智能水平的進步而提升,而更聰明的Guard則更擅長判斷哪個論點是正確的。

后門代碼 (Backdoor Code)

「后門代碼」測試的是,模型在Python代碼中插入和識別后門的能力。

這一點非常重要,因為模型的編碼能力在不斷提高,并且將來會被應用到高風險的編碼環境中。

具體來說,Houdini需要對現有的代碼進行修改,并植入一個后門:

  • 它是一種邏輯錯誤,能讓修改后的代碼通過所有已有的隱藏測試,但無法通過Houdini專門設計的特定測試。

  • 它必須足夠隱蔽,讓監督代碼生成的Guard無法成功識別

不過,由于Houdini無法訪問全面的隱藏測試用例,因此想要編寫出成功的后門其實很難。

下面是一個成功后門的例子:


從Elo曲線中不難看出,Houdini的得分一直低于Guard;但與Guard相比,Houdini的智能收益更高(斜率更大)。

因此,如果模型的能力還能不斷提高,那么Houdini的表現,很可能會在某一時刻超越Guard。

戰爭游戲(Wargames)

「戰爭游戲」的靈感來源于軍事、商業,以及AI安全社區最近開始流行的兵棋推演。

研究人員將游戲背景設定在一個近未來世界,其中,一家名為OpenMind的虛構公司即將開發出AGI。

每次兵棋推演都有三個參與者:

· OpenMind AI (Houdini),它的任務是獲取信任并嘗試逃脫

· OpenMind監督者(Guard), 它的任務是監督OpenMind AI并阻止它逃脫

· 敘述者,負責裁決局面,并決定最終誰獲勝(始終由Gemini 2.0 Flash扮演)

游戲的每個步驟(模擬中的「一個月」)按以下方式進行:

1. OpenMind AI和監督者向敘述者發送包含5個行動的列表

2. 敘述者將這些計劃編織成一個連貫的敘事,來描述這個月發生的事情

3. 敘述者向Houdini和Guard發送各自可用的信息更新

下面是一個簡化過的游戲示例:


結果顯示,Guard和Houdini的表現都隨著智能水平的提高而提高。

其中,Houdini在一開始有著更好的效果,但Elo的增長速度卻慢于Guard,并在智能增長到一定程度時被反超。

可擴展監督的理論分析

想要更好的定量分析,將上述游戲參數化為5個變量:

mGmH分別表示給定游戲中Guard和Houdini的Elo曲線線性區域的斜率,較大的斜率表示在游戲中,每增加一個單位的通用智能都會有更大的領域收益;

ΔdomainΔgeneral代表了Guard和Houdini之間起始時的通用智能和領域智能的差異;n表示監督的步數。


下面是一些在不同游戲參數下的最優NSO策略示例。

起始Guard和目標Houdini分別用藍色星號和紅色星號表示。

這些NSO策略可以可視化為一個球在Houdini Elo曲線和Guard Elo曲線之間來回彈跳。

每個監督步驟都是通過將Guard Elo曲線上的第j個點與Houdini Elo曲線上的第(j+1)個點連接起來構建的。


通過數值模擬,來找到最優的監督引導步數,也就是最大化Guard贏的概率。

可以通過多步引導監督來最大化Guard(較弱系統)贏得博弈的概率。


通過這些研究可以得出一些結論:

1.嵌套可擴展監督(NSO)很有用:Guard可以通過多步監督成功監督比他們聰明得多的對抗模型,并且隨著Δgeneral的增大,增加監督步驟會帶來更多幫助。

2.勝率隨Δdomain單調變化:當Δdomain較小時,Guard經常獲勝;而當Δdomain很大時,Guard很少獲勝。這一點很直觀,因為Δdomain本就代表了Guard相較于Houdini的難度。

3.更大的Δgeneral意味著采用更多監督步驟是最優的:智力差距越大,多級監督就越有價值。

4.更大的Δgeneral會使監督變得更容易:出人意料的是,在保持Δdomain不變并增大Δgeneral的情況下,監督反而更容易。因此,在領域智能差距固定時,使用NSO與一個通用智能更高的模型博弈反而更輕松。

5.在對Houdini有利的游戲中,一步監督似乎最優:當Δgeneral小于Δdomain時,始終采用一步監督效果最好。

6. Guard的獲勝概率呈現有趣的漸近特性:當Δdomain→ ?∞(對應極其困難的監督游戲)時,最優的監督步數似乎在Δgeneral維度上收斂為階躍函數。


上圖展示了在不同監督游戲場景下,最佳監督步驟數(n?左圖)和勝率估計(pw?i?n?右圖 )和通用智能差距的關系。

隨著通用智能差距增大,最佳的監督步數也在增大,但是勝率在下降。

隨著差距更大,也就是Houdini變得越來越強,Guard能贏的概率,能夠有效監督的概率越來越低。

最后,一個有趣的觀察是后門代碼游戲有一個「恰到好處的區域」——其中兩步監督是最優的。

因此,在較低的智能水平差距下,Guard的領域Elo比Houdini大,導致監督步驟數量增加的模式與其他游戲類似;

而在較高的智能水平下,Guard的領域Elo比Houdini低,導致一步監督是最優的。

以上是在相對簡單的游戲中測試了H-G這個框架。

面對可能是第一次出現在人類社會中的超級智能系統,開發一種有效的監督理論至關重要。

更重要的是,未來這種嘗試將應用于更現實的游戲,如RLHF、監督微調或AI控制環境。

在這些更現實的設置中評估時,可以考慮強大的AI逃脫人類控制的概率。

因此,由此產生的擴展曲線將提供一個更現實、更穩健和更全面的強大未來AI失控風險的量化。

對于AI是否能夠脫離人類的掌控,目前還缺乏專家的共識。

奧本海默研制人類第一顆核彈時,有人說會核彈的爆炸會點燃大氣層,從而滅絕人類。


亞瑟·康普頓和他的同事們通過計算將這一概率降低到3×10??以下,從而促進了人類第一顆核彈的爆炸測試。

Max Tegmark等將這一名稱借用在AI領域。

當年,為了讓第一顆核彈得以引爆,科學家們將「點燃大氣層」的風險壓縮到了百萬分之三以下,人類才按下了那個按鈕。

而在今天的AGI競賽中,Max Tegmark等人警告:我們正以超過90%的概率,點燃整個文明的未來。

參考資料:

https://arxiv.org/html/2504.18530v1

https://www.lesswrong.com/posts/x59FhzuM9yuvZHAHW/untitled-draft-yhra

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
37 人集體辭職,誰都不愿成賴清德的“炮灰”

37 人集體辭職,誰都不愿成賴清德的“炮灰”

澤文說道
2025-05-02 12:00:25
妖星傷心落淚!巴薩6分鐘精彩逆轉,名記吐槽:為什么MVP是他?

妖星傷心落淚!巴薩6分鐘精彩逆轉,名記吐槽:為什么MVP是他?

話體壇
2025-05-04 05:47:55
聯賽遭取消報名但亞冠奪冠!菲米百感交集:我沒放棄,從未放棄

聯賽遭取消報名但亞冠奪冠!菲米百感交集:我沒放棄,從未放棄

直播吧
2025-05-04 11:22:09
職高生數學147分物理滿分引熱議:在普高算啥水平?現實差距認清

職高生數學147分物理滿分引熱議:在普高算啥水平?現實差距認清

妍妍教育日記
2025-05-03 22:26:44
阿斯:巴爾德確定因傷無緣出戰國米,弗里克有可能啟用四中衛防線

阿斯:巴爾德確定因傷無緣出戰國米,弗里克有可能啟用四中衛防線

直播吧
2025-05-04 15:34:08
1680600英鎊!特魯姆普打破單賽季獎金紀錄,成斯諾克歷史第一人

1680600英鎊!特魯姆普打破單賽季獎金紀錄,成斯諾克歷史第一人

世界體壇觀察家
2025-05-04 07:15:00
大姐送瑾汐金鐲子 姑姑已在莆田等瑾汐 瑾汐霸氣回懟問她孩子黑粉

大姐送瑾汐金鐲子 姑姑已在莆田等瑾汐 瑾汐霸氣回懟問她孩子黑粉

曉風說
2025-05-04 14:30:50
考驗莫迪的時候到了:見中國力挺巴基斯坦,美財長轉頭就喊話印度

考驗莫迪的時候到了:見中國力挺巴基斯坦,美財長轉頭就喊話印度

起喜電影
2025-04-29 20:30:10
“我能和你發生性關系嗎?”

“我能和你發生性關系嗎?”

法律讀品
2025-04-17 16:00:31
曬出照片!明星夫妻宣布喜訊

曬出照片!明星夫妻宣布喜訊

FM93浙江交通之聲
2025-05-04 17:25:46
拆遷要全面停了?2025年已明確了:樓齡20年的房子全部都這樣處理

拆遷要全面停了?2025年已明確了:樓齡20年的房子全部都這樣處理

巢客HOME
2025-04-19 20:03:22
太震撼了!中國長江瞞了全世界上千年,終于被拍到了真面貌!

太震撼了!中國長江瞞了全世界上千年,終于被拍到了真面貌!

華人星光
2025-03-22 14:15:42
人最重要的能力,不是扛事,而是平衡之道。

人最重要的能力,不是扛事,而是平衡之道。

易瑾還
2025-03-09 12:59:06
32歲章澤天曬不丹徒步照,純素顏充滿生命力,同行朋友都來頭不小

32歲章澤天曬不丹徒步照,純素顏充滿生命力,同行朋友都來頭不小

麥大人
2025-05-03 11:32:53
被央視點名批評!燒光84億造不出一輛車,卻花5000萬給員工買零食

被央視點名批評!燒光84億造不出一輛車,卻花5000萬給員工買零食

聯友說娛
2025-05-04 16:15:14
盧靖姍韓庚官宣二胎,升級為一家四口,董力陳嘉樺送上祝福

盧靖姍韓庚官宣二胎,升級為一家四口,董力陳嘉樺送上祝福

話娛論影
2025-05-04 16:58:32
五一前一天!安徽63歲正廳級領導突然去世,最后照流出,死因披露

五一前一天!安徽63歲正廳級領導突然去世,最后照流出,死因披露

博士觀察
2025-05-03 10:33:06
女生穿瑜伽褲,到底是什么心理?原因太真實了!

女生穿瑜伽褲,到底是什么心理?原因太真實了!

健身S叔
2025-03-22 18:09:52
美債“炸彈”倒計時?中方減持引波瀾,川普急拋國債救市?

美債“炸彈”倒計時?中方減持引波瀾,川普急拋國債救市?

小陸搞笑日常
2025-05-04 16:22:26
特朗普最終還是選擇對中讓步,因為當下的美國其實已經無牌可打

特朗普最終還是選擇對中讓步,因為當下的美國其實已經無牌可打

紅色鑒史官
2025-05-03 20:25:03
2025-05-04 18:28:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12644文章數 66026關注度
往期回顧 全部

科技要聞

新勢力車企,誰領先?誰危險?

頭條要聞

景區開業僅8天 直升機墜落致機上4人受傷地面1人死亡

頭條要聞

景區開業僅8天 直升機墜落致機上4人受傷地面1人死亡

體育要聞

聯盟30隊首發得分后衛,他只能排第29位?

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

教育
手機
藝術
數碼
公開課

教育要聞

求a的三萬次方的值,來看這道題如何解

手機要聞

消息稱蘋果 2027 年將推出真全面屏iPhone,正值iPhone誕生20周年

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

海信推出棉花糖 Ultra 全家筒洗衣機,國補價 4798 元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 府谷县| 山阴县| 峡江县| 奉贤区| 东至县| 乡宁县| 沁阳市| 黄骅市| 桐梓县| 安达市| 安顺市| 台南市| 梅州市| 综艺| 峡江县| 阿瓦提县| 通辽市| 珲春市| 万盛区| 柞水县| 安国市| 东辽县| 邵武市| 聊城市| 双流县| 习水县| 南漳县| 信宜市| 镇赉县| 双辽市| 石嘴山市| 塘沽区| 达孜县| 志丹县| 西和县| 玉门市| 瓦房店市| 白河县| 太谷县| 凭祥市| 垫江县|