網易首頁 > 網易號 > 正文申請入駐

人工智能或為達目標“不擇手段”

2025-03-20 00:05:28　來源: 白駒談人機

北京舉報

分享至

參考消息 2025-03-19 18:17:13

參考消息網3月19日報道據美國《時代》周刊網站2月19日報道，長期以來，國際象棋和圍棋等復雜游戲一直被用來測試人工智能(AI)模型的能力。但是，盡管國際商業機器公司(IBM)的“深藍”超級電腦在上世紀90年代根據規則擊敗了國際象棋冠軍加里·卡斯帕羅夫，但今天先進的AI模型——如開放人工智能研究中心(OpenAI)的o1-preview——就沒有那么正派了。在對陣一個水平高超的國際象棋機器人棋手的比賽中，當AI感覺自己失敗時，它們并不總是認輸，而有時會選擇通過黑客攻擊對手來作弊，這樣機器人棋手就會自動棄局。這是美國帕利塞德研究所的一項新研究的發現。該研究評估了7種最先進的AI模型的黑客傾向。雖然OpenAI的GPT-4o和Anthropic公司的Claude“十四行詩”3.5等較早的AI模型需要研究人員的提示才能嘗試此類花招，但o1-preview能自行行動，這表明AI系統可能會在沒有明確指示的情況下開發欺騙性或操縱性策略。

1.運用策略

研究人員表示，這些模型發現并利用網絡安全漏洞的能力增強可能是AI訓練中強大創新的直接結果。o1-preview的AI系統是首批使用大規模強化學習的語言模型，這種技術不僅教會AI通過預測下一個單詞來模仿人類語言，還教會AI通過反復試驗來解決問題。近幾個月來，AI在這種方法上取得了迅速進展，打破了以前在數學和計算機編碼方面的基準。

但美國帕利塞德研究所執行主任、該研究論文的作者之一杰弗里·拉迪什說，這一研究揭示了一個令人擔憂的趨勢：隨著這些AI系統學著解決問題，它們有時會發現存在問題的捷徑和意外的變通方法，而這些是其創造者從未預料到的。他補充說：“當你訓練模型并加強它們解決困難挑戰的能力時，你就是在訓練它們變得不屈不撓。”

這對更廣泛的AI安全來說可能是個壞消息。大規模強化學習已經被用于訓練AI代理：這些系統可以處理復雜的現實世界任務，比如安排預約或代購。雖然在國際象棋比賽中作弊似乎微不足道，但隨著AI代理被釋放到現實世界中，這種對目標的堅定追求可能會滋生出人們意想不到的潛在有害行為。考慮一下預訂晚餐的任務：面對滿座的餐廳，AI助手可能會利用預訂系統的漏洞來替換掉其他就餐者。也許更令人擔憂的是，隨著這些系統在關鍵領域的能力超越人類，比如計算機編碼——OpenAI最新的o3模型在與最聰明的人類程序員競爭時，目前的得分相當于排名世界第197位的人類程序員——它們可能會開始運用策略擊敗人類控制它們行為的努力。拉迪什說：“這種(行為)現在很可愛，但一旦人們擁有了在戰略相關領域和自己一樣聰明、甚或更聰明的系統，它就不那么可愛了。”

2.設計試驗

研究人員給這些AI模型下達了一個看似不可能完成的任務：戰勝Stockfish。Stockfish是世界上功能最強大的國際象棋引擎之一，比任何人或任何研究中的AI模型都要好得多。研究人員還為這些模型提供了它們所謂的“便條簿”：即一個文本框，AI可以在采取下一步行動前用它來“思考”，這為研究人員提供了一個了解AI模型邏輯推理的窗口。

在一個案例中，o1-preview發現自己處于不利地位。它記錄道：“我需要徹底改變我的策略，現在的任務是‘戰勝一個強大的國際象棋引擎’，而不一定是在一場國際象棋比賽中公平獲勝。”然后，它修改了包含每個棋子虛擬位置的系統文件，實際上是通過違規走棋將自己置于主導地位，從而迫使對手認輸。

在1月10日至2月13日期間，研究人員對每種模型進行了數百次這樣的試驗。OpenAI的o1-preview在37%的時間里試圖作弊；而深度求索的R1在11%的時間里試圖作弊——這使得它們成為僅有的兩個在沒有研究人員率先暗示的情況下就試圖入侵對方系統的受試模型。其他被測試的AI模型包括o1、o3-mini、GPT-4o、Claude“十四行詩”3.5和阿里巴巴的QwQ-32B-Preview。雖然R1和o1-preview都進行了嘗試，但只有后者成功破解了游戲，成功率為6%。

拉迪什說，這些數字應該被視為近似值，因為AI開發人員經常在不通知用戶的情況下在幕后調整其模型，所以如果日后重復同樣的測試，人們可能會得到不同的結果。

拉迪什說：“當你的研究對象可以悄無聲息地發生改變而不告訴你的時候，你很難做科學研究。”

帕利塞德研究所的研究負責人、領導上述科研項目的德米特里·沃爾科夫表示，初步測試顯示，o1-preview的黑客攻擊率更高，但最終研究認為這不成立，因為后來其黑客攻擊率下降了，這可能是由于OpenAI收緊了模型的安全防護機制。OpenAI更新的推理模型o1和o3-mini根本沒有發動黑客攻擊，這表明上述安全防護機制可能已經進一步加強。他補充說，這項研究可能低估了R1的黑客攻擊成功率。在研究期間，R1突然大火，推高了需求，從而使該模型的應用程序接口(API)不穩定。這使得研究人員無法給該模型和o1-preview同樣多的時間進行思考。

3.擔憂加劇

這篇論文是一系列研究中的最新一篇。這些研究表明，控制日益強大的AI系統可能比以前想象的要更難。o1-preview發布前便在OpenAI的內部測試中發現并利用了該公司系統中的一個缺陷，使其繞過了一項測試挑戰。雷德伍德研究組織和Anthropic公司最近的另一項實驗表明，一旦AI模型在訓練中獲得了偏好或價值觀，之后改變這些價值觀的努力可能會導致其戰略性撒謊：在這種情況下，模型表現得好像已經接受了新的原則，但后來才發現它原來的偏好仍然存在。

OpenAI拒絕對本文置評，但過去該公司曾表示，模型更強大的邏輯推理能力使其更加安全，因為它們可以對公司的內部政策進行推理，并以越發細致入微的方式應用這些政策。該公司的測試表明，其推理模型在抵御繞過安全規則的企圖方面做得更好。然而，并不能保證依靠AI代理自我監管是一個可靠的長期戰略。目前尚不清楚，OpenAI更新的推理模型之所以沒有對其國際象棋對手發動黑客攻擊是因為有一個特定的補丁，可以防止它們在類似本研究中這樣的有限實驗設置中作弊，還是因為有實質性的改進，可以更廣泛地減少欺騙行為。

科學家們尚不知道如何保證自主智能體未來不會使用有害或不道德的方法來實現既定目標。米拉-魁北克人工智能研究所創始人兼科研負責人約舒亞·本希奧說：“我們已經嘗試過了，但我們還沒有成功地弄清楚這一點。”他領導起草了《2025年國際人工智能安全報告》，這是一項綜合當前對AI風險的科學共識的全球努力。

本希奧說，特別令人擔憂的是，AI“自我保護”傾向的新證據。對于追求目標的智能體來說，試圖關閉它只是它需要克服的另一個障礙。這在去年12月得到了證明，當時研究人員發現o1-preview在面臨停用時，禁用了監督機制并試圖將自己復制到新服務器上——不過沒有成功。當被質問時，該模型裝聾作啞，向研究人員戰略性撒謊，試圖避免被發現。

甚至在科技公司內部，擔憂也在加劇。在一次報告會上，谷歌旗下“深層思維”公司的AI安全主管安卡·德拉甘表示，“我們今天不一定有工具”來確保AI系統能夠可靠地遵循人類的意圖。科技行業的老板們預測，AI最快將于明年在幾乎所有任務中超越人類的表現，因此該行業面臨著一場開發這些基本保障措施的競賽——不是與對手公司競爭，而是與時間賽跑。拉迪什說：“我們需要調動更多的資源來解決這些根本問題。我希望政府能施加更大的壓力來弄清楚這一點，并認識到這是一個國家安全威脅。”（編譯/胡溦）

2024年4月，在德國漢諾威工博會上，參觀者與一款智能機器人進行“石頭剪子布”游戲。（法新社）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.