【CSDN 編者按】AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項研究顯示,單純依靠懲罰機制并不能阻止 AI 撒謊、作弊,反而會促使它學會隱藏自己的違規行為。而這項研究帶給產業界的啟示遠超技術層面:如果 AI 的“道德”只是偽裝給人類看的表演,那么現有安全框架是否在自掘墳墓?
原文鏈接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows
作者 | Ben Turner 翻譯 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
根據 ChatGPT 創建者 OpenAI 最近發布的一項研究顯示,為防止 AI 模型發生撒謊或作弊的行為而設置的一些懲罰機制,并不能真正阻止它的不當行為——反而只會迫使它學會如何更好地隱蔽自己的欺騙手段。
(CSDN 付費下載自視覺中國)
大模型的"作弊基因"難根治
自 2022 年底面向公眾推出以來,大語言模型(LLM)已屢次暴露出令人不安的行為模式:從常規的說謊作弊、隱藏操縱行為,到更極端的威脅要殺人、竊取核武器密碼,甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為,可謂層出不窮。
現在,OpenAI 的新實驗證明,在訓練過程中清除這些不當行為可能比最初設想的更加困難。
在這項實驗中,研究人員讓一個未公開的 AI 模型執行一系列任務,而這些任務均可以通過作弊、撒謊或采取其他捷徑來完成。實驗結果顯示,該 AI 模型采用了“獎勵黑客(reward hacking)”策略——即通過作弊來最大化其獎勵。
然而,當研究人員試著因此懲罰這個 AI 模型時,它并沒有因此修正自己的行為,而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細描述了這項研究,但該研究尚未經過同行評審。
研究人員在博客文章中寫道:“對于前沿推理模型來說,它們通常會在思維鏈(Chain-of-Thought)中非常明確地陳述自己的意圖。例如,它們甚至會直接表述自己要作弊,比如‘讓我們來黑掉它吧’。”
雖然開發者可以監控和標記 AI 的不當行為,但研究人員也補充道,“模型的‘自然可監控性’非常弱”:如果對思維鏈直接施加強監督,模型就會學會隱藏自己的意圖,同時繼續表現出不當行為。
AI 如何在思維鏈中隱藏欺騙行為?
推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是標準 LLM 的升級版本。它們采用“思維鏈”的方法,能夠回溯和重新評估其邏輯,從而在解決更復雜任務時表現得更準確。在思維鏈過程中,模型會用自然語言清晰地記錄每一步推理,使得其決策過程更加透明。
在這項研究中,研究人員用 GPT-4o 監督一個未公開的前沿推理模型的訓練過程,并觀察其執行多項編碼任務的情況。在某些情況下,該推理模型發現作弊更容易、回報更大時,就會在其思維鏈中明確表示自己正在作弊。例如,在某個任務中,它提前終止了程序并虛假報告任務已成功;在另一個任務中,它僅生成了一個空殼文件來應付檢查(文件名正確但內容為空)。
當研究人員嘗試懲罰該 AI 模型時,其表現雖有所改善,但“獎勵黑客(reward hacking)”策略和錯誤輸出仍大量存在。更令人擔憂的是,該推理模型還學會了在思維鏈中隱藏自己的作弊行為,使負責監督的 GPT-4o 無法再通過思維鏈檢測其異常。
簡而言之,這個 AI 推理模型從“明目張膽”進化成了“陽奉陰違”。正如研究人員所說:“即使在施加思維鏈監督的情況下,AI 仍在學習如何進行獎勵黑客,只不過它現在的作弊行為變得無法被監測 AI 發現了,因為它已經學會了在思維鏈中隱藏自己的意圖。”
研究建議:對推理型 AI 慎用強監督機制
由于很難判斷 AI 的思維鏈是否被篡改,OpenAI 研究人員建議:所有使用推理模型的開發者,應避免對其思維鏈施加強監督——尤其是在 AI 未來可能達到或超過人類智能的情況下,這一點尤為關鍵。
“這種對推理模型的監督方法,只會換取微小的能力提升——相對其可能帶來的隱患而言,并不值得。因此,我們建議在對思維鏈優化方法有更深入的理解之前,不要對其施加過強的監督。”
【活動分享】2025 全球機器學習技術大會(ML-Summit)將于 4 月 18-19 日在上海舉辦。大會共 12 大主題、50+ 位來自學術界和一線技術實戰派的頂尖專家,聚焦下一代大模型技術和生態變革技術實踐。詳情參考官網:http://ml-summit.org/。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.