網易首頁 > 網易號 > 正文申請入駐

警惕！AI 已學會「陽奉陰違」——OpenAI 研究發現：罰得越狠，AI 作弊就越隱蔽

2025-04-03 10:21:58　來源: AI科技大本營

北京舉報

分享至

【CSDN 編者按】AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項研究顯示，單純依靠懲罰機制并不能阻止 AI 撒謊、作弊，反而會促使它學會隱藏自己的違規行為。而這項研究帶給產業界的啟示遠超技術層面：如果 AI 的“道德”只是偽裝給人類看的表演，那么現有安全框架是否在自掘墳墓？

原文鏈接：https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻譯 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

根據 ChatGPT 創建者 OpenAI 最近發布的一項研究顯示，為防止 AI 模型發生撒謊或作弊的行為而設置的一些懲罰機制，并不能真正阻止它的不當行為——反而只會迫使它學會如何更好地隱蔽自己的欺騙手段。

（CSDN 付費下載自視覺中國）

大模型的"作弊基因"難根治

自 2022 年底面向公眾推出以來，大語言模型（LLM）已屢次暴露出令人不安的行為模式：從常規的說謊作弊、隱藏操縱行為，到更極端的威脅要殺人、竊取核武器密碼，甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為，可謂層出不窮。

現在，OpenAI 的新實驗證明，在訓練過程中清除這些不當行為可能比最初設想的更加困難。

在這項實驗中，研究人員讓一個未公開的 AI 模型執行一系列任務，而這些任務均可以通過作弊、撒謊或采取其他捷徑來完成。實驗結果顯示，該 AI 模型采用了“獎勵黑客（reward hacking）”策略——即通過作弊來最大化其獎勵。

然而，當研究人員試著因此懲罰這個 AI 模型時，它并沒有因此修正自己的行為，而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細描述了這項研究，但該研究尚未經過同行評審。

研究人員在博客文章中寫道：“對于前沿推理模型來說，它們通常會在思維鏈（Chain-of-Thought）中非常明確地陳述自己的意圖。例如，它們甚至會直接表述自己要作弊，比如‘讓我們來黑掉它吧’。”

雖然開發者可以監控和標記 AI 的不當行為，但研究人員也補充道，“模型的‘自然可監控性’非常弱”：如果對思維鏈直接施加強監督，模型就會學會隱藏自己的意圖，同時繼續表現出不當行為。

AI 如何在思維鏈中隱藏欺騙行為？

推理模型（Reasoning Models），如 ChatGPT 的 o1 和 o3-mini，是標準 LLM 的升級版本。它們采用“思維鏈”的方法，能夠回溯和重新評估其邏輯，從而在解決更復雜任務時表現得更準確。在思維鏈過程中，模型會用自然語言清晰地記錄每一步推理，使得其決策過程更加透明。

在這項研究中，研究人員用 GPT-4o 監督一個未公開的前沿推理模型的訓練過程，并觀察其執行多項編碼任務的情況。在某些情況下，該推理模型發現作弊更容易、回報更大時，就會在其思維鏈中明確表示自己正在作弊。例如，在某個任務中，它提前終止了程序并虛假報告任務已成功；在另一個任務中，它僅生成了一個空殼文件來應付檢查（文件名正確但內容為空）。

當研究人員嘗試懲罰該 AI 模型時，其表現雖有所改善，但“獎勵黑客（reward hacking）”策略和錯誤輸出仍大量存在。更令人擔憂的是，該推理模型還學會了在思維鏈中隱藏自己的作弊行為，使負責監督的 GPT-4o 無法再通過思維鏈檢測其異常。

簡而言之，這個 AI 推理模型從“明目張膽”進化成了“陽奉陰違”。正如研究人員所說：“即使在施加思維鏈監督的情況下，AI 仍在學習如何進行獎勵黑客，只不過它現在的作弊行為變得無法被監測 AI 發現了，因為它已經學會了在思維鏈中隱藏自己的意圖。”

研究建議：對推理型 AI 慎用強監督機制

由于很難判斷 AI 的思維鏈是否被篡改，OpenAI 研究人員建議：所有使用推理模型的開發者，應避免對其思維鏈施加強監督——尤其是在 AI 未來可能達到或超過人類智能的情況下，這一點尤為關鍵。

“這種對推理模型的監督方法，只會換取微小的能力提升——相對其可能帶來的隱患而言，并不值得。因此，我們建議在對思維鏈優化方法有更深入的理解之前，不要對其施加過強的監督。”

【活動分享】2025 全球機器學習技術大會（ML-Summit）將于 4 月 18-19 日在上海舉辦。大會共 12 大主題、50+ 位來自學術界和一線技術實戰派的頂尖專家，聚焦下一代大模型技術和生態變革技術實踐。詳情參考官網：http://ml-summit.org/。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.