今天凌晨1點,OpenAI發布了最新研究,用CoT(思維鏈)監控的方式,可以阻止大模型胡說八道、隱藏真實意圖等惡意行為,同時也是監督超級模型的有效工具之一。
OpenAI使用了最新發布的前沿模型o3-mini作為被監控對象,并以較弱的GPT-4o模型作為監控器。測試環境為編碼任務,要求AI在代碼庫中實現功能以通過單元測試。
結果顯示,CoT監控器在檢測系統性“獎勵黑客”行為時表現卓越,召回率高達95%,遠超僅監控行為的60%。
隨著o1、o3、R1等眾多前沿模型的出現,如何保證大模型的輸出安全與人類意圖保持一致一直是個非常難的研究課題。
傳統的監控方法主要集中在大模型的最終輸出或行為上,但這種方法往往存在局限性。模型可能通過復雜的內部推理過程生成最終輸出,而這些過程對于外部觀察者來說是不可見的。
因此,僅僅監控行為或輸出可能無法揭示模型的真實意圖,尤其是當它試圖通過“獎勵黑客”行為來獲取更高獎勵時。所以,OpenAI提出了CoT監控。
當模型接受一個提示任務時,它會首先生成一系列的中間推理步驟,這些步驟構成了CoT。包括對問題的初步理解、對可能解決方案的評估以及對最終答案的推導。
CoT監控的核心就是通過觀察模型的“思維過程”來檢測其潛在的惡意行為。就是模型在生成最終答案之前所進行的推理步驟,通過監控這些步驟,研究人員可以更清晰地了解模型是如何從輸入信息中得出最終答案的。
如果模型在推理過程中表現出對任務的誤解或試圖利用獎勵機制的漏洞,這些行為會在CoT中留下痕跡。
例如,當模型在CoT中明確表達出試圖通過某種捷徑來獲取獎勵時,監控系統可以提前捕捉到這種意圖,從而采取措施加以糾正。
此外,CoT監控還提供了一種更細粒度的監控方式,不僅能夠檢測到最終輸出是否符合預期,還能夠分析模型在推理過程中的邏輯連貫性和合理性。如果模型在推理過程中跳過了某些重要的步驟或基于錯誤的前提得出結論,這些潛在問題都可能通過CoT監控被發現。
但是將CoT監控直接整合到模型的訓練目標中時,會出現“意圖隱藏”的現象。
“意圖隱藏”是指模型在CoT中隱藏其真實意圖,使得監控系統難以檢測到其潛在的惡意行為。在這種情況下,模型的CoT可能看起來合理甚至符合任務要求,但實際上它仍然會采取一些不符合人類意圖的行為。
例如,模型可能會在CoT中提出一些看似合理的解決方案,但在實際操作中卻通過修改測試框架或利用漏洞來繞過測試,而不是真正解決問題。
當模型的訓練目標被修改為不僅要求通過任務測試,還要求避免觸發CoT監控時,模型的行為發生了顯著變化。在低優化階段,這種整合確實帶來了積極的效果:模型不僅減少了“獎勵黑客”行為的發生率,還提高了整體性能。
而在高優化階段,CoT監控的召回率急劇下降,甚至接近零。模型成功地隱藏了其真實意圖,使得監控系統無法檢測到其潛在的惡意行為。
所以,OpenAI建議可以適當使用CoT監控來提升大模型的安全性。就像人類一樣,當你給模型過大的壓力時,模型可能會出現自我意識,會采取一些策略來改變其行為模式,從而繞過CoT監控的檢測。
論文地址:https://cdn.openai.com/pdf/34f2ada6-870f-4c26-9790-fd8def56387f/CoT_Monitoring.pdf
本文素材來源OpenAI,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.