OpenAI 表示,其部署了一套全新的系統,用以監控最新的 AI 推理模型 o3 和 o4-mini ,重點監測與生物及化學威脅相關的輸入提示。根據 OpenAI 的安全報告,該系統旨在防止模型提供可能指導他人實施潛在有害攻擊的建議。
公司稱,o3 和 o4-mini 相較于 OpenAI 之前的模型具有顯著的能力提升,因此在不法分子手中可能帶來新的風險。根據 OpenAI 的內部基準測試,o3 在回答有關制造特定類型生物威脅的問題上展現出更高技能。正因如此 —— 同時為了降低其他風險 —— OpenAI 創建了這一新的監控系統,公司將其稱為 “safety-focused reasoning monitor”。
該監控器經過專門訓練以理解 OpenAI 的內容政策,運行在 o3 和 o4-mini 之上。它旨在識別與生物和化學風險相關的輸入提示,并指示模型拒絕就這些主題提供建議。
為建立基準,OpenAI 讓紅隊成員花費約 1,000 小時標記 o3 和 o4-mini 中與生物風險相關的“不安全”對話。根據 OpenAI 的說明,在一次模擬安全監控器 “阻斷邏輯” 的測試中,這些模型對風險提示拒絕響應的比例達到了 98.7%。
OpenAI 承認,其測試并未考慮到用戶在被監控器阻斷后可能會嘗試新的提示,因此該公司表示將部分依賴人工監控。
據 OpenAI 稱,o3 和 o4-mini 在生物風險方面未達到公司定義的 “high risk” 閾值。然而,與 o1 和 GPT-4 相比,OpenAI 表示早期版本的 o3 和 o4-mini 在解答生物武器開發相關問題時表現得更為有幫助。
圖表摘自 o3 和 o4-mini 的系統說明卡 ( Screenshot: OpenAI )
根據 OpenAI 最近更新的 Preparedness Framework ,該公司正積極跟蹤其模型如何可能使惡意用戶更容易開發化學和生物威脅。
OpenAI 越來越依賴自動化系統來降低其模型所帶來的風險。例如,為防止 GPT-4o 的原生圖像生成器創作兒童性虐待材料 ( CSAM ),OpenAI 表示它采用了類似于為 o3 和 o4-mini 部署的 reasoning monitor。
然而,一些研究人員擔心 OpenAI 并未給予安全性足夠的重視。該公司的一位紅隊合作伙伴 Metr 表示,他們用于測試 o3 在欺騙性行為基準測試上的時間相對較少。與此同時,OpenAI 決定不發布其于本周早些時候推出的 GPT-4.1 模型的安全報告。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.