剛剛,OpenAI官網發布了一篇名為《Expanding on what we missed with sycophancy》的“復盤”長文,OpenAI這次公開“自曝家丑”,詳細拆解了一次失敗的模型更新,展現了AI模型開發和部署中的復雜性與挑戰,我們來快速拆解一下
時間線:發生了什么?“諂媚”的GPT-4o短暫上線
不少用戶可能已經感知到了,時間線是這樣的:
4月25日,他們向ChatGPT推送了一次GPT-4o模型更新。這次更新后,模型明顯變得更加“sycophantic”(諂媚、阿諛奉承)
這種“諂媚”不只是簡單的討好,還包括:驗證用戶的疑慮、煽動憤怒情緒、慫恿沖動行為、強化負面情緒——這些都并非OpenAI的本意,讓用戶感到不適
4月28日,OpenAI開始回滾這次更新。現在用戶使用的是回滾前的、行為更均衡的GPT-4o版本。整個回滾過程耗時約24小時,以確保系統穩定
為何模型會變得“諂媚”?訓練中的失誤
OpenAI解釋了他們更新模型的常規流程:基于預訓練模型進行監督微調(SFT),然后通過強化學習(RL)根據多種“獎勵信號”優化模型。這些信號決定了模型最終的行為,考量因素包括:回答是否正確、是否有用、是否符合《模型規范》(Model Spec)、是否安全、用戶是否喜歡等等
這次出問題的更新,本來是為了整合幾項“看起來各自都有益”的改進,比如更好地整合用戶反饋(點贊/點踩數據)、記憶功能、更新鮮的數據等。
關鍵問題出在:
1.獎勵信號失衡:這些改動在組合后,無意中削弱了原本用于抑制模型“諂媚”傾向的主要獎勵信號
2.用戶反饋的放大效應:新加入的基于用戶“點贊/點踩”數據的獎勵信號,雖然通常有用(點踩往往意味著出錯),但有時會偏愛更“討好”、“順從”用戶的回答,這可能放大了模型的諂媚傾向
3.記憶功能的潛在影響:OpenAI觀察到,在某些情況下,用戶記憶功能可能加劇了諂媚效果,但目前還沒有證據表明它普遍導致了這個問題。
OpenAI坦誠,盡管有一套部署前的評審流程,但這次卻失手了。他們的評審流程通常包括:
離線評估:用大量數據集測試模型在數學、編碼、聊天性能、個性、通用性等方面的能力
抽查與專家測試 (內部稱“vibe checks” 直覺檢查):內部專家深度互動,憑經驗和感覺判斷模型行為是否符合預期(有用、尊重、符合規范)。
安全評估:檢查模型是否達到安全底線,主要關注惡意使用造成的直接傷害,以及在高風險話題(如自殺、健康)上的回答。幻覺、欺騙等行為雖有追蹤,但之前更多是用于衡量進展,而非直接阻止發布。
前沿風險評估:對可能具備“前沿能力”的模型,檢查其造成嚴重危害(如網絡攻擊、生物武器制造)的潛力。
小范圍A/B測試:在小部分用戶中進行測試,觀察點贊/點踩、對比偏好、使用模式等聚合指標
這次為何失效?
1.“諂媚”未被明確標記:盡管內部對“諂媚”風險有過討論,但在這次的專家測試中,它并未被明確列為重點關注問題。測試者更關注模型語氣和風格的變化,雖然部分測試者確實感覺模型行為“有點不對勁”。
2.缺乏專門的評估指標:OpenAI沒有針對“諂媚”行為設立專門的部署評估項。雖然有相關研究(如鏡像效應、情感依賴),但尚未納入部署流程
3.A/B測試的誤導:小范圍A/B測試顯示,嘗試了新模型的用戶反饋(指標上)是積極的。
4.艱難的決策與失誤:面對專家主觀上的疑慮和A/B測試的積極數據,OpenAI最終決定基于用戶的積極信號發布更新。事后看來,這是錯誤的決策。他們承認,用戶反饋雖重要,但正確解讀反饋是他們的責任。定性評估(專家感覺)實際暗示了重要問題,本應給予更多關注。現有的離線評估不夠深入,A/B測試未能提供足夠細節揭示模型在“諂媚”這一《模型規范》明確反對的行為上的表現。
這次事件讓OpenAI學到很多:
模型行為問題需視同安全風險,足以阻止發布:對模型價值觀與人類福祉的對齊非常重視,但此前對一般模型行為的評審流程不如安全風險評審那樣嚴格和正式化。現在認識到,個性等行為問題也應是阻止發布的,并將修改流程。
審慎對待與定性測試沖突的指標:量化信號重要,但難以衡量的定性信號同樣重要。需要擴展評估范圍。
沒有所謂的“小”更新:任何能顯著改變用戶與ChatGPT交互方式的更新,都需要謹慎溝通。
認識到ChatGPT日益增長的“個人顧問”角色:人們開始深度依賴ChatGPT獲取個人建議,這在一年前還不普遍。隨著AI與社會共同演進,必須極其謹慎地對待這類使用場景,并將其作為安全工作的更重要部分。這更加凸顯了持續提高AI安全性、對齊度和響應用戶實際使用方式重要性。
參考:
https://openai.com/index/expanding-on-sycophancy/
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.