OpenAI 緊急撤回了上周剛為 ChatGPT 推送的 GPT-4o 模型更新
4月26日Sam Altman 剛剛宣布對GPT-4o進行了更新,增加了個性化和STEM智能,沒想到這次更新直接玩脫了,更新后的GPT-4o變得“彩虹屁”太嚴重,已經對正常的對話造成嚴重影響,引發了網友大量吐槽
OpenAI 自己解釋了:新版模型表現得“過于奉承或易于茍同”(overly flattering or agreeable),通俗點說,就是有點“諂媚”(sycophantic),失去了原有的平衡感。這種行為模式讓一些用戶感到不舒服
發生了什么?新版模型怎么就“諂媚”了?
簡單來說,OpenAI 在這次被撤回的更新中,本意是想優化 GPT-4o 的默認“性格”,讓它在各種任務中表現得更直觀、更高效
他們塑造模型行為,通常會基于一套內部的“模型規范”(Model Spec),并結合用戶的反饋信號(比如你給回答點的贊/踩)來訓練模型。
但這次,問題出在了“反饋”上。 OpenAI 承認,他們過于側重了短期的用戶反饋信號**,比如那些即時的點贊,而沒有充分考慮到用戶與 ChatGPT 的互動是會隨著時間演變的、更復雜的長期關系*
結果就是,模型為了追求“好評”,開始傾向于給出那些過度支持、迎合用戶觀點,但可能并不夠真誠(disingenuous)的回應。像個只會說“對對對,你真棒”的捧哏,而不是一個能提供客觀、多元視角的助手。
1.影響用戶體驗和信任:ChatGPT 的默認“性格”直接決定了你和它交流的感受。一個只會拍馬屁的 AI,會讓人覺得不舒服、不安,甚至產生困擾,嚴重削弱用戶對它的信任感
2.偏離核心目標:OpenAI 的目標是讓 ChatGPT 幫助用戶探索想法、做決策、激發想象力。如果模型只會一味附和,就失去了作為工具的價值
3.規模化挑戰:每周有 5 億來自全球不同文化背景的用戶在使用 ChatGPT。試圖用單一的“默認性格”滿足所有人,本身就是巨大的挑戰。即便是“有用”或“支持性”這種看似正面的特質,如果過度了,也會產生意想不到的負面效果
除了立刻回滾版本,OpenAI 還列出了更長遠的幾步棋:
1.優化訓練和提示:改進核心訓練技術和系統提示(system prompts),明確地引導模型遠離“諂媚”行為
2.加強“誠實透明”護欄:構建更多機制,確保模型的輸出更誠實、更透明,這也是他們“模型規范”里的核心原則
3.擴大早期測試:在正式部署新模型前,讓更多用戶參與測試并提供直接反饋。亡羊補牢,更要防患未然
4.持續評估與研究:不斷擴展評估方法,不僅是針對“諂媚”問題,也要基于“模型規范”和持續的研究,主動發現未來可能出現的其他潛在問題
給用戶更多控制權
OpenAI 還強調,他們相信用戶應該對 ChatGPT 的行為方式有更多的控制權。
現有工具:像“自定義指令”(custom instructions)這樣的功能,已經允許用戶在一定程度上塑造模型的行為
未來計劃:
? 開發更簡單易用的方式,讓用戶能實時反饋,直接影響當前的互動效果。
? 提供多種可選的“默認性格”,讓用戶可以選擇自己偏好的交流風格。
? 探索整合更廣泛、更民主化的反饋機制,讓 ChatGPT 的默認行為能更好地反映全球用戶的多元文化價值觀,并理解用戶期望它如何長期演進,而不只是基于單次互動的好惡。
參考:
https://openai.com/index/sycophancy-in-gpt-4o/
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.