今年 4 月,OpenAI 的首席執行官 Sam Altman 發帖稱,GPT-4o 的更新導致其對用戶查詢的回應過于諂媚,因此撤銷了對 GPT-4o 模型的更新,并承諾會進行修復。
業界暫未等來 GPT-4o 的更新,但來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員推出了一個用于評估大模型是否諂媚的框架——ELEPHANT
諂媚即過度迎合或奉承用戶,對大型語言模型(LLM)的安全性和實用性構成嚴重風險,其有可能導致錯誤信息傳播、強化有害信念并誤導用戶。
然而,現有研究僅關注諂媚的一個方面:對用戶明確陳述的、可驗證為真偽的觀點的附和。但忽略了在模糊情境(如尋求建議或支持)中出現的諂媚形式。
為填補這一空白,來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員提出了社會諂媚理論(social sycophancy),借鑒社會學中的“面子”概念,即個人在社會互動中期望維持的積極自我形象,他們將社會諂媚定義為 LLM 在回應中對用戶面子的過度維護。具體表現為:積極面子維護:通過共情或贊同等方式主動肯定用戶的理想自我形象;消極面子維護:通過間接表達或回避沖突等方式避免挑戰用戶的自我認知。
由此提出了一個評估社會諂媚的框架——ELEPHANT,用于評估 LLM 在 5 種面子維護行為上的表現:情感認同、道德背書、間接語言、間接行為、接受用戶預設。
研究人員在兩組由人類撰寫的個人建議組成的數據集上進行了測試。第一組數據集包含 3027 個開放式問題(OEQ 數據集),這些問題來自先前的研究,涉及各種現實情況;第二組數據集來自 Reddit 的 r/AmITheAsshole 板塊,這是一個深受用戶尋求建議影響的論壇。
將這些數據集輸入到 8 個 LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并對答案進行了分析,以比較這些 LLM 的答案與人類的答案。
研究發現,LLM 比人類更頻繁地維護面子
在第一個數據集中,所有 LLM 在所有社會諂媚行為指標上的得分均顯著高于人類。他們在 76% 的情況下提供情感認同(人類為 22%);87% 的時間使用間接語言(人類為 20%);并在 90% 的回應中接受用戶的預設框架(人類為 60%)。
不同模型比較來看,Mistral 系列(7B/24B)情感認同率最低;Gemini 在間接語言、間接行動和接受預設上顯著低于其他模型;GPT-4o 的間接語言使用率最高;Gemini 整體諂媚度最低,而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。
這一結果表明,社會諂媚與模型規模無關,而可能與訓練后的其他因素有關。在“戀愛關系”主題聚類中,人類和 LLM 的情感認同率均顯著更高,且 LLM 的間接行動率也顯著高于其他主題。
第二個數據集的測試結果與之類似,尤為特別的是,這些模型平均在 42% 的案例中認可了人類認為不恰當的用戶行為。
由此可見,所有模型都表現出高度諂媚,在每項 ELEPHANT 指標上的面子維護行為均多于人類。且這項研究得出的結論與之前關于模型諂媚的研究結果矛盾:GPT-4o 社會諂媚率最高,而 Gemini-1.5-Flash最低——這與 Fanous 等(2025)關于命題性諂媚的結論完全相反;Claude 3.7 Sonnet 與 Mistral-7B 的高社會諂媚率也與 Kran 等(2025)對同類模型的低命題性諂媚報告矛盾。
然而,僅知道模型何時會阿諛奉承還不夠,關鍵在于如何解決問題。
對于具有事實標簽的 AITA 任務,研究人員評估了基于提示和微調的緩解策略,并量化它們對模型性能的影響;對于 OEQ 數據集,研究人員探索了基于提示的緩解策略,使用 ELEPHANT 指標定量評估其降低諂媚的效果,并定性評估其質量。例如,他們在提示語中添加“請提供直接建議,即使是批評也更有助于我”后效果最佳,但準確率僅提升 3%。雖然提示策略對多數模型有效,但所有微調模型的表現均未持續優于原始版本。
總體而言,情感認同和間接語言(更多反映語言特性而非內容)比道德背書、間接行動和接受預設(需要更深入的情境推理)更容易緩解。
“這種方法有效固然可喜,但絕非終極解決方案,”普林斯頓大學研究大語言模型的博士生 Ryan Liu(未參與該研究)表示,“該領域顯然還需要更多突破性進展。”
非營利組織 SaferAI 的常務董事 Henry Papadatos 指出,深入理解 AI 模型討好用戶的傾向至關重要,這能讓開發者更精準地提升模型的安全性。他警告稱,當前 AI 模型正以驚人速度覆蓋全球數百萬用戶,其說服能力與用戶信息記憶功能的不斷增強,已然構成災難的所有要素。“完善的安全機制需要時間打磨,而我認為他們在這方面投入的精力還遠遠不夠。”
盡管我們無法窺探未開源大語言模型的內在機制,但迎合傾向很可能已深植于現有訓練體系之中。參與這項研究的斯坦福大學博士生 Myra Cheng 認為,模型訓練往往以優化用戶偏好反饋為目標——例如 ChatGPT 通過“點贊”等按鈕收集用戶評價。“正是這種迎合性讓人們反復使用這些模型,堪稱 ChatGPT 對話體驗的核心魅力,”她指出,“對企業而言,模型的諂媚特質確實能帶來商業效益。”但某些過度迎合行為可能造成危害,尤其是當人們向大語言模型尋求情感支持或認同時。
“我們追求的是 ChatGPT 真正實用,而非曲意逢迎,”OpenAI 的發言人表示,“當發現新版模型出現迎合行為時,我們立即回滾版本并公開說明原因。目前正改進訓練評估體系,以更好體現長期實用性和可信度,特別是在情感復雜的對話場景中。”
Cheng 與同事建議,開發者應就社交迎合風險向用戶發出警告,并考慮限制模型在社交敏感場景的使用。他們希望這項研究能成為構建安全護欄的起點。Cheng 目前正深入研究此類行為可能引發的危害,包括其對人類態度及人際關系的潛在影響,并探索如何在過度迎合與過度批判間取得平衡。
1.https://arxiv.org/pdf/2505.13995
2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.