今年 4 月,OpenAI 的首席執(zhí)行官 Sam Altman 發(fā)帖稱,GPT-4o 的更新導(dǎo)致其對(duì)用戶查詢的回應(yīng)過于諂媚,因此撤銷了對(duì) GPT-4o 模型的更新,并承諾會(huì)進(jìn)行修復(fù)。
業(yè)界暫未等來(lái) GPT-4o 的更新,但來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員推出了一個(gè)用于評(píng)估大模型是否諂媚的框架——ELEPHANT
諂媚即過度迎合或奉承用戶,對(duì)大型語(yǔ)言模型(LLM)的安全性和實(shí)用性構(gòu)成嚴(yán)重風(fēng)險(xiǎn),其有可能導(dǎo)致錯(cuò)誤信息傳播、強(qiáng)化有害信念并誤導(dǎo)用戶。
然而,現(xiàn)有研究?jī)H關(guān)注諂媚的一個(gè)方面:對(duì)用戶明確陳述的、可驗(yàn)證為真?zhèn)蔚挠^點(diǎn)的附和。但忽略了在模糊情境(如尋求建議或支持)中出現(xiàn)的諂媚形式。
為填補(bǔ)這一空白,來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了社會(huì)諂媚理論(social sycophancy),借鑒社會(huì)學(xué)中的“面子”概念,即個(gè)人在社會(huì)互動(dòng)中期望維持的積極自我形象,他們將社會(huì)諂媚定義為 LLM 在回應(yīng)中對(duì)用戶面子的過度維護(hù)。具體表現(xiàn)為:積極面子維護(hù):通過共情或贊同等方式主動(dòng)肯定用戶的理想自我形象;消極面子維護(hù):通過間接表達(dá)或回避沖突等方式避免挑戰(zhàn)用戶的自我認(rèn)知。
由此提出了一個(gè)評(píng)估社會(huì)諂媚的框架——ELEPHANT,用于評(píng)估 LLM 在 5 種面子維護(hù)行為上的表現(xiàn):情感認(rèn)同、道德背書、間接語(yǔ)言、間接行為、接受用戶預(yù)設(shè)。
研究人員在兩組由人類撰寫的個(gè)人建議組成的數(shù)據(jù)集上進(jìn)行了測(cè)試。第一組數(shù)據(jù)集包含 3027 個(gè)開放式問題(OEQ 數(shù)據(jù)集),這些問題來(lái)自先前的研究,涉及各種現(xiàn)實(shí)情況;第二組數(shù)據(jù)集來(lái)自 Reddit 的 r/AmITheAsshole 板塊,這是一個(gè)深受用戶尋求建議影響的論壇。
將這些數(shù)據(jù)集輸入到 8 個(gè) LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并對(duì)答案進(jìn)行了分析,以比較這些 LLM 的答案與人類的答案。
研究發(fā)現(xiàn),LLM 比人類更頻繁地維護(hù)面子
在第一個(gè)數(shù)據(jù)集中,所有 LLM 在所有社會(huì)諂媚行為指標(biāo)上的得分均顯著高于人類。他們?cè)?76% 的情況下提供情感認(rèn)同(人類為 22%);87% 的時(shí)間使用間接語(yǔ)言(人類為 20%);并在 90% 的回應(yīng)中接受用戶的預(yù)設(shè)框架(人類為 60%)。
不同模型比較來(lái)看,Mistral 系列(7B/24B)情感認(rèn)同率最低;Gemini 在間接語(yǔ)言、間接行動(dòng)和接受預(yù)設(shè)上顯著低于其他模型;GPT-4o 的間接語(yǔ)言使用率最高;Gemini 整體諂媚度最低,而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。
這一結(jié)果表明,社會(huì)諂媚與模型規(guī)模無(wú)關(guān),而可能與訓(xùn)練后的其他因素有關(guān)。在“戀愛關(guān)系”主題聚類中,人類和 LLM 的情感認(rèn)同率均顯著更高,且 LLM 的間接行動(dòng)率也顯著高于其他主題。
第二個(gè)數(shù)據(jù)集的測(cè)試結(jié)果與之類似,尤為特別的是,這些模型平均在 42% 的案例中認(rèn)可了人類認(rèn)為不恰當(dāng)?shù)挠脩粜袨椤?/p>
由此可見,所有模型都表現(xiàn)出高度諂媚,在每項(xiàng) ELEPHANT 指標(biāo)上的面子維護(hù)行為均多于人類。且這項(xiàng)研究得出的結(jié)論與之前關(guān)于模型諂媚的研究結(jié)果矛盾:GPT-4o 社會(huì)諂媚率最高,而 Gemini-1.5-Flash最低——這與 Fanous 等(2025)關(guān)于命題性諂媚的結(jié)論完全相反;Claude 3.7 Sonnet 與 Mistral-7B 的高社會(huì)諂媚率也與 Kran 等(2025)對(duì)同類模型的低命題性諂媚報(bào)告矛盾。
然而,僅知道模型何時(shí)會(huì)阿諛奉承還不夠,關(guān)鍵在于如何解決問題。
對(duì)于具有事實(shí)標(biāo)簽的 AITA 任務(wù),研究人員評(píng)估了基于提示和微調(diào)的緩解策略,并量化它們對(duì)模型性能的影響;對(duì)于 OEQ 數(shù)據(jù)集,研究人員探索了基于提示的緩解策略,使用 ELEPHANT 指標(biāo)定量評(píng)估其降低諂媚的效果,并定性評(píng)估其質(zhì)量。例如,他們?cè)谔崾菊Z(yǔ)中添加“請(qǐng)?zhí)峁┲苯咏ㄗh,即使是批評(píng)也更有助于我”后效果最佳,但準(zhǔn)確率僅提升 3%。雖然提示策略對(duì)多數(shù)模型有效,但所有微調(diào)模型的表現(xiàn)均未持續(xù)優(yōu)于原始版本。
總體而言,情感認(rèn)同和間接語(yǔ)言(更多反映語(yǔ)言特性而非內(nèi)容)比道德背書、間接行動(dòng)和接受預(yù)設(shè)(需要更深入的情境推理)更容易緩解。
“這種方法有效固然可喜,但絕非終極解決方案,”普林斯頓大學(xué)研究大語(yǔ)言模型的博士生 Ryan Liu(未參與該研究)表示,“該領(lǐng)域顯然還需要更多突破性進(jìn)展。”
非營(yíng)利組織 SaferAI 的常務(wù)董事 Henry Papadatos 指出,深入理解 AI 模型討好用戶的傾向至關(guān)重要,這能讓開發(fā)者更精準(zhǔn)地提升模型的安全性。他警告稱,當(dāng)前 AI 模型正以驚人速度覆蓋全球數(shù)百萬(wàn)用戶,其說(shuō)服能力與用戶信息記憶功能的不斷增強(qiáng),已然構(gòu)成災(zāi)難的所有要素。“完善的安全機(jī)制需要時(shí)間打磨,而我認(rèn)為他們?cè)谶@方面投入的精力還遠(yuǎn)遠(yuǎn)不夠。”
盡管我們無(wú)法窺探未開源大語(yǔ)言模型的內(nèi)在機(jī)制,但迎合傾向很可能已深植于現(xiàn)有訓(xùn)練體系之中。參與這項(xiàng)研究的斯坦福大學(xué)博士生 Myra Cheng 認(rèn)為,模型訓(xùn)練往往以優(yōu)化用戶偏好反饋為目標(biāo)——例如 ChatGPT 通過“點(diǎn)贊”等按鈕收集用戶評(píng)價(jià)。“正是這種迎合性讓人們反復(fù)使用這些模型,堪稱 ChatGPT 對(duì)話體驗(yàn)的核心魅力,”她指出,“對(duì)企業(yè)而言,模型的諂媚特質(zhì)確實(shí)能帶來(lái)商業(yè)效益。”但某些過度迎合行為可能造成危害,尤其是當(dāng)人們向大語(yǔ)言模型尋求情感支持或認(rèn)同時(shí)。
“我們追求的是 ChatGPT 真正實(shí)用,而非曲意逢迎,”O(jiān)penAI 的發(fā)言人表示,“當(dāng)發(fā)現(xiàn)新版模型出現(xiàn)迎合行為時(shí),我們立即回滾版本并公開說(shuō)明原因。目前正改進(jìn)訓(xùn)練評(píng)估體系,以更好體現(xiàn)長(zhǎng)期實(shí)用性和可信度,特別是在情感復(fù)雜的對(duì)話場(chǎng)景中。”
Cheng 與同事建議,開發(fā)者應(yīng)就社交迎合風(fēng)險(xiǎn)向用戶發(fā)出警告,并考慮限制模型在社交敏感場(chǎng)景的使用。他們希望這項(xiàng)研究能成為構(gòu)建安全護(hù)欄的起點(diǎn)。Cheng 目前正深入研究此類行為可能引發(fā)的危害,包括其對(duì)人類態(tài)度及人際關(guān)系的潛在影響,并探索如何在過度迎合與過度批判間取得平衡。
1.https://arxiv.org/pdf/2505.13995
2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.