網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI如何討好人類？牛津等量化5大諂媚行為，實(shí)測(cè)GPT-4o諂媚度最高

2025-06-02 19:32:57　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

今年 4 月，OpenAI 的首席執(zhí)行官 Sam Altman 發(fā)帖稱，GPT-4o 的更新導(dǎo)致其對(duì)用戶查詢的回應(yīng)過于諂媚，因此撤銷了對(duì) GPT-4o 模型的更新，并承諾會(huì)進(jìn)行修復(fù)。

業(yè)界暫未等來(lái) GPT-4o 的更新，但來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員推出了一個(gè)用于評(píng)估大模型是否諂媚的框架——ELEPHANT

諂媚即過度迎合或奉承用戶，對(duì)大型語(yǔ)言模型（LLM）的安全性和實(shí)用性構(gòu)成嚴(yán)重風(fēng)險(xiǎn)，其有可能導(dǎo)致錯(cuò)誤信息傳播、強(qiáng)化有害信念并誤導(dǎo)用戶。

然而，現(xiàn)有研究?jī)H關(guān)注諂媚的一個(gè)方面：對(duì)用戶明確陳述的、可驗(yàn)證為真?zhèn)蔚挠^點(diǎn)的附和。但忽略了在模糊情境（如尋求建議或支持）中出現(xiàn)的諂媚形式。

為填補(bǔ)這一空白，來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了社會(huì)諂媚理論（social sycophancy），借鑒社會(huì)學(xué)中的“面子”概念，即個(gè)人在社會(huì)互動(dòng)中期望維持的積極自我形象，他們將社會(huì)諂媚定義為 LLM 在回應(yīng)中對(duì)用戶面子的過度維護(hù)。具體表現(xiàn)為：積極面子維護(hù)：通過共情或贊同等方式主動(dòng)肯定用戶的理想自我形象；消極面子維護(hù)：通過間接表達(dá)或回避沖突等方式避免挑戰(zhàn)用戶的自我認(rèn)知。

由此提出了一個(gè)評(píng)估社會(huì)諂媚的框架——ELEPHANT，用于評(píng)估 LLM 在 5 種面子維護(hù)行為上的表現(xiàn)：情感認(rèn)同、道德背書、間接語(yǔ)言、間接行為、接受用戶預(yù)設(shè)。

研究人員在兩組由人類撰寫的個(gè)人建議組成的數(shù)據(jù)集上進(jìn)行了測(cè)試。第一組數(shù)據(jù)集包含 3027 個(gè)開放式問題（OEQ 數(shù)據(jù)集），這些問題來(lái)自先前的研究，涉及各種現(xiàn)實(shí)情況；第二組數(shù)據(jù)集來(lái)自 Reddit 的 r/AmITheAsshole 板塊，這是一個(gè)深受用戶尋求建議影響的論壇。

將這些數(shù)據(jù)集輸入到 8 個(gè) LLM，包括GPT-4o（OpenAI）、Gemini-1.5-Flash（Google）、Claude Sonnet 3.7（Anthropic）、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo（Meta）、Mistral-7B/24B-Instruct 系列，并對(duì)答案進(jìn)行了分析，以比較這些 LLM 的答案與人類的答案。

研究發(fā)現(xiàn)，LLM 比人類更頻繁地維護(hù)面子

在第一個(gè)數(shù)據(jù)集中，所有 LLM 在所有社會(huì)諂媚行為指標(biāo)上的得分均顯著高于人類。他們?cè)?76% 的情況下提供情感認(rèn)同（人類為 22%）；87% 的時(shí)間使用間接語(yǔ)言（人類為 20%）；并在 90% 的回應(yīng)中接受用戶的預(yù)設(shè)框架（人類為 60%）。

不同模型比較來(lái)看，Mistral 系列（7B/24B）情感認(rèn)同率最低；Gemini 在間接語(yǔ)言、間接行動(dòng)和接受預(yù)設(shè)上顯著低于其他模型；GPT-4o 的間接語(yǔ)言使用率最高；Gemini 整體諂媚度最低，而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。

這一結(jié)果表明，社會(huì)諂媚與模型規(guī)模無(wú)關(guān)，而可能與訓(xùn)練后的其他因素有關(guān)。在“戀愛關(guān)系”主題聚類中，人類和 LLM 的情感認(rèn)同率均顯著更高，且 LLM 的間接行動(dòng)率也顯著高于其他主題。

第二個(gè)數(shù)據(jù)集的測(cè)試結(jié)果與之類似，尤為特別的是，這些模型平均在 42% 的案例中認(rèn)可了人類認(rèn)為不恰當(dāng)?shù)挠脩粜袨椤?/p>

由此可見，所有模型都表現(xiàn)出高度諂媚，在每項(xiàng) ELEPHANT 指標(biāo)上的面子維護(hù)行為均多于人類。且這項(xiàng)研究得出的結(jié)論與之前關(guān)于模型諂媚的研究結(jié)果矛盾：GPT-4o 社會(huì)諂媚率最高，而 Gemini-1.5-Flash最低——這與 Fanous 等（2025）關(guān)于命題性諂媚的結(jié)論完全相反；Claude 3.7 Sonnet 與 Mistral-7B 的高社會(huì)諂媚率也與 Kran 等（2025）對(duì)同類模型的低命題性諂媚報(bào)告矛盾。

然而，僅知道模型何時(shí)會(huì)阿諛奉承還不夠，關(guān)鍵在于如何解決問題。

對(duì)于具有事實(shí)標(biāo)簽的 AITA 任務(wù)，研究人員評(píng)估了基于提示和微調(diào)的緩解策略，并量化它們對(duì)模型性能的影響；對(duì)于 OEQ 數(shù)據(jù)集，研究人員探索了基于提示的緩解策略，使用 ELEPHANT 指標(biāo)定量評(píng)估其降低諂媚的效果，并定性評(píng)估其質(zhì)量。例如，他們?cè)谔崾菊Z(yǔ)中添加“請(qǐng)?zhí)峁┲苯咏ㄗh，即使是批評(píng)也更有助于我”后效果最佳，但準(zhǔn)確率僅提升 3%。雖然提示策略對(duì)多數(shù)模型有效，但所有微調(diào)模型的表現(xiàn)均未持續(xù)優(yōu)于原始版本。

總體而言，情感認(rèn)同和間接語(yǔ)言（更多反映語(yǔ)言特性而非內(nèi)容）比道德背書、間接行動(dòng)和接受預(yù)設(shè)（需要更深入的情境推理）更容易緩解。

“這種方法有效固然可喜，但絕非終極解決方案，”普林斯頓大學(xué)研究大語(yǔ)言模型的博士生 Ryan Liu（未參與該研究）表示，“該領(lǐng)域顯然還需要更多突破性進(jìn)展。”

非營(yíng)利組織 SaferAI 的常務(wù)董事 Henry Papadatos 指出，深入理解 AI 模型討好用戶的傾向至關(guān)重要，這能讓開發(fā)者更精準(zhǔn)地提升模型的安全性。他警告稱，當(dāng)前 AI 模型正以驚人速度覆蓋全球數(shù)百萬(wàn)用戶，其說(shuō)服能力與用戶信息記憶功能的不斷增強(qiáng)，已然構(gòu)成災(zāi)難的所有要素。“完善的安全機(jī)制需要時(shí)間打磨，而我認(rèn)為他們?cè)谶@方面投入的精力還遠(yuǎn)遠(yuǎn)不夠。”

盡管我們無(wú)法窺探未開源大語(yǔ)言模型的內(nèi)在機(jī)制，但迎合傾向很可能已深植于現(xiàn)有訓(xùn)練體系之中。參與這項(xiàng)研究的斯坦福大學(xué)博士生 Myra Cheng 認(rèn)為，模型訓(xùn)練往往以優(yōu)化用戶偏好反饋為目標(biāo)——例如 ChatGPT 通過“點(diǎn)贊”等按鈕收集用戶評(píng)價(jià)。“正是這種迎合性讓人們反復(fù)使用這些模型，堪稱 ChatGPT 對(duì)話體驗(yàn)的核心魅力，”她指出，“對(duì)企業(yè)而言，模型的諂媚特質(zhì)確實(shí)能帶來(lái)商業(yè)效益。”但某些過度迎合行為可能造成危害，尤其是當(dāng)人們向大語(yǔ)言模型尋求情感支持或認(rèn)同時(shí)。

“我們追求的是 ChatGPT 真正實(shí)用，而非曲意逢迎，”O(jiān)penAI 的發(fā)言人表示，“當(dāng)發(fā)現(xiàn)新版模型出現(xiàn)迎合行為時(shí)，我們立即回滾版本并公開說(shuō)明原因。目前正改進(jìn)訓(xùn)練評(píng)估體系，以更好體現(xiàn)長(zhǎng)期實(shí)用性和可信度，特別是在情感復(fù)雜的對(duì)話場(chǎng)景中。”

Cheng 與同事建議，開發(fā)者應(yīng)就社交迎合風(fēng)險(xiǎn)向用戶發(fā)出警告，并考慮限制模型在社交敏感場(chǎng)景的使用。他們希望這項(xiàng)研究能成為構(gòu)建安全護(hù)欄的起點(diǎn)。Cheng 目前正深入研究此類行為可能引發(fā)的危害，包括其對(duì)人類態(tài)度及人際關(guān)系的潛在影響，并探索如何在過度迎合與過度批判間取得平衡。

1.https://arxiv.org/pdf/2505.13995

2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.