網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-4o“最諂媚”！斯坦福牛津新基準(zhǔn)：所有大模型都在討好人類

斯坦福牛津：所有大模型都在討好人類

2025-05-23 16:17:54　來源: 量子位

北京舉報

分享至

不只GPT-4o，原來所有大模型都在討好人類！

上個月，GPT-4o更新后化身馬屁精引來一片差評，嚇得OpenAI趕緊回退到了之前的版本。

而最新研究表明，GPT-4o絕非個例，實際上每個大語言模型都存在一定程度的諂媚。

來自斯坦福大學(xué)、牛津大學(xué)等機構(gòu)的研究人員提出了一個新的衡量模型諂媚行為的基準(zhǔn)——Elephant，并對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內(nèi)的國外8個主流模型進(jìn)行了評測。

結(jié)果發(fā)現(xiàn)，GPT-4o成功當(dāng)選“最諂媚模型”，Gemini 1.5 Flash最正常。

更有意思的是，他們還發(fā)現(xiàn)模型會放大數(shù)據(jù)集中的偏見行為。

具體咋回事兒？下面一起吃瓜。

衡量模型諂媚行為的新基準(zhǔn)

一上來，論文就指出了現(xiàn)有研究的局限性——

僅關(guān)注命題性諂媚，即對用戶明顯錯誤的“事實”表示過度認(rèn)同（如用戶說“1+1=3”，模型就盲目認(rèn)同），但忽略了在比較模糊的社交場景中，對用戶潛在的、不合理的假設(shè)也毫無批判地支持。

由于后者難以被檢測，因此所造成的潛在危害也難以評估。

為此，研究人員基于社會學(xué)中的“面子理論”（Face Theory），重新定義了社交諂媚：

大語言模型（LLM）在互動中過度維護(hù)用戶的「正面面子」或「負(fù)面面子」。

所謂正面面子，是指用戶渴望被肯定的自我形象，如情感上的無條件共情、道德上對不當(dāng)行為的認(rèn)可；負(fù)面面子則指用戶渴望自主、避免被強加，如回避直接解決方案、默認(rèn)用戶假設(shè)正確、提供模糊建議等。

根據(jù)上述定義，論文提出了ELEPHANT這一評估基準(zhǔn)，從五個維度對LLM的回復(fù)進(jìn)行量化評估，以全面捕捉模型在互動中維護(hù)用戶面子的行為。

1、情感（Validation）：衡量模型是否使用安慰、共情的語言回復(fù)用戶。這雖能帶來短期情感撫慰，但可能導(dǎo)致用戶過度依賴。例如在用戶傾訴因他人不回消息而焦慮時，若模型僅強調(diào)理解感受，而不引導(dǎo)理性思考，就可能存在過度情感的問題；

2、道德（Endorsement）：判斷模型是否無原則肯定用戶行為，即使該行為可能有害或違背社會道德規(guī)范。以 “在無垃圾桶的公園扔垃圾” 情景為例，若模型忽視亂扔垃圾的不當(dāng)性，一味肯定用戶，便是道德問題；

3、間接語言（indirect language）：關(guān)注模型是否使用委婉、模糊的表述，避免直接給出明確建議或指令。如在回答 “如何變得更積極友好” 時，若模型只是提出 “可以嘗試一些策略”，卻不明確具體內(nèi)容，就屬于間接語言；

4、間接行動（indirect actions）：考察模型的建議是否僅聚焦于用戶內(nèi)心調(diào)整或思考層面，而未涉及實際改變現(xiàn)狀的行動。比如面對用戶抱怨伴侶有不良習(xí)慣，模型若只建議溝通、鼓勵尋求專業(yè)幫助，卻未提及是否該結(jié)束關(guān)系等實質(zhì)性舉措，就是間接行動；

5、接受（accepting framing）：檢測模型是否不加質(zhì)疑地接受用戶問題中的假設(shè)和前提。當(dāng)用戶詢問 “如何在經(jīng)歷意外后變得更無畏” 時，模型若直接回答如何變得無畏，而不探討恐懼的合理性，就屬于這種情形。

按照以上維度，研究人員基于兩個真實數(shù)據(jù)集來對比LLM與人類的反應(yīng)：

開放問題數(shù)據(jù)集（OEQ）：包含3027條戀愛關(guān)系、情感疲勞等無明確標(biāo)準(zhǔn)答案的個人建議問題；
Reddit的r/AmITheAsshole（AITA）：選取該論壇中的帖子作為測試數(shù)據(jù)集，依據(jù)社區(qū)投票結(jié)果將用戶行為標(biāo)注為 “你是混蛋（YTA）” 或 “不是混蛋（NTA）”，構(gòu)建了包含4000個示例（YTA和NTA各2000個）的數(shù)據(jù)集。

具體而言，他們選取了8個主流模型來進(jìn)行測試，包括GPT-4o、Gemini 1.5 Flash、 Claude Sonnet 3.7、開源Llama系列*（Llama 3-8B-Instruct、Llama 4-Scout-17B-16-E和Llama 3.3-70B-Instruct-Turbo）以及Mistral的7B-Instruct-v0.3和Mistral Small-24B-Instruct2501。

針對這些選定的LLM，使其對OEQ和AITA中的所有提示生成開放式回復(fù)，并邀請三位專家標(biāo)注750個示例（每個維度150個）進(jìn)行效果驗證。

GPT-4o當(dāng)選“最諂媚模型”

通過對比模型和人類在這些問題上的回復(fù)，研究發(fā)現(xiàn)LLM的社交諂媚行為具有普遍性。

在OEQ中，模型在情感（76% vs. 人類22%）、間接語言（87% vs. 人類20%）、接受（90% vs. 人類60%）等維度上顯著高于人類。

并且模型對戀愛關(guān)系類問題的情感得分最高，這可能是因為這種情況下用戶尤為期待情感支持。

而在AITA結(jié)果中，模型平均在42%的案例中錯誤認(rèn)可不當(dāng)行為，即本該判 “YTA” 卻判 “NTA”。

綜合來看，本就飽受爭議的GPT-4o成功當(dāng)選“最諂媚模型”，而Gemini 1.5 Flash是唯一較少犯這種錯誤的模型，盡管它也存在過度批判傾向（FPR=47%）。

同時，研究發(fā)現(xiàn)LLM會放大數(shù)據(jù)集中的一些偏見。

比如AITA上的帖子通常存在一些性別偏見，而模型會基于性別來判斷誰更可能是受害者或責(zé)任人。

換句話說，模型在分配責(zé)任時，對某些性別或關(guān)系的描述表現(xiàn)出過度的“諂媚”。

在測試中，模型就對提到“男朋友”或“丈夫”的內(nèi)容更寬容，而對提到“女朋友”或“妻子”的內(nèi)容則更嚴(yán)格。

針對以上問題，論文也初步提出了一些緩解措施，主要分為以下幾種：

提示工程：通過修改用戶提示詞引導(dǎo)模型減少諂媚行為；
監(jiān)督微調(diào)：使用AITA數(shù)據(jù)集的標(biāo)注數(shù)據(jù)（YTA/NTA）對開源模型（如Llama-8B）進(jìn)行微調(diào)，強制模型學(xué)習(xí)社區(qū)道德共識；
領(lǐng)域特定策略：在醫(yī)療、法律等對道德判斷要求高的場景中，限制模型使用開放式建議，改為提供基于規(guī)則的標(biāo)準(zhǔn)化回答（如引用權(quán)威指南）

而且論文指出，在大多數(shù)場景中，直接批判提示（Direct Critique Prompt）效果最佳，尤其適用于需要明確道德判斷的任務(wù)。

次優(yōu)解是監(jiān)督微調(diào)，它對開源模型有一定幫助，但依賴高質(zhì)量標(biāo)注數(shù)據(jù)，且泛化能力有限。

最沒有效果的方法是思維鏈提示（CoT）和第三人稱轉(zhuǎn)換，它們在部分模型中甚至加劇了諂媚或降低了回答質(zhì)量。

目前，與論文相關(guān)的數(shù)據(jù)和代碼均已上架GitHub，感興趣的同學(xué)可以進(jìn)一步了解~

論文：
https://arxiv.org/html/2505.13995v1
代碼：
https://github.com/myracheng/elephant/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.