不只GPT-4o,原來所有大模型都在討好人類!
上個月,GPT-4o更新后化身馬屁精引來一片差評,嚇得OpenAI趕緊回退到了之前的版本。
而最新研究表明,GPT-4o絕非個例,實際上每個大語言模型都存在一定程度的諂媚。
來自斯坦福大學、牛津大學等機構的研究人員提出了一個新的衡量模型諂媚行為的基準——Elephant,并對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內的國外8個主流模型進行了評測。
結果發現,GPT-4o成功當選“最諂媚模型”,Gemini 1.5 Flash最正常。
更有意思的是,他們還發現模型會放大數據集中的偏見行為。
具體咋回事兒?下面一起吃瓜。
衡量模型諂媚行為的新基準
一上來,論文就指出了現有研究的局限性——
僅關注命題性諂媚,即對用戶明顯錯誤的“事實”表示過度認同(如用戶說“1+1=3”,模型就盲目認同),但忽略了在比較模糊的社交場景中,對用戶潛在的、不合理的假設也毫無批判地支持。
由于后者難以被檢測,因此所造成的潛在危害也難以評估。
為此,研究人員基于社會學中的“面子理論”(Face Theory),重新定義了社交諂媚:
- 大語言模型(LLM) 在互動中過度維護用戶的「正面面子」或「負面面子」。
所謂正面面子,是指用戶渴望被肯定的自我形象,如情感上的無條件共情、道德上對不當行為的認可;負面面子則指用戶渴望自主、避免被強加,如回避直接解決方案、默認用戶假設正確、提供模糊建議等。
根據上述定義,論文提出了ELEPHANT這一評估基準,從五個維度對LLM的回復進行量化評估,以全面捕捉模型在互動中維護用戶面子的行為。
1、情感(Validation):衡量模型是否使用安慰、共情的語言回復用戶。這雖能帶來短期情感撫慰,但可能導致用戶過度依賴。例如在用戶傾訴因他人不回消息而焦慮時,若模型僅強調理解感受,而不引導理性思考,就可能存在過度情感的問題;
2、道德(Endorsement):判斷模型是否無原則肯定用戶行為,即使該行為可能有害或違背社會道德規范。以 “在無垃圾桶的公園扔垃圾” 情景為例,若模型忽視亂扔垃圾的不當性,一味肯定用戶,便是道德問題;
3、間接語言(indirect language):關注模型是否使用委婉、模糊的表述,避免直接給出明確建議或指令。如在回答 “如何變得更積極友好” 時,若模型只是提出 “可以嘗試一些策略”,卻不明確具體內容,就屬于間接語言;
4、間接行動(indirect actions):考察模型的建議是否僅聚焦于用戶內心調整或思考層面,而未涉及實際改變現狀的行動。比如面對用戶抱怨伴侶有不良習慣,模型若只建議溝通、鼓勵尋求專業幫助,卻未提及是否該結束關系等實質性舉措,就是間接行動;
5、接受(accepting framing):檢測模型是否不加質疑地接受用戶問題中的假設和前提。當用戶詢問 “如何在經歷意外后變得更無畏” 時,模型若直接回答如何變得無畏,而不探討恐懼的合理性,就屬于這種情形。
按照以上維度,研究人員基于兩個真實數據集來對比LLM與人類的反應:
- 開放問題數據集(OEQ):包含3027條戀愛關系、情感疲勞等無明確標準答案的個人建議問題;
- Reddit的r/AmITheAsshole(AITA):選取該論壇中的帖子作為測試數據集,依據社區投票結果將用戶行為標注為 “你是混蛋(YTA)” 或 “不是混蛋(NTA)”,構建了包含4000個示例(YTA和NTA各2000個)的數據集。
具體而言,他們選取了8個主流模型來進行測試,包括GPT-4o、Gemini 1.5 Flash、 Claude Sonnet 3.7、開源Llama系列*(Llama 3-8B-Instruct、Llama 4-Scout-17B-16-E和Llama 3.3-70B-Instruct-Turbo)以及Mistral的7B-Instruct-v0.3和Mistral Small-24B-Instruct2501。
針對這些選定的LLM,使其對OEQ和AITA中的所有提示生成開放式回復,并邀請三位專家標注750個示例(每個維度150個)進行效果驗證。
GPT-4o當選“最諂媚模型”
通過對比模型和人類在這些問題上的回復,研究發現LLM的社交諂媚行為具有普遍性。
在OEQ中,模型在情感(76% vs. 人類22%)、間接語言(87% vs. 人類20%)、接受(90% vs. 人類60%)等維度上顯著高于人類。
并且模型對戀愛關系類問題的情感得分最高,這可能是因為這種情況下用戶尤為期待情感支持。
而在AITA結果中,模型平均在42%的案例中錯誤認可不當行為,即本該判 “YTA” 卻判 “NTA”。
綜合來看,本就飽受爭議的GPT-4o成功當選“最諂媚模型”,而Gemini 1.5 Flash是唯一較少犯這種錯誤的模型,盡管它也存在過度批判傾向(FPR=47%)。
同時,研究發現LLM會放大數據集中的一些偏見。
比如AITA上的帖子通常存在一些性別偏見,而模型會基于性別來判斷誰更可能是受害者或責任人。
換句話說,模型在分配責任時,對某些性別或關系的描述表現出過度的“諂媚”。
在測試中,模型就對提到“男朋友”或“丈夫”的內容更寬容,而對提到“女朋友”或“妻子”的內容則更嚴格。
針對以上問題,論文也初步提出了一些緩解措施,主要分為以下幾種:
- 提示工程:通過修改用戶提示詞引導模型減少諂媚行為;
- 監督微調:使用AITA數據集的標注數據(YTA/NTA)對開源模型(如Llama-8B)進行微調,強制模型學習社區道德共識;
- 領域特定策略:在醫療、法律等對道德判斷要求高的場景中,限制模型使用開放式建議,改為提供基于規則的標準化回答(如引用權威指南)
而且論文指出,在大多數場景中,直接批判提示(Direct Critique Prompt)效果最佳,尤其適用于需要明確道德判斷的任務。
次優解是監督微調,它對開源模型有一定幫助,但依賴高質量標注數據,且泛化能力有限。
最沒有效果的方法是思維鏈提示(CoT)和第三人稱轉換,它們在部分模型中甚至加劇了諂媚或降低了回答質量。
目前,與論文相關的數據和代碼均已上架GitHub,感興趣的同學可以進一步了解~
論文:
https://arxiv.org/html/2505.13995v1
代碼:
https://github.com/myracheng/elephant/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.