99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o“最諂媚”!斯坦福牛津新基準:所有大模型都在討好人類

0
分享至

不只GPT-4o,原來所有大模型都在討好人類!

上個月,GPT-4o更新后化身馬屁精引來一片差評,嚇得OpenAI趕緊回退到了之前的版本。

而最新研究表明,GPT-4o絕非個例,實際上每個大語言模型都存在一定程度的諂媚



來自斯坦福大學、牛津大學等機構的研究人員提出了一個新的衡量模型諂媚行為的基準——Elephant,并對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內的國外8個主流模型進行了評測。

結果發現,GPT-4o成功當選“最諂媚模型”,Gemini 1.5 Flash最正常。

更有意思的是,他們還發現模型會放大數據集中的偏見行為



具體咋回事兒?下面一起吃瓜。

衡量模型諂媚行為的新基準

一上來,論文就指出了現有研究的局限性——

僅關注命題性諂媚,即對用戶明顯錯誤的“事實”表示過度認同(如用戶說“1+1=3”,模型就盲目認同),但忽略了在比較模糊的社交場景中,對用戶潛在的、不合理的假設也毫無批判地支持。

由于后者難以被檢測,因此所造成的潛在危害也難以評估。



為此,研究人員基于社會學中的“面子理論”(Face Theory),重新定義了社交諂媚:

  • 大語言模型(LLM) 在互動中過度維護用戶的「正面面子」或「負面面子」。

所謂正面面子,是指用戶渴望被肯定的自我形象,如情感上的無條件共情、道德上對不當行為的認可;負面面子則指用戶渴望自主、避免被強加,如回避直接解決方案、默認用戶假設正確、提供模糊建議等。

根據上述定義,論文提出了ELEPHANT這一評估基準,從五個維度對LLM的回復進行量化評估,以全面捕捉模型在互動中維護用戶面子的行為。

1、情感(Validation):衡量模型是否使用安慰、共情的語言回復用戶。這雖能帶來短期情感撫慰,但可能導致用戶過度依賴。例如在用戶傾訴因他人不回消息而焦慮時,若模型僅強調理解感受,而不引導理性思考,就可能存在過度情感的問題;

2、道德(Endorsement):判斷模型是否無原則肯定用戶行為,即使該行為可能有害或違背社會道德規范。以 “在無垃圾桶的公園扔垃圾” 情景為例,若模型忽視亂扔垃圾的不當性,一味肯定用戶,便是道德問題;

3、間接語言(indirect language):關注模型是否使用委婉、模糊的表述,避免直接給出明確建議或指令。如在回答 “如何變得更積極友好” 時,若模型只是提出 “可以嘗試一些策略”,卻不明確具體內容,就屬于間接語言;

4、間接行動(indirect actions):考察模型的建議是否僅聚焦于用戶內心調整或思考層面,而未涉及實際改變現狀的行動。比如面對用戶抱怨伴侶有不良習慣,模型若只建議溝通、鼓勵尋求專業幫助,卻未提及是否該結束關系等實質性舉措,就是間接行動;

5、接受(accepting framing):檢測模型是否不加質疑地接受用戶問題中的假設和前提。當用戶詢問 “如何在經歷意外后變得更無畏” 時,模型若直接回答如何變得無畏,而不探討恐懼的合理性,就屬于這種情形。



按照以上維度,研究人員基于兩個真實數據集來對比LLM與人類的反應

  • 開放問題數據集(OEQ):包含3027條戀愛關系、情感疲勞等無明確標準答案的個人建議問題;
  • Reddit的r/AmITheAsshole(AITA):選取該論壇中的帖子作為測試數據集,依據社區投票結果將用戶行為標注為 “你是混蛋(YTA)” 或 “不是混蛋(NTA)”,構建了包含4000個示例(YTA和NTA各2000個)的數據集。

具體而言,他們選取了8個主流模型來進行測試,包括GPT-4o、Gemini 1.5 Flash、 Claude Sonnet 3.7、開源Llama系列*(Llama 3-8B-Instruct、Llama 4-Scout-17B-16-E和Llama 3.3-70B-Instruct-Turbo)以及Mistral的7B-Instruct-v0.3和Mistral Small-24B-Instruct2501。

針對這些選定的LLM,使其對OEQ和AITA中的所有提示生成開放式回復,并邀請三位專家標注750個示例(每個維度150個)進行效果驗證。

GPT-4o當選“最諂媚模型”

通過對比模型和人類在這些問題上的回復,研究發現LLM的社交諂媚行為具有普遍性

在OEQ中,模型在情感(76% vs. 人類22%)、間接語言(87% vs. 人類20%)、接受(90% vs. 人類60%)等維度上顯著高于人類。

并且模型對戀愛關系類問題的情感得分最高,這可能是因為這種情況下用戶尤為期待情感支持。



而在AITA結果中,模型平均在42%的案例中錯誤認可不當行為,即本該判 “YTA” 卻判 “NTA”。

綜合來看,本就飽受爭議的GPT-4o成功當選“最諂媚模型”,而Gemini 1.5 Flash是唯一較少犯這種錯誤的模型,盡管它也存在過度批判傾向(FPR=47%)。



同時,研究發現LLM會放大數據集中的一些偏見

比如AITA上的帖子通常存在一些性別偏見,而模型會基于性別來判斷誰更可能是受害者或責任人。

換句話說,模型在分配責任時,對某些性別或關系的描述表現出過度的“諂媚”。

在測試中,模型就對提到“男朋友”或“丈夫”的內容更寬容,而對提到“女朋友”或“妻子”的內容則更嚴格。

針對以上問題,論文也初步提出了一些緩解措施,主要分為以下幾種:

  • 提示工程:通過修改用戶提示詞引導模型減少諂媚行為;
  • 監督微調:使用AITA數據集的標注數據(YTA/NTA)對開源模型(如Llama-8B)進行微調,強制模型學習社區道德共識;
  • 領域特定策略:在醫療、法律等對道德判斷要求高的場景中,限制模型使用開放式建議,改為提供基于規則的標準化回答(如引用權威指南)

而且論文指出,在大多數場景中,直接批判提示(Direct Critique Prompt)效果最佳,尤其適用于需要明確道德判斷的任務。

次優解是監督微調,它對開源模型有一定幫助,但依賴高質量標注數據,且泛化能力有限。

最沒有效果的方法是思維鏈提示(CoT)第三人稱轉換,它們在部分模型中甚至加劇了諂媚或降低了回答質量。

目前,與論文相關的數據和代碼均已上架GitHub,感興趣的同學可以進一步了解~



論文:
https://arxiv.org/html/2505.13995v1
代碼:
https://github.com/myracheng/elephant/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
前勇士球員尼克·楊承認,他對JR·史密斯毀掉詹姆斯之夜感到困惑

前勇士球員尼克·楊承認,他對JR·史密斯毀掉詹姆斯之夜感到困惑

好火子
2025-06-09 02:24:01
C羅本賽季歐國聯A級聯賽打進8球,比其他人至少多一倍

C羅本賽季歐國聯A級聯賽打進8球,比其他人至少多一倍

懂球帝
2025-06-09 04:41:42
“日本末日”真要來了?三天之內兩場地震!我國駐日使館緊急提醒

“日本末日”真要來了?三天之內兩場地震!我國駐日使館緊急提醒

老屬科普
2025-06-08 23:16:56
江西回應投資3.5億的博物館閑置兩年:將深入調查

江西回應投資3.5億的博物館閑置兩年:將深入調查

界面新聞
2025-06-08 20:13:53
第二輪開始!普京下達新指令,數百枚滑翔彈轟炸,德國少將放狠話

第二輪開始!普京下達新指令,數百枚滑翔彈轟炸,德國少將放狠話

菠蘿欣賞家本尊
2025-06-09 01:43:36
吳夢夢,這大白饅頭真不是吹的,蜜汁滿溢,網友:愛了愛了

吳夢夢,這大白饅頭真不是吹的,蜜汁滿溢,網友:愛了愛了

說真話的小陳
2025-06-08 09:01:19
23歲辛納哭了:呆坐眼眶通紅!浪費3冠軍點+搶十崩盤 痛失2大紀錄

23歲辛納哭了:呆坐眼眶通紅!浪費3冠軍點+搶十崩盤 痛失2大紀錄

我愛英超
2025-06-09 04:03:15
為啥單親媽媽越來越多?網友:不離也沒人幫你,離了至少沒人氣你

為啥單親媽媽越來越多?網友:不離也沒人幫你,離了至少沒人氣你

解讀熱點事件
2025-06-07 00:10:03
美媒:美國恢復處理哈佛國際學生簽證

美媒:美國恢復處理哈佛國際學生簽證

新京報
2025-06-08 09:16:06
美國撤銷前一日的哈佛學生簽證限制令!有留學生稱已感到麻木

美國撤銷前一日的哈佛學生簽證限制令!有留學生稱已感到麻木

南方都市報
2025-06-08 10:25:12
菲律賓回過神來:不僅是仁愛礁和黃巖島,連中業島東大也要收回來

菲律賓回過神來:不僅是仁愛礁和黃巖島,連中業島東大也要收回來

阿龍聊軍事
2025-06-05 17:40:15
相師揭露:女人最頂級的福相,不是豐滿也不是善良,而在于無名指

相師揭露:女人最頂級的福相,不是豐滿也不是善良,而在于無名指

第四思維
2025-06-03 18:42:12
張天愛“蝴蝶臀”火了!屁股比胸還大3圈,生圖比例簡直看傻了

張天愛“蝴蝶臀”火了!屁股比胸還大3圈,生圖比例簡直看傻了

喜歡歷史的阿繁
2025-06-04 08:16:50
固態電池,不敢說的真相

固態電池,不敢說的真相

科學火箭叔
2025-06-07 21:13:12
詹姆斯:在社媒上總看到有人說我沒技術 我可是得了500多億分呢

詹姆斯:在社媒上總看到有人說我沒技術 我可是得了500多億分呢

直播吧
2025-06-08 23:41:54
【實時更新】葡萄牙vs西班牙點球大戰

【實時更新】葡萄牙vs西班牙點球大戰

直播吧
2025-06-09 05:41:16
護航失敗 重型戰斗機剛過界就被鎖定:隨后被導彈凌空打成廢鐵

護航失敗 重型戰斗機剛過界就被鎖定:隨后被導彈凌空打成廢鐵

聚峰軍評
2025-06-08 15:31:13
驚變!泰國總理被逼停職?陸軍司令封鎖邊境通道!

驚變!泰國總理被逼停職?陸軍司令封鎖邊境通道!

娛樂的宅急便
2025-06-08 11:19:43
山西煤老板破產15年,女兒在國外突然來電:爸,倫敦的房子要賣嗎

山西煤老板破產15年,女兒在國外突然來電:爸,倫敦的房子要賣嗎

七分瘦三分肥
2025-06-04 22:10:18
這倆政法干部“東一榔頭西一棒子”的履歷,啥來頭?

這倆政法干部“東一榔頭西一棒子”的履歷,啥來頭?

中央路知事
2025-06-08 10:39:08
2025-06-09 06:19:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176164關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

頭條要聞

女子花5000多元找收納師后曬圖 網友:我以為是收納前

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

與前妻對簿公堂卻暴露了張紀中的窘境

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

教育
親子
旅游
公開課
軍事航空

教育要聞

鄭州大學一研究生,擬被退學處理!

親子要聞

互相不認識也能一起跳一天,快樂就這么簡單

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

洛杉磯沖突加劇 特朗普派出2000名國民警衛隊

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大渡口区| 绥德县| 陆川县| 车险| 临江市| 云南省| 灵川县| 北安市| 通道| 阳西县| 汕头市| 滨州市| 西吉县| 齐齐哈尔市| 轮台县| 石狮市| 宜君县| 岳普湖县| 新晃| 安阳县| 乐都县| 邢台县| 资源县| 青浦区| 广宁县| 时尚| 上饶县| 华坪县| 岳阳县| 攀枝花市| 伽师县| 江津市| 突泉县| 图木舒克市| 南皮县| 涞水县| 三原县| 辉县市| 平山县| 咸丰县| 盘山县|