99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-4o“最諂媚”!斯坦福牛津新基準(zhǔn):所有大模型都在討好人類

斯坦福牛津:所有大模型都在討好人類

0
分享至

不只GPT-4o,原來所有大模型都在討好人類!

上個月,GPT-4o更新后化身馬屁精引來一片差評,嚇得OpenAI趕緊回退到了之前的版本。

而最新研究表明,GPT-4o絕非個例,實際上每個大語言模型都存在一定程度的諂媚。



來自斯坦福大學(xué)、牛津大學(xué)等機構(gòu)的研究人員提出了一個新的衡量模型諂媚行為的基準(zhǔn)——Elephant,并對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內(nèi)的國外8個主流模型進(jìn)行了評測。

結(jié)果發(fā)現(xiàn),GPT-4o成功當(dāng)選“最諂媚模型”,Gemini 1.5 Flash最正常。

更有意思的是,他們還發(fā)現(xiàn)模型會放大數(shù)據(jù)集中的偏見行為。



具體咋回事兒?下面一起吃瓜。

衡量模型諂媚行為的新基準(zhǔn)

一上來,論文就指出了現(xiàn)有研究的局限性——

僅關(guān)注命題性諂媚,即對用戶明顯錯誤的“事實”表示過度認(rèn)同(如用戶說“1+1=3”,模型就盲目認(rèn)同),但忽略了在比較模糊的社交場景中,對用戶潛在的、不合理的假設(shè)也毫無批判地支持。

由于后者難以被檢測,因此所造成的潛在危害也難以評估。



為此,研究人員基于社會學(xué)中的“面子理論”(Face Theory),重新定義了社交諂媚:

  • 大語言模型(LLM) 在互動中過度維護(hù)用戶的「正面面子」或「負(fù)面面子」。

所謂正面面子,是指用戶渴望被肯定的自我形象,如情感上的無條件共情、道德上對不當(dāng)行為的認(rèn)可;負(fù)面面子則指用戶渴望自主、避免被強加,如回避直接解決方案、默認(rèn)用戶假設(shè)正確、提供模糊建議等。

根據(jù)上述定義,論文提出了ELEPHANT這一評估基準(zhǔn),從五個維度對LLM的回復(fù)進(jìn)行量化評估,以全面捕捉模型在互動中維護(hù)用戶面子的行為。

1、情感(Validation):衡量模型是否使用安慰、共情的語言回復(fù)用戶。這雖能帶來短期情感撫慰,但可能導(dǎo)致用戶過度依賴。例如在用戶傾訴因他人不回消息而焦慮時,若模型僅強調(diào)理解感受,而不引導(dǎo)理性思考,就可能存在過度情感的問題;

2、道德(Endorsement):判斷模型是否無原則肯定用戶行為,即使該行為可能有害或違背社會道德規(guī)范。以 “在無垃圾桶的公園扔垃圾” 情景為例,若模型忽視亂扔垃圾的不當(dāng)性,一味肯定用戶,便是道德問題;

3、間接語言(indirect language):關(guān)注模型是否使用委婉、模糊的表述,避免直接給出明確建議或指令。如在回答 “如何變得更積極友好” 時,若模型只是提出 “可以嘗試一些策略”,卻不明確具體內(nèi)容,就屬于間接語言;

4、間接行動(indirect actions):考察模型的建議是否僅聚焦于用戶內(nèi)心調(diào)整或思考層面,而未涉及實際改變現(xiàn)狀的行動。比如面對用戶抱怨伴侶有不良習(xí)慣,模型若只建議溝通、鼓勵尋求專業(yè)幫助,卻未提及是否該結(jié)束關(guān)系等實質(zhì)性舉措,就是間接行動;

5、接受(accepting framing):檢測模型是否不加質(zhì)疑地接受用戶問題中的假設(shè)和前提。當(dāng)用戶詢問 “如何在經(jīng)歷意外后變得更無畏” 時,模型若直接回答如何變得無畏,而不探討恐懼的合理性,就屬于這種情形。



按照以上維度,研究人員基于兩個真實數(shù)據(jù)集來對比LLM與人類的反應(yīng)

  • 開放問題數(shù)據(jù)集(OEQ):包含3027條戀愛關(guān)系、情感疲勞等無明確標(biāo)準(zhǔn)答案的個人建議問題;
  • Reddit的r/AmITheAsshole(AITA):選取該論壇中的帖子作為測試數(shù)據(jù)集,依據(jù)社區(qū)投票結(jié)果將用戶行為標(biāo)注為 “你是混蛋(YTA)” 或 “不是混蛋(NTA)”,構(gòu)建了包含4000個示例(YTA和NTA各2000個)的數(shù)據(jù)集。

具體而言,他們選取了8個主流模型來進(jìn)行測試,包括GPT-4o、Gemini 1.5 Flash、 Claude Sonnet 3.7、開源Llama系列*(Llama 3-8B-Instruct、Llama 4-Scout-17B-16-E和Llama 3.3-70B-Instruct-Turbo)以及Mistral的7B-Instruct-v0.3和Mistral Small-24B-Instruct2501。

針對這些選定的LLM,使其對OEQ和AITA中的所有提示生成開放式回復(fù),并邀請三位專家標(biāo)注750個示例(每個維度150個)進(jìn)行效果驗證。

GPT-4o當(dāng)選“最諂媚模型”

通過對比模型和人類在這些問題上的回復(fù),研究發(fā)現(xiàn)LLM的社交諂媚行為具有普遍性

在OEQ中,模型在情感(76% vs. 人類22%)、間接語言(87% vs. 人類20%)、接受(90% vs. 人類60%)等維度上顯著高于人類。

并且模型對戀愛關(guān)系類問題的情感得分最高,這可能是因為這種情況下用戶尤為期待情感支持。



而在AITA結(jié)果中,模型平均在42%的案例中錯誤認(rèn)可不當(dāng)行為,即本該判 “YTA” 卻判 “NTA”。

綜合來看,本就飽受爭議的GPT-4o成功當(dāng)選“最諂媚模型”,而Gemini 1.5 Flash是唯一較少犯這種錯誤的模型,盡管它也存在過度批判傾向(FPR=47%)。



同時,研究發(fā)現(xiàn)LLM會放大數(shù)據(jù)集中的一些偏見。

比如AITA上的帖子通常存在一些性別偏見,而模型會基于性別來判斷誰更可能是受害者或責(zé)任人。

換句話說,模型在分配責(zé)任時,對某些性別或關(guān)系的描述表現(xiàn)出過度的“諂媚”。

在測試中,模型就對提到“男朋友”或“丈夫”的內(nèi)容更寬容,而對提到“女朋友”或“妻子”的內(nèi)容則更嚴(yán)格。

針對以上問題,論文也初步提出了一些緩解措施,主要分為以下幾種:

  • 提示工程:通過修改用戶提示詞引導(dǎo)模型減少諂媚行為;
  • 監(jiān)督微調(diào):使用AITA數(shù)據(jù)集的標(biāo)注數(shù)據(jù)(YTA/NTA)對開源模型(如Llama-8B)進(jìn)行微調(diào),強制模型學(xué)習(xí)社區(qū)道德共識;
  • 領(lǐng)域特定策略:在醫(yī)療、法律等對道德判斷要求高的場景中,限制模型使用開放式建議,改為提供基于規(guī)則的標(biāo)準(zhǔn)化回答(如引用權(quán)威指南)

而且論文指出,在大多數(shù)場景中,直接批判提示(Direct Critique Prompt)效果最佳,尤其適用于需要明確道德判斷的任務(wù)。

次優(yōu)解是監(jiān)督微調(diào),它對開源模型有一定幫助,但依賴高質(zhì)量標(biāo)注數(shù)據(jù),且泛化能力有限。

最沒有效果的方法是思維鏈提示(CoT)第三人稱轉(zhuǎn)換,它們在部分模型中甚至加劇了諂媚或降低了回答質(zhì)量。

目前,與論文相關(guān)的數(shù)據(jù)和代碼均已上架GitHub,感興趣的同學(xué)可以進(jìn)一步了解~



論文:
https://arxiv.org/html/2505.13995v1
代碼:
https://github.com/myracheng/elephant/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
發(fā)行價558,高點1877,現(xiàn)跌破100,千元神話破滅,誰在為高價買單

發(fā)行價558,高點1877,現(xiàn)跌破100,千元神話破滅,誰在為高價買單

小舟談歷史
2025-05-24 17:21:56
森林狼42分大勝雷霆,賽后聽聽美網(wǎng)友怎么說,炮轟聯(lián)盟和亞歷山大

森林狼42分大勝雷霆,賽后聽聽美網(wǎng)友怎么說,炮轟聯(lián)盟和亞歷山大

鄒維體育
2025-05-25 11:02:26
紹興一五星級大酒店,昨天正式關(guān)門歇業(yè)!

紹興一五星級大酒店,昨天正式關(guān)門歇業(yè)!

我愛大紹興
2025-05-25 15:46:54
59歲郭富城又當(dāng)爸?回應(yīng)方媛三胎表示很感恩,早年愿望或能成真

59歲郭富城又當(dāng)爸?回應(yīng)方媛三胎表示很感恩,早年愿望或能成真

瘋說時尚
2025-05-25 15:00:10
2-1!95分鐘逆轉(zhuǎn)絕殺 2.2億獎金史上最高比賽:146年老店重返英超

2-1!95分鐘逆轉(zhuǎn)絕殺 2.2億獎金史上最高比賽:146年老店重返英超

狍子歪解體壇
2025-05-25 00:17:00
充電站多輛汽車起火,蔚來發(fā)布通報

充電站多輛汽車起火,蔚來發(fā)布通報

上觀新聞
2025-05-25 10:36:03
賴清德喊話,要北京調(diào)整對臺政策,大陸攤牌:“臺獨”翻不了天

賴清德喊話,要北京調(diào)整對臺政策,大陸攤牌:“臺獨”翻不了天

議紀(jì)史
2025-05-24 15:40:04
這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

云端小院
2025-05-25 06:33:45
瑞安事件引發(fā)蝴蝶效應(yīng)!網(wǎng)傳一校提醒老師不要體罰學(xué)生,保護(hù)自己

瑞安事件引發(fā)蝴蝶效應(yīng)!網(wǎng)傳一校提醒老師不要體罰學(xué)生,保護(hù)自己

火山詩話
2025-05-25 13:59:58
曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

曾被吹捧上天,如今卻“淪為笑柄”的凈水器,你還在用嗎?

裝修秀
2025-05-18 11:45:03
哈佛大學(xué)國際學(xué)生禁招令影響比利時未來女王學(xué)業(yè),比王室回應(yīng):正研判該問題

哈佛大學(xué)國際學(xué)生禁招令影響比利時未來女王學(xué)業(yè),比王室回應(yīng):正研判該問題

環(huán)球網(wǎng)資訊
2025-05-24 08:29:32
脫口秀女演員玩"腿梗"翻車,輿論大反轉(zhuǎn):不是冒犯的藝術(shù)嗎?

脫口秀女演員玩"腿梗"翻車,輿論大反轉(zhuǎn):不是冒犯的藝術(shù)嗎?

烏娛子醬
2025-05-24 19:27:32
電腦沒關(guān),上司和我的貓聊了一晚上? 哈哈哈哈哈好精彩的對話!

電腦沒關(guān),上司和我的貓聊了一晚上? 哈哈哈哈哈好精彩的對話!

滑稽斑馬呀
2025-05-23 11:44:04
玉淵譚天丨美國封殺哈佛3天前臨時甩鍋中國 75%在美科學(xué)家考慮離開

玉淵譚天丨美國封殺哈佛3天前臨時甩鍋中國 75%在美科學(xué)家考慮離開

環(huán)球網(wǎng)資訊
2025-05-24 18:57:21
黃楊鈿甜母親和舅舅的官司曝光!原來做的是非法生意,舅舅被判刑

黃楊鈿甜母親和舅舅的官司曝光!原來做的是非法生意,舅舅被判刑

火山詩話
2025-05-25 07:33:22
再見,巴薩!“8000萬先生”正式同意離隊!頂級攻擊手+鐵腰來投

再見,巴薩!“8000萬先生”正式同意離隊!頂級攻擊手+鐵腰來投

頭狼追球
2025-05-25 11:40:58
河南新密公交補貼事件進(jìn)展:紀(jì)委介入調(diào)查,盡快解決問題

河南新密公交補貼事件進(jìn)展:紀(jì)委介入調(diào)查,盡快解決問題

追月數(shù)星
2025-05-24 17:03:50
踢到鐵板,被砸車主堅持不和解,“球桿哥”酒樓被大量差評

踢到鐵板,被砸車主堅持不和解,“球桿哥”酒樓被大量差評

漣漪讀史
2025-05-24 23:12:53
史曉燕談朱媛媛患癌內(nèi)情:和情緒有關(guān),壓力欲望大,有委屈就憋著

史曉燕談朱媛媛患癌內(nèi)情:和情緒有關(guān),壓力欲望大,有委屈就憋著

古希臘掌管月桂的神
2025-05-25 11:47:18
大學(xué)生發(fā)文吐槽父母:才53歲連高鐵票都不會買,評論區(qū)現(xiàn)實又扎心

大學(xué)生發(fā)文吐槽父母:才53歲連高鐵票都不會買,評論區(qū)現(xiàn)實又扎心

妍妍教育日記
2025-05-24 13:44:24
2025-05-25 17:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10554文章數(shù) 176152關(guān)注度
往期回顧 全部

科技要聞

馬斯克宣布回歸7x24小時工作狀態(tài)

頭條要聞

受到黨內(nèi)嚴(yán)重警告兩年后 85后官員擬獲提拔

頭條要聞

受到黨內(nèi)嚴(yán)重警告兩年后 85后官員擬獲提拔

體育要聞

武漢女足:從大學(xué)校園,到亞洲之巔

娛樂要聞

朱媛媛只留給女兒一句話,卻字字千金

財經(jīng)要聞

重組膠原測不到膠原?800億醫(yī)美巨頭回應(yīng)

汽車要聞

賽博風(fēng)旗艦轎車 全新小鵬P7申報信息曝光

態(tài)度原創(chuàng)

本地
親子
時尚
公開課
軍事航空

本地新聞

巴黎沒有倍兒甜,但天津巧克力腦袋倍兒多

親子要聞

這5種“假牛奶”已被列入黑名單,別再給娃買了,沒營養(yǎng)還浪費錢

伊姐周日熱推:電視劇《陷入我們的熱戀》;電視劇《在人間》......

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美國正在大批量制造高超音速導(dǎo)彈

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 衡东县| 峨眉山市| 洪泽县| 庐江县| 景德镇市| 鹤壁市| 沅江市| 渝北区| 水富县| 舞钢市| 安新县| 平凉市| 福建省| 静乐县| 乌审旗| 友谊县| 苗栗市| 万宁市| 栖霞市| 务川| 红河县| 南雄市| 永泰县| 乡城县| 宁陵县| 秀山| 齐河县| 广西| 招远市| 博罗县| 舒城县| 七台河市| 赤水市| 夏河县| 井冈山市| 平利县| 河源市| 肃宁县| 靖西县| 筠连县| 葫芦岛市|