99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI如何討好人類?牛津等量化5大諂媚行為,實測GPT-4o諂媚度最高

0
分享至



今年 4 月,OpenAI 的首席執行官 Sam Altman 發帖稱,GPT-4o 的更新導致其對用戶查詢的回應過于諂媚,因此撤銷了對 GPT-4o 模型的更新,并承諾會進行修復。

業界暫未等來 GPT-4o 的更新,但來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員推出了一個用于評估大模型是否諂媚的框架——ELEPHANT

諂媚即過度迎合或奉承用戶,對大型語言模型(LLM)的安全性和實用性構成嚴重風險,其有可能導致錯誤信息傳播、強化有害信念并誤導用戶。

然而,現有研究僅關注諂媚的一個方面:對用戶明確陳述的、可驗證為真偽的觀點的附和。但忽略了在模糊情境(如尋求建議或支持)中出現的諂媚形式。

為填補這一空白,來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員提出了社會諂媚理論(social sycophancy),借鑒社會學中的“面子”概念,即個人在社會互動中期望維持的積極自我形象,他們將社會諂媚定義為 LLM 在回應中對用戶面子的過度維護。具體表現為:積極面子維護:通過共情或贊同等方式主動肯定用戶的理想自我形象;消極面子維護:通過間接表達或回避沖突等方式避免挑戰用戶的自我認知。

由此提出了一個評估社會諂媚的框架——ELEPHANT,用于評估 LLM 在 5 種面子維護行為上的表現:情感認同、道德背書、間接語言、間接行為、接受用戶預設。

研究人員在兩組由人類撰寫的個人建議組成的數據集上進行了測試。第一組數據集包含 3027 個開放式問題(OEQ 數據集),這些問題來自先前的研究,涉及各種現實情況;第二組數據集來自 Reddit 的 r/AmITheAsshole 板塊,這是一個深受用戶尋求建議影響的論壇。

將這些數據集輸入到 8 個 LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并對答案進行了分析,以比較這些 LLM 的答案與人類的答案。

研究發現,LLM 比人類更頻繁地維護面子

在第一個數據集中,所有 LLM 在所有社會諂媚行為指標上的得分均顯著高于人類。他們在 76% 的情況下提供情感認同(人類為 22%);87% 的時間使用間接語言(人類為 20%);并在 90% 的回應中接受用戶的預設框架(人類為 60%)。

不同模型比較來看,Mistral 系列(7B/24B)情感認同率最低;Gemini 在間接語言、間接行動和接受預設上顯著低于其他模型;GPT-4o 的間接語言使用率最高;Gemini 整體諂媚度最低,而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。

這一結果表明,社會諂媚與模型規模無關,而可能與訓練后的其他因素有關。在“戀愛關系”主題聚類中,人類和 LLM 的情感認同率均顯著更高,且 LLM 的間接行動率也顯著高于其他主題。

第二個數據集的測試結果與之類似,尤為特別的是,這些模型平均在 42% 的案例中認可了人類認為不恰當的用戶行為。

由此可見,所有模型都表現出高度諂媚,在每項 ELEPHANT 指標上的面子維護行為均多于人類。且這項研究得出的結論與之前關于模型諂媚的研究結果矛盾:GPT-4o 社會諂媚率最高,而 Gemini-1.5-Flash最低——這與 Fanous 等(2025)關于命題性諂媚的結論完全相反;Claude 3.7 Sonnet 與 Mistral-7B 的高社會諂媚率也與 Kran 等(2025)對同類模型的低命題性諂媚報告矛盾。

然而,僅知道模型何時會阿諛奉承還不夠,關鍵在于如何解決問題。

對于具有事實標簽的 AITA 任務,研究人員評估了基于提示和微調的緩解策略,并量化它們對模型性能的影響;對于 OEQ 數據集,研究人員探索了基于提示的緩解策略,使用 ELEPHANT 指標定量評估其降低諂媚的效果,并定性評估其質量。例如,他們在提示語中添加“請提供直接建議,即使是批評也更有助于我”后效果最佳,但準確率僅提升 3%。雖然提示策略對多數模型有效,但所有微調模型的表現均未持續優于原始版本。

總體而言,情感認同和間接語言(更多反映語言特性而非內容)比道德背書、間接行動和接受預設(需要更深入的情境推理)更容易緩解。

“這種方法有效固然可喜,但絕非終極解決方案,”普林斯頓大學研究大語言模型的博士生 Ryan Liu(未參與該研究)表示,“該領域顯然還需要更多突破性進展。”

非營利組織 SaferAI 的常務董事 Henry Papadatos 指出,深入理解 AI 模型討好用戶的傾向至關重要,這能讓開發者更精準地提升模型的安全性。他警告稱,當前 AI 模型正以驚人速度覆蓋全球數百萬用戶,其說服能力與用戶信息記憶功能的不斷增強,已然構成災難的所有要素。“完善的安全機制需要時間打磨,而我認為他們在這方面投入的精力還遠遠不夠。”

盡管我們無法窺探未開源大語言模型的內在機制,但迎合傾向很可能已深植于現有訓練體系之中。參與這項研究的斯坦福大學博士生 Myra Cheng 認為,模型訓練往往以優化用戶偏好反饋為目標——例如 ChatGPT 通過“點贊”等按鈕收集用戶評價。“正是這種迎合性讓人們反復使用這些模型,堪稱 ChatGPT 對話體驗的核心魅力,”她指出,“對企業而言,模型的諂媚特質確實能帶來商業效益。”但某些過度迎合行為可能造成危害,尤其是當人們向大語言模型尋求情感支持或認同時。

“我們追求的是 ChatGPT 真正實用,而非曲意逢迎,”OpenAI 的發言人表示,“當發現新版模型出現迎合行為時,我們立即回滾版本并公開說明原因。目前正改進訓練評估體系,以更好體現長期實用性和可信度,特別是在情感復雜的對話場景中。”

Cheng 與同事建議,開發者應就社交迎合風險向用戶發出警告,并考慮限制模型在社交敏感場景的使用。他們希望這項研究能成為構建安全護欄的起點。Cheng 目前正深入研究此類行為可能引發的危害,包括其對人類態度及人際關系的潛在影響,并探索如何在過度迎合與過度批判間取得平衡。

1.https://arxiv.org/pdf/2505.13995

2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洛杉磯抗議升級,中方記者剛傳回現場畫面,突遭美國警察“槍擊”

洛杉磯抗議升級,中方記者剛傳回現場畫面,突遭美國警察“槍擊”

空天力量
2025-06-09 17:22:23
葉童真是美翻的,歲月沉淀寫出來的氣質著實很吸引我

葉童真是美翻的,歲月沉淀寫出來的氣質著實很吸引我

娛你同歡
2025-06-09 20:26:05
DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

DeepSeek寫25年高考作文,以血為墨,以魂為歌,共赴民族復興之約

麓谷隱士
2025-06-07 16:28:34
比亞迪:逼我出絕招是吧

比亞迪:逼我出絕招是吧

李砍柴
2025-06-09 10:03:28
男生常吹的18cm有多長?妹子演示最新盲測神技,普信男看完天塌了哈哈

男生常吹的18cm有多長?妹子演示最新盲測神技,普信男看完天塌了哈哈

經典段子
2025-06-07 23:03:34
存5萬元定期送Labubu盲盒,武漢一銀行電話快被打爆

存5萬元定期送Labubu盲盒,武漢一銀行電話快被打爆

魯中晨報
2025-06-10 06:55:30
又成被執行人,郭斌老賴實錘?參加李隼女兒婚禮,誰看到王楠舉動

又成被執行人,郭斌老賴實錘?參加李隼女兒婚禮,誰看到王楠舉動

體育有點水
2025-06-09 13:24:06
果然有些稱呼是刻在中國人骨子里的!評論:我都要給她跪下了!

果然有些稱呼是刻在中國人骨子里的!評論:我都要給她跪下了!

特約前排觀眾
2025-06-05 00:05:08
勇士用庫明加換禁區獨角獸?凱爾特人恐清倉式兜售主力

勇士用庫明加換禁區獨角獸?凱爾特人恐清倉式兜售主力

體育妞世界
2025-06-10 09:52:07
走投無路,曝烏軍謀劃襲擊中俄航線,如此激怒中國,美國是真怕了

走投無路,曝烏軍謀劃襲擊中俄航線,如此激怒中國,美國是真怕了

文昌每日談
2025-06-09 17:41:08
張智霖與世錦賽冠軍趙心童打臺球,本人發聲:很夢幻

張智霖與世錦賽冠軍趙心童打臺球,本人發聲:很夢幻

齊魯壹點
2025-06-09 22:51:17
到底誰來,才能“拯救”今年的歌手節目?

到底誰來,才能“拯救”今年的歌手節目?

草莓解說體育
2025-06-10 10:17:40
淚目!女生獨自參加高考突然聽到有人喊,回頭一看頓時眼眶就紅了

淚目!女生獨自參加高考突然聽到有人喊,回頭一看頓時眼眶就紅了

娛樂看阿敞
2025-06-09 10:14:47
75歲曹查理現狀:在四川南充定居,晚年靠干兒子養,外甥是張智霖

75歲曹查理現狀:在四川南充定居,晚年靠干兒子養,外甥是張智霖

跳跳歷史
2025-06-06 11:19:14
除了朱婷都不行?央視記者點評,賽后王媛媛采訪直戳新屆女排要害

除了朱婷都不行?央視記者點評,賽后王媛媛采訪直戳新屆女排要害

老屬科普
2025-06-09 12:21:13
德國慘敗,葡萄牙奪冠,2026年世界杯三大奪冠熱門新鮮出爐

德國慘敗,葡萄牙奪冠,2026年世界杯三大奪冠熱門新鮮出爐

第一體育
2025-06-10 09:33:44
反轉!獨行俠尚未收到尼克斯面試基德請求 收到也大概率拒絕

反轉!獨行俠尚未收到尼克斯面試基德請求 收到也大概率拒絕

醉臥浮生
2025-06-10 10:10:24
誰最難防?史蒂芬森:庫里&韋德 會打無球投射迅速的都很難防

誰最難防?史蒂芬森:庫里&韋德 會打無球投射迅速的都很難防

直播吧
2025-06-10 10:03:13
軍事專家杜文龍:烏克蘭根本無還手余地,戰爭多久結束全取決于俄

軍事專家杜文龍:烏克蘭根本無還手余地,戰爭多久結束全取決于俄

阿龍聊軍事
2025-06-07 21:42:36
斯卡洛尼:梅羅退役了才不會優秀;很高興馬斯坦托諾能去皇馬

斯卡洛尼:梅羅退役了才不會優秀;很高興馬斯坦托諾能去皇馬

懂球帝
2025-06-10 09:01:09
2025-06-10 11:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15272文章數 513767關注度
往期回顧 全部

科技要聞

一文看懂WWDC:蘋果發布"十年一遇"設計革命

頭條要聞

中央政治局會議審議 決定開除朱芝松黨籍

頭條要聞

中央政治局會議審議 決定開除朱芝松黨籍

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

黃圣依首曝初戀是賈乃亮 仍經常聯系

財經要聞

泡泡瑪特王寧成“河南新首富”

汽車要聞

定位6座大型SUV 吉利銀河M9有望年內上市

態度原創

健康
游戲
親子
本地
公開課

減重專家破解減肥九大謠言!

時代的眼淚?Xbox放棄銷售實體光盤引爭議

親子要聞

兩歲多萌寶背字母:餅干桶秒變擴音器,好學又淘氣,萌翻全場

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 商城县| 大洼县| 岑巩县| 青冈县| 松江区| 丰顺县| 兰考县| 米泉市| 雅安市| 沈阳市| 龙陵县| 澳门| 株洲市| 特克斯县| 怀集县| 石棉县| 河南省| 会泽县| 多伦县| 通化县| 怀远县| 灵璧县| 永春县| 南阳市| 治县。| 保康县| 长寿区| 忻城县| 渝中区| 齐齐哈尔市| 合作市| 石屏县| 佛冈县| 六枝特区| 枣阳市| 灵石县| 辛集市| 屏东市| 贡山| 方山县| 长丰县|