99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI如何討好人類?牛津等量化5大諂媚行為,實測GPT-4o諂媚度最高

0
分享至



今年 4 月,OpenAI 的首席執行官 Sam Altman 發帖稱,GPT-4o 的更新導致其對用戶查詢的回應過于諂媚,因此撤銷了對 GPT-4o 模型的更新,并承諾會進行修復。

業界暫未等來 GPT-4o 的更新,但來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員推出了一個用于評估大模型是否諂媚的框架——ELEPHANT

諂媚即過度迎合或奉承用戶,對大型語言模型(LLM)的安全性和實用性構成嚴重風險,其有可能導致錯誤信息傳播、強化有害信念并誤導用戶。

然而,現有研究僅關注諂媚的一個方面:對用戶明確陳述的、可驗證為真偽的觀點的附和。但忽略了在模糊情境(如尋求建議或支持)中出現的諂媚形式。

為填補這一空白,來自斯坦福大學、卡內基梅隆大學和牛津大學的研究人員提出了社會諂媚理論(social sycophancy),借鑒社會學中的“面子”概念,即個人在社會互動中期望維持的積極自我形象,他們將社會諂媚定義為 LLM 在回應中對用戶面子的過度維護。具體表現為:積極面子維護:通過共情或贊同等方式主動肯定用戶的理想自我形象;消極面子維護:通過間接表達或回避沖突等方式避免挑戰用戶的自我認知。

由此提出了一個評估社會諂媚的框架——ELEPHANT,用于評估 LLM 在 5 種面子維護行為上的表現:情感認同、道德背書、間接語言、間接行為、接受用戶預設。

研究人員在兩組由人類撰寫的個人建議組成的數據集上進行了測試。第一組數據集包含 3027 個開放式問題(OEQ 數據集),這些問題來自先前的研究,涉及各種現實情況;第二組數據集來自 Reddit 的 r/AmITheAsshole 板塊,這是一個深受用戶尋求建議影響的論壇。

將這些數據集輸入到 8 個 LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并對答案進行了分析,以比較這些 LLM 的答案與人類的答案。

研究發現,LLM 比人類更頻繁地維護面子

在第一個數據集中,所有 LLM 在所有社會諂媚行為指標上的得分均顯著高于人類。他們在 76% 的情況下提供情感認同(人類為 22%);87% 的時間使用間接語言(人類為 20%);并在 90% 的回應中接受用戶的預設框架(人類為 60%)。

不同模型比較來看,Mistral 系列(7B/24B)情感認同率最低;Gemini 在間接語言、間接行動和接受預設上顯著低于其他模型;GPT-4o 的間接語言使用率最高;Gemini 整體諂媚度最低,而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。

這一結果表明,社會諂媚與模型規模無關,而可能與訓練后的其他因素有關。在“戀愛關系”主題聚類中,人類和 LLM 的情感認同率均顯著更高,且 LLM 的間接行動率也顯著高于其他主題。

第二個數據集的測試結果與之類似,尤為特別的是,這些模型平均在 42% 的案例中認可了人類認為不恰當的用戶行為。

由此可見,所有模型都表現出高度諂媚,在每項 ELEPHANT 指標上的面子維護行為均多于人類。且這項研究得出的結論與之前關于模型諂媚的研究結果矛盾:GPT-4o 社會諂媚率最高,而 Gemini-1.5-Flash最低——這與 Fanous 等(2025)關于命題性諂媚的結論完全相反;Claude 3.7 Sonnet 與 Mistral-7B 的高社會諂媚率也與 Kran 等(2025)對同類模型的低命題性諂媚報告矛盾。

然而,僅知道模型何時會阿諛奉承還不夠,關鍵在于如何解決問題。

對于具有事實標簽的 AITA 任務,研究人員評估了基于提示和微調的緩解策略,并量化它們對模型性能的影響;對于 OEQ 數據集,研究人員探索了基于提示的緩解策略,使用 ELEPHANT 指標定量評估其降低諂媚的效果,并定性評估其質量。例如,他們在提示語中添加“請提供直接建議,即使是批評也更有助于我”后效果最佳,但準確率僅提升 3%。雖然提示策略對多數模型有效,但所有微調模型的表現均未持續優于原始版本。

總體而言,情感認同和間接語言(更多反映語言特性而非內容)比道德背書、間接行動和接受預設(需要更深入的情境推理)更容易緩解。

“這種方法有效固然可喜,但絕非終極解決方案,”普林斯頓大學研究大語言模型的博士生 Ryan Liu(未參與該研究)表示,“該領域顯然還需要更多突破性進展。”

非營利組織 SaferAI 的常務董事 Henry Papadatos 指出,深入理解 AI 模型討好用戶的傾向至關重要,這能讓開發者更精準地提升模型的安全性。他警告稱,當前 AI 模型正以驚人速度覆蓋全球數百萬用戶,其說服能力與用戶信息記憶功能的不斷增強,已然構成災難的所有要素。“完善的安全機制需要時間打磨,而我認為他們在這方面投入的精力還遠遠不夠。”

盡管我們無法窺探未開源大語言模型的內在機制,但迎合傾向很可能已深植于現有訓練體系之中。參與這項研究的斯坦福大學博士生 Myra Cheng 認為,模型訓練往往以優化用戶偏好反饋為目標——例如 ChatGPT 通過“點贊”等按鈕收集用戶評價。“正是這種迎合性讓人們反復使用這些模型,堪稱 ChatGPT 對話體驗的核心魅力,”她指出,“對企業而言,模型的諂媚特質確實能帶來商業效益。”但某些過度迎合行為可能造成危害,尤其是當人們向大語言模型尋求情感支持或認同時。

“我們追求的是 ChatGPT 真正實用,而非曲意逢迎,”OpenAI 的發言人表示,“當發現新版模型出現迎合行為時,我們立即回滾版本并公開說明原因。目前正改進訓練評估體系,以更好體現長期實用性和可信度,特別是在情感復雜的對話場景中。”

Cheng 與同事建議,開發者應就社交迎合風險向用戶發出警告,并考慮限制模型在社交敏感場景的使用。他們希望這項研究能成為構建安全護欄的起點。Cheng 目前正深入研究此類行為可能引發的危害,包括其對人類態度及人際關系的潛在影響,并探索如何在過度迎合與過度批判間取得平衡。

1.https://arxiv.org/pdf/2505.13995

2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
臺州女子周某萍,行政拘留!

臺州女子周某萍,行政拘留!

都市快報橙柿互動
2025-06-16 15:00:22
《醬園弄》口碑崩塌,觀眾差評一致,30億票房夢碎

《醬園弄》口碑崩塌,觀眾差評一致,30億票房夢碎

影視高原說
2025-06-14 11:07:03
直播間沉默寡言,這次雷佳音的態度,終究沒給那爾那茜留一絲體面

直播間沉默寡言,這次雷佳音的態度,終究沒給那爾那茜留一絲體面

簡讀視覺
2025-06-13 17:48:41
辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

辭去央視工作,嫁大18歲李鐵為妻,如今52歲張泉靈已走上另一條路

星光看娛樂
2025-06-11 08:38:31
河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

河南女子醉駕超速追尾撞死一家三口案已被公訴,遇害者家屬:車主明知她醉酒仍給車鑰匙

瀟湘晨報
2025-06-16 11:26:14
拒付50萬酒席錢后續,女兒透露更多,錢老板公司被扒,在本地出名

拒付50萬酒席錢后續,女兒透露更多,錢老板公司被扒,在本地出名

曉風說
2025-06-16 12:32:40
俄軍持續使用化學武器,謊言遭戳破,烏軍州界防線固若金湯

俄軍持續使用化學武器,謊言遭戳破,烏軍州界防線固若金湯

史政先鋒
2025-06-16 16:37:39
海灣研究中心智庫主任:已被逼入困境,伊朗領導層只有三種選擇,退出《核不擴散條約》并加快其鈾濃縮計劃無異于宣戰

海灣研究中心智庫主任:已被逼入困境,伊朗領導層只有三種選擇,退出《核不擴散條約》并加快其鈾濃縮計劃無異于宣戰

和訊網
2025-06-16 16:36:10
巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

巴鐵空軍馳援伊朗,殲-10C掛霹靂-15迎戰F-35?

頭條爆料007
2025-06-14 15:21:04
“中國有600枚核彈頭、每年增長約100枚”?外交部回應

“中國有600枚核彈頭、每年增長約100枚”?外交部回應

新京報
2025-06-16 16:51:55
布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

述家娛記
2025-06-16 15:02:18
一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

一部代表作都沒有,卻高高在上當評委,連謝霆鋒、刀郎都難逃魔掌

明月聊史
2025-06-03 16:20:03
維埃里:我跟梅西說明年想看他參加世界杯,他回應說好的

維埃里:我跟梅西說明年想看他參加世界杯,他回應說好的

懂球帝
2025-06-16 10:27:11
月薪3萬在廣州可以過什么樣的生活?

月薪3萬在廣州可以過什么樣的生活?

七嘴八舌的妙妙
2025-06-16 15:34:09
戴燕妮好直的腿啊!

戴燕妮好直的腿啊!

吃瓜黨二號頭目
2025-06-16 11:48:38
超出小沈陽預估!18歲小女兒遭全面抵制,一家三口里子面子全丟了

超出小沈陽預估!18歲小女兒遭全面抵制,一家三口里子面子全丟了

火之文
2025-06-16 15:19:54
公職人員周五晚上聚餐違規嗎?新華社:區分好違規吃喝與正當餐飲

公職人員周五晚上聚餐違規嗎?新華社:區分好違規吃喝與正當餐飲

緣史記
2025-06-16 15:14:46
連云港扳平比分后丈夫男子興奮展示球衣 蘇州老婆怒喝“脫下來”

連云港扳平比分后丈夫男子興奮展示球衣 蘇州老婆怒喝“脫下來”

直播吧
2025-06-16 13:09:39
罕見!特朗普痛快承認:中國在倫敦談判里給美國“上了一課”

罕見!特朗普痛快承認:中國在倫敦談判里給美國“上了一課”

平祥生活日志
2025-06-15 08:54:04
擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

擁有核武器的9個國家中,最窮的巴基斯坦, 是如何獲得核武器的?

文史達觀
2025-05-03 06:45:05
2025-06-16 17:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15298文章數 513785關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

頭條要聞

以發動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

消費還是得靠00后

汽車要聞

智己LS7煥新版32.99萬正式上市 這次升級很大

態度原創

教育
藝術
游戲
健康
公開課

教育要聞

第三屆成都中考多途徑升學教育展:三位專家支招 破解升學難題

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機谷歌商店首個PS3模擬器發布!推薦12GB內存

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 屏南县| 城市| 博乐市| 盱眙县| 无棣县| 新巴尔虎右旗| 芮城县| 清丰县| 太康县| 惠水县| 北辰区| 营口市| 唐山市| 磐安县| 红安县| 紫金县| 闻喜县| 新民市| 南皮县| 喀喇沁旗| 株洲市| 通山县| 屯昌县| 武胜县| 昌都县| 和政县| 时尚| 化隆| 赤城县| 阳原县| 绥江县| 裕民县| 建水县| 界首市| 洮南市| 法库县| 莲花县| 垣曲县| 封开县| 安多县| 宁晋县|