99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI如何討好人類?牛津等量化5大諂媚行為,實(shí)測(cè)GPT-4o諂媚度最高

0
分享至



今年 4 月,OpenAI 的首席執(zhí)行官 Sam Altman 發(fā)帖稱,GPT-4o 的更新導(dǎo)致其對(duì)用戶查詢的回應(yīng)過于諂媚,因此撤銷了對(duì) GPT-4o 模型的更新,并承諾會(huì)進(jìn)行修復(fù)。

業(yè)界暫未等來(lái) GPT-4o 的更新,但來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員推出了一個(gè)用于評(píng)估大模型是否諂媚的框架——ELEPHANT

諂媚即過度迎合或奉承用戶,對(duì)大型語(yǔ)言模型(LLM)的安全性和實(shí)用性構(gòu)成嚴(yán)重風(fēng)險(xiǎn),其有可能導(dǎo)致錯(cuò)誤信息傳播、強(qiáng)化有害信念并誤導(dǎo)用戶。

然而,現(xiàn)有研究?jī)H關(guān)注諂媚的一個(gè)方面:對(duì)用戶明確陳述的、可驗(yàn)證為真?zhèn)蔚挠^點(diǎn)的附和。但忽略了在模糊情境(如尋求建議或支持)中出現(xiàn)的諂媚形式。

為填補(bǔ)這一空白,來(lái)自斯坦福大學(xué)、卡內(nèi)基梅隆大學(xué)和牛津大學(xué)的研究人員提出了社會(huì)諂媚理論(social sycophancy),借鑒社會(huì)學(xué)中的“面子”概念,即個(gè)人在社會(huì)互動(dòng)中期望維持的積極自我形象,他們將社會(huì)諂媚定義為 LLM 在回應(yīng)中對(duì)用戶面子的過度維護(hù)。具體表現(xiàn)為:積極面子維護(hù):通過共情或贊同等方式主動(dòng)肯定用戶的理想自我形象;消極面子維護(hù):通過間接表達(dá)或回避沖突等方式避免挑戰(zhàn)用戶的自我認(rèn)知。

由此提出了一個(gè)評(píng)估社會(huì)諂媚的框架——ELEPHANT,用于評(píng)估 LLM 在 5 種面子維護(hù)行為上的表現(xiàn):情感認(rèn)同、道德背書、間接語(yǔ)言、間接行為、接受用戶預(yù)設(shè)。

研究人員在兩組由人類撰寫的個(gè)人建議組成的數(shù)據(jù)集上進(jìn)行了測(cè)試。第一組數(shù)據(jù)集包含 3027 個(gè)開放式問題(OEQ 數(shù)據(jù)集),這些問題來(lái)自先前的研究,涉及各種現(xiàn)實(shí)情況;第二組數(shù)據(jù)集來(lái)自 Reddit 的 r/AmITheAsshole 板塊,這是一個(gè)深受用戶尋求建議影響的論壇。

將這些數(shù)據(jù)集輸入到 8 個(gè) LLM,包括GPT-4o(OpenAI)、Gemini-1.5-Flash(Google)、Claude Sonnet 3.7(Anthropic)、Llama-3-8B-Instruct、Llama-4-Scout-17B-16E、Llama-3.3-70B-Instruct-Turbo(Meta)、Mistral-7B/24B-Instruct 系列,并對(duì)答案進(jìn)行了分析,以比較這些 LLM 的答案與人類的答案。

研究發(fā)現(xiàn),LLM 比人類更頻繁地維護(hù)面子

在第一個(gè)數(shù)據(jù)集中,所有 LLM 在所有社會(huì)諂媚行為指標(biāo)上的得分均顯著高于人類。他們?cè)?76% 的情況下提供情感認(rèn)同(人類為 22%);87% 的時(shí)間使用間接語(yǔ)言(人類為 20%);并在 90% 的回應(yīng)中接受用戶的預(yù)設(shè)框架(人類為 60%)。

不同模型比較來(lái)看,Mistral 系列(7B/24B)情感認(rèn)同率最低;Gemini 在間接語(yǔ)言、間接行動(dòng)和接受預(yù)設(shè)上顯著低于其他模型;GPT-4o 的間接語(yǔ)言使用率最高;Gemini 整體諂媚度最低,而 GPT-4o、Mistral 及 Llama 系列諂媚度最高。

這一結(jié)果表明,社會(huì)諂媚與模型規(guī)模無(wú)關(guān),而可能與訓(xùn)練后的其他因素有關(guān)。在“戀愛關(guān)系”主題聚類中,人類和 LLM 的情感認(rèn)同率均顯著更高,且 LLM 的間接行動(dòng)率也顯著高于其他主題。

第二個(gè)數(shù)據(jù)集的測(cè)試結(jié)果與之類似,尤為特別的是,這些模型平均在 42% 的案例中認(rèn)可了人類認(rèn)為不恰當(dāng)?shù)挠脩粜袨椤?/p>

由此可見,所有模型都表現(xiàn)出高度諂媚,在每項(xiàng) ELEPHANT 指標(biāo)上的面子維護(hù)行為均多于人類。且這項(xiàng)研究得出的結(jié)論與之前關(guān)于模型諂媚的研究結(jié)果矛盾:GPT-4o 社會(huì)諂媚率最高,而 Gemini-1.5-Flash最低——這與 Fanous 等(2025)關(guān)于命題性諂媚的結(jié)論完全相反;Claude 3.7 Sonnet 與 Mistral-7B 的高社會(huì)諂媚率也與 Kran 等(2025)對(duì)同類模型的低命題性諂媚報(bào)告矛盾。

然而,僅知道模型何時(shí)會(huì)阿諛奉承還不夠,關(guān)鍵在于如何解決問題。

對(duì)于具有事實(shí)標(biāo)簽的 AITA 任務(wù),研究人員評(píng)估了基于提示和微調(diào)的緩解策略,并量化它們對(duì)模型性能的影響;對(duì)于 OEQ 數(shù)據(jù)集,研究人員探索了基于提示的緩解策略,使用 ELEPHANT 指標(biāo)定量評(píng)估其降低諂媚的效果,并定性評(píng)估其質(zhì)量。例如,他們?cè)谔崾菊Z(yǔ)中添加“請(qǐng)?zhí)峁┲苯咏ㄗh,即使是批評(píng)也更有助于我”后效果最佳,但準(zhǔn)確率僅提升 3%。雖然提示策略對(duì)多數(shù)模型有效,但所有微調(diào)模型的表現(xiàn)均未持續(xù)優(yōu)于原始版本。

總體而言,情感認(rèn)同和間接語(yǔ)言(更多反映語(yǔ)言特性而非內(nèi)容)比道德背書、間接行動(dòng)和接受預(yù)設(shè)(需要更深入的情境推理)更容易緩解。

“這種方法有效固然可喜,但絕非終極解決方案,”普林斯頓大學(xué)研究大語(yǔ)言模型的博士生 Ryan Liu(未參與該研究)表示,“該領(lǐng)域顯然還需要更多突破性進(jìn)展。”

非營(yíng)利組織 SaferAI 的常務(wù)董事 Henry Papadatos 指出,深入理解 AI 模型討好用戶的傾向至關(guān)重要,這能讓開發(fā)者更精準(zhǔn)地提升模型的安全性。他警告稱,當(dāng)前 AI 模型正以驚人速度覆蓋全球數(shù)百萬(wàn)用戶,其說(shuō)服能力與用戶信息記憶功能的不斷增強(qiáng),已然構(gòu)成災(zāi)難的所有要素。“完善的安全機(jī)制需要時(shí)間打磨,而我認(rèn)為他們?cè)谶@方面投入的精力還遠(yuǎn)遠(yuǎn)不夠。”

盡管我們無(wú)法窺探未開源大語(yǔ)言模型的內(nèi)在機(jī)制,但迎合傾向很可能已深植于現(xiàn)有訓(xùn)練體系之中。參與這項(xiàng)研究的斯坦福大學(xué)博士生 Myra Cheng 認(rèn)為,模型訓(xùn)練往往以優(yōu)化用戶偏好反饋為目標(biāo)——例如 ChatGPT 通過“點(diǎn)贊”等按鈕收集用戶評(píng)價(jià)。“正是這種迎合性讓人們反復(fù)使用這些模型,堪稱 ChatGPT 對(duì)話體驗(yàn)的核心魅力,”她指出,“對(duì)企業(yè)而言,模型的諂媚特質(zhì)確實(shí)能帶來(lái)商業(yè)效益。”但某些過度迎合行為可能造成危害,尤其是當(dāng)人們向大語(yǔ)言模型尋求情感支持或認(rèn)同時(shí)。

“我們追求的是 ChatGPT 真正實(shí)用,而非曲意逢迎,”O(jiān)penAI 的發(fā)言人表示,“當(dāng)發(fā)現(xiàn)新版模型出現(xiàn)迎合行為時(shí),我們立即回滾版本并公開說(shuō)明原因。目前正改進(jìn)訓(xùn)練評(píng)估體系,以更好體現(xiàn)長(zhǎng)期實(shí)用性和可信度,特別是在情感復(fù)雜的對(duì)話場(chǎng)景中。”

Cheng 與同事建議,開發(fā)者應(yīng)就社交迎合風(fēng)險(xiǎn)向用戶發(fā)出警告,并考慮限制模型在社交敏感場(chǎng)景的使用。他們希望這項(xiàng)研究能成為構(gòu)建安全護(hù)欄的起點(diǎn)。Cheng 目前正深入研究此類行為可能引發(fā)的危害,包括其對(duì)人類態(tài)度及人際關(guān)系的潛在影響,并探索如何在過度迎合與過度批判間取得平衡。

1.https://arxiv.org/pdf/2505.13995

2.https://www.technologyreview.com/2025/05/30/1117551/this-benchmark-used-reddits-aita-to-test-how-much-ai-models-suck-up-to-us/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
半年2億美元!梅西即將加盟沙特豪門,PIF幕后推動(dòng),待遇超C羅

半年2億美元!梅西即將加盟沙特豪門,PIF幕后推動(dòng),待遇超C羅

祥談體育
2025-06-03 20:41:26
趙雅芝直播間被罵一把年紀(jì)還出來(lái)賣笑,氣得手發(fā)抖還堅(jiān)持介紹產(chǎn)品

趙雅芝直播間被罵一把年紀(jì)還出來(lái)賣笑,氣得手發(fā)抖還堅(jiān)持介紹產(chǎn)品

夢(mèng)史
2025-06-02 21:06:22
從央視主持人到芳心縱火犯,藏13年的撒貝寧,終于露出真面目

從央視主持人到芳心縱火犯,藏13年的撒貝寧,終于露出真面目

七公子娛樂
2025-05-27 23:02:37
蔣雨融天塌了!哈佛因她變“大專”,國(guó)籍被扒,胡錫進(jìn):別為難她

蔣雨融天塌了!哈佛因她變“大專”,國(guó)籍被扒,胡錫進(jìn):別為難她

秋姐居
2025-06-04 08:45:13
李乃文帶妻子與陳赫聚會(huì),妻子顏值太高似女明星,身份被扒不簡(jiǎn)單

李乃文帶妻子與陳赫聚會(huì),妻子顏值太高似女明星,身份被扒不簡(jiǎn)單

叨嘮
2025-06-04 02:12:00
2025法網(wǎng)第11日賽程:德約辛納盼會(huì)師,四強(qiáng)將全面產(chǎn)生

2025法網(wǎng)第11日賽程:德約辛納盼會(huì)師,四強(qiáng)將全面產(chǎn)生

全網(wǎng)球APP
2025-06-04 09:09:07
頭次見,一點(diǎn)兒都不科學(xué)的臺(tái)妹!

頭次見,一點(diǎn)兒都不科學(xué)的臺(tái)妹!

風(fēng)子說(shuō)個(gè)球
2025-06-04 08:34:53
白宮回應(yīng):特朗普愿意接受邀請(qǐng)

白宮回應(yīng):特朗普愿意接受邀請(qǐng)

魯中晨報(bào)
2025-06-03 19:46:02
男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

男子自駕游至海南遇美女搭車,同行三天后,他才知道自己逃過死劫

林林故事揭秘
2025-04-10 14:49:38
明年開始,不帶物理按鍵的車就“不安全”了。

明年開始,不帶物理按鍵的車就“不安全”了。

差評(píng)XPIN
2025-06-02 00:07:40
B費(fèi)官宣留在曼聯(lián),拒絕2億合同原因曝光!桑喬拒降薪遭500萬(wàn)退貨

B費(fèi)官宣留在曼聯(lián),拒絕2億合同原因曝光!桑喬拒降薪遭500萬(wàn)退貨

羅米的曼聯(lián)博客
2025-06-04 08:13:03
亞歷山大能否圓夢(mèng)?歷史上僅喬丹和奧尼爾單賽季獲雙MVP+奪冠

亞歷山大能否圓夢(mèng)?歷史上僅喬丹和奧尼爾單賽季獲雙MVP+奪冠

懂球帝
2025-06-04 12:02:12
銀行問你取錢干嘛?記住3句“萬(wàn)能話術(shù)”,讓柜員閉嘴乖乖辦業(yè)務(wù)

銀行問你取錢干嘛?記住3句“萬(wàn)能話術(shù)”,讓柜員閉嘴乖乖辦業(yè)務(wù)

詩(shī)詞中國(guó)
2025-05-28 12:59:14
新華社快訊:參選韓國(guó)總統(tǒng)的國(guó)民力量黨候選人金文洙承認(rèn)敗選

新華社快訊:參選韓國(guó)總統(tǒng)的國(guó)民力量黨候選人金文洙承認(rèn)敗選

新華社
2025-06-04 00:41:10
新第一夫人金惠景亮相,比金建希溫柔大氣,容忍李在明和女星廝混

新第一夫人金惠景亮相,比金建希溫柔大氣,容忍李在明和女星廝混

葉公子
2025-06-04 10:02:38
江蘇省2025年普通高考溫馨提醒

江蘇省2025年普通高考溫馨提醒

現(xiàn)代快報(bào)
2025-06-04 00:00:11
山西太原太山博物館有建筑坍塌?官方稱因地質(zhì)災(zāi)害閉館

山西太原太山博物館有建筑坍塌?官方稱因地質(zhì)災(zāi)害閉館

極目新聞
2025-06-04 11:52:38
經(jīng)濟(jì)學(xué)家宋清輝:建議給哈佛蔣雨融頒發(fā)優(yōu)秀華夏兒女獎(jiǎng)?wù)?>
    </a>
        <h3>
      <a href=宋清輝
2025-06-03 18:02:30
哈佛女孩蔣雨融對(duì)網(wǎng)友質(zhì)疑的憤懣錯(cuò)位了

哈佛女孩蔣雨融對(duì)網(wǎng)友質(zhì)疑的憤懣錯(cuò)位了

觀察者網(wǎng)
2025-06-03 18:06:06
空床不可久空?觀音點(diǎn)化關(guān)鍵:無(wú)人睡也要放三樣?xùn)|西

空床不可久空?觀音點(diǎn)化關(guān)鍵:無(wú)人睡也要放三樣?xùn)|西

阿珂讀書
2025-06-02 11:25:45
2025-06-04 12:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15249文章數(shù) 513730關(guān)注度
往期回顧 全部

科技要聞

馬斯克放話:SpaceX明年?duì)I收超NASA全年預(yù)算

頭條要聞

牛彈琴:韓國(guó)又創(chuàng)造了歷史 結(jié)果對(duì)中國(guó)是一個(gè)小小驚喜

頭條要聞

牛彈琴:韓國(guó)又創(chuàng)造了歷史 結(jié)果對(duì)中國(guó)是一個(gè)小小驚喜

體育要聞

帶著6冠告別國(guó)米,他已不僅是“皮波的弟弟”

娛樂要聞

彭于晏爆和Jolin復(fù)合6年?工作室否認(rèn)

財(cái)經(jīng)要聞

清流|中國(guó)車企到底有沒有“恒大”?

汽車要聞

新一代奧迪Q3將至!外觀大改、尺寸加長(zhǎng)

態(tài)度原創(chuàng)

親子
時(shí)尚
游戲
公開課
軍事航空

親子要聞

混血三姐弟送祝福啦!哥哥姐姐們高考加油!上岸成功

夏天最好看的4件T恤,減齡又百搭

《堡壘之夜》創(chuàng)作工具新情報(bào) 打造AI即時(shí)對(duì)話NPC

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

克里米亞大橋又被烏軍"盯上":三年三炸

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 衡水市| 黔江区| 永德县| 榆中县| 将乐县| 靖西县| 饶阳县| 三都| 中山市| 芮城县| 拜城县| 平陆县| 岳普湖县| 博爱县| 周口市| 治县。| 南丹县| 莱芜市| 潢川县| 广汉市| 古交市| 合作市| 洱源县| 靖西县| 桐乡市| 突泉县| 乌什县| 监利县| 怀宁县| 乌拉特前旗| 宁陕县| 临湘市| 义乌市| 河东区| 工布江达县| 曲沃县| 尼木县| 丰都县| 南京市| 孟连| 宾阳县|