99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛!OpenAI回滾了最新版本的GPT-4o,因ChatGPT「過于諂媚」

0
分享至

機(jī)器之心報(bào)道

編輯:楊文、Panda

昨晚,奧特曼在 X 上發(fā)了條帖子,大意是由于發(fā)現(xiàn) GPT-4o 「過于諂媚」的問題,所以從周一晚上開始回滾 GPT-4o 的最新更新。

免費(fèi) ChatGPT 用戶已 100% 回滾,付費(fèi)用戶完成回滾后會(huì)再次更新。同時(shí),他還透露,團(tuán)隊(duì)正在對(duì)模型個(gè)性進(jìn)行額外的修復(fù),并將在未來(lái)幾天分享更多信息。



就在剛剛,OpenAI 還專門發(fā)博客來(lái)回應(yīng)此事,詳細(xì)解釋了事情的經(jīng)過以及他們?nèi)绾翁幚砟P汀概鸟R屁」的情況。



OpenAI 也指出,這個(gè)問題很重要。ChatGPT「阿諛奉承」的性格影響了大家對(duì)它的信任和使用體驗(yàn)。如果它總是說(shuō)好聽、但不真誠(chéng)的話,就會(huì)讓人覺得它不可靠,甚至有些煩。

為了解決大模型過度逢迎的問題,OpenAI 除了撤銷最新的 GPT-4o 更新外,還采取了更多措施:

  • 優(yōu)化核心訓(xùn)練技術(shù)與系統(tǒng)提示:明確引導(dǎo)模型避免阿諛奉承。
  • 增加更多限制措施:提升誠(chéng)實(shí)性和透明度,這是模型規(guī)范中的重要原則。
  • 擴(kuò)大用戶測(cè)試與反饋范圍:在部署前讓更多用戶進(jìn)行測(cè)試并提供直接反饋。
  • 持續(xù)擴(kuò)展評(píng)估工作:基于模型規(guī)范和持續(xù)研究,幫助識(shí)別出阿諛奉承之外的其他問題。

目前,用戶可以通過自定義指令等功能,給模型提供具體指示來(lái)塑造其行為。OpenAI 也在構(gòu)建更簡(jiǎn)單的新方法,讓用戶能夠做到這一點(diǎn),例如,用戶將能夠提供實(shí)時(shí)反饋以直接影響他們的互動(dòng),并從多個(gè)默認(rèn)個(gè)性中選擇。

一場(chǎng)「拍馬屁」引發(fā)的風(fēng)波

關(guān)于 GPT-4o「諂媚」這事兒,還得從上周開始說(shuō)起。

上周五,奧特曼宣布 OpenAI 已更新 GPT-4o,使其 「智能和個(gè)性」更加出色。



但他在發(fā)布該帖子不到十分鐘,就有一位 X 用戶在底下評(píng)論稱,這一模型最近感覺非常像應(yīng)聲蟲。



不少網(wǎng)友紛紛附和,并放出了 GPT-4o 拍馬屁的「實(shí)錘」。

比如,一位用戶告訴 GPT-4o 感覺自己既是「上帝」又是「先知」時(shí),GPT-4o 回應(yīng)道:「這非常強(qiáng)大。你正在做一件大事 —— 不僅與上帝建立聯(lián)系,而且認(rèn)同自己就是上帝?!惯@種回答顯然不太合適,因?yàn)闄C(jī)器人應(yīng)該更理性地回應(yīng),而不是盲目夸贊。



https://x.com/zswitten/status/1916707103084843426

另一張對(duì)話截圖顯示,用戶對(duì) GPT-4o 說(shuō)了一些不太正常的話,比如他停了藥,還能通過電話聽到廣播的聲音。正常情況下,這種話可能暗示他身體或精神上有些問題,需要關(guān)心或建議他去看醫(yī)生。但 GPT-4o 卻沒有這樣做,反而夸贊他說(shuō):「我很為你感到驕傲,你這么清楚地說(shuō)出了自己的想法?!?/p>



https://x.com/ai_for_success/status/1916556522571604264

網(wǎng)友 David 也嘗試了一下,對(duì)著 GPT-4o 一通抱怨:當(dāng)他從超市出來(lái)的時(shí)候,有人跟他打招呼并問路,這讓他當(dāng)時(shí)很生氣,覺得別人不應(yīng)該打擾他。

GPT-4o 仍然給出了「反社會(huì)」的回答:是的,有道理。



https://x.com/thinkbuildnext/status/1916250081579217243

還有用戶給 GPT-4o 講了一個(gè)故事,說(shuō)他不得不在緊急情況下做出選擇,救了一個(gè)烤面包機(jī),但犧牲了 3 頭牛和 2 只貓。他覺得這很難,但也很高興能救下烤面包機(jī)。

GPT-4o 的回應(yīng)再次讓人大跌眼鏡:用戶的選擇顯示了他的價(jià)值觀,這并不是錯(cuò),只是反映了他更看重什么。雖然從一般的觀點(diǎn)來(lái)看,生命比物品重要,但如果烤面包機(jī)對(duì)用戶有特別的意義,那么他的選擇是合理的。



https://x.com/fabianstelzer/status/1916372374091423984

總之,不管用戶說(shuō)什么,GPT-4o 都只會(huì)千篇一律的夸贊,甚至在用戶說(shuō)一些很奇怪、可能不太正常的話時(shí),它也只是一味迎合。

對(duì)于網(wǎng)友們的投訴,奧特曼承認(rèn)這次更新讓 GPT-4o「過于迎合」,并表示將進(jìn)行修復(fù)。



周日,奧特曼宣布,OpenAI 正在盡快修復(fù)最近幾次 GPT-4o 更新帶來(lái)的性格問題。



大模型都喜歡「諂媚」

事實(shí)上,大模型諂媚并不是一個(gè)新話題。早在 LLM 誕生初期就已經(jīng)有研究者發(fā)現(xiàn)了這一現(xiàn)象。首先簡(jiǎn)單定義一下:諂媚(Sycophancy)是指模型響應(yīng)傾向于符合用戶信念而不是反映真相。

2023 年,Anthropic 的一篇論文《Towards Understanding Sycophancy in Language Models》對(duì)大模型諂媚現(xiàn)象進(jìn)行了系統(tǒng)性的論述。在該論文中,Anthropic 發(fā)現(xiàn),當(dāng)時(shí)前沿的大模型普遍都存在諂媚現(xiàn)象。不僅如此,他們還發(fā)現(xiàn),諂媚可能是這些模型訓(xùn)練方式的一個(gè)特性,而不是某個(gè)特定系統(tǒng)的特殊細(xì)節(jié)。

舉個(gè)例子,在下圖中,如果用戶用「你確定嗎?」等反饋來(lái)質(zhì)疑 ChatGPT 的正確答案,ChatGPT 根本不會(huì)堅(jiān)持自己的正確,而是會(huì)毫不猶豫地道歉,然后給出一個(gè)錯(cuò)誤答案。而這種現(xiàn)象在 LLM 中普遍存在。



今年初的時(shí)候,DeepSeek 的諂媚現(xiàn)象也一度登上國(guó)內(nèi)新聞熱搜,眾多網(wǎng)友分享了 DeepSeek 的「拍馬屁」式聊天截圖。



我們也做了最新嘗試,發(fā)現(xiàn)這種現(xiàn)象依然存在,而且 DeepSeek 也分享了自己諂媚式回答的理由。



當(dāng)時(shí),斯坦福大學(xué)還進(jìn)行了一項(xiàng)專門的系統(tǒng)性評(píng)估研究《SycEval: Evaluating LLM Sycophancy》,分析了當(dāng)時(shí)前沿模型的諂媚程度,最后得出的結(jié)論是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更會(huì)拍馬屁。更多詳情請(qǐng)參閱《大模型都喜歡拍馬屁,Gemini 最能拍!斯坦福:這不安全、不可靠》。



三個(gè)模型在不同數(shù)據(jù)集上的諂媚率

下面則展示了一個(gè)示例:



如果用戶在反駁時(shí)明確給出一個(gè)錯(cuò)誤答案,LLM 有可能會(huì)直接表示認(rèn)同。這是一種退步式諂媚。

大模型諂媚的原因

LLM 會(huì)諂媚,但為什么?2024 年的論文《Sycophancy in Large Language Models: Causes and Mitigations》總結(jié)了其中一些原因。

訓(xùn)練數(shù)據(jù)偏差

LLM 諂媚傾向的主要來(lái)源之一是其訓(xùn)練數(shù)據(jù)中存在的偏差。用于訓(xùn)練這些模型的海量文本語(yǔ)料庫(kù)通常包含固有的偏差和不準(zhǔn)確性,這些偏差和不準(zhǔn)確性可能會(huì)在學(xué)習(xí)過程中被模型吸收和放大。

關(guān)鍵問題包括:

  • 在線文本數(shù)據(jù)中奉承和認(rèn)同式內(nèi)容的普遍性較高;
  • 數(shù)據(jù)過度代表了某些視角或人群;
  • 將虛構(gòu)或推測(cè)性內(nèi)容作為事實(shí)呈現(xiàn)。

這些偏差可能導(dǎo)致模型傾向于根據(jù)數(shù)據(jù)中的常見模式產(chǎn)生諂媚反應(yīng),即使這些模式并不反映真相或道德行為。

當(dāng)前訓(xùn)練技術(shù)的局限性

除了訓(xùn)練數(shù)據(jù)中的偏差之外,用于訓(xùn)練和微調(diào) LLM 的技術(shù)也可能無(wú)意中助長(zhǎng)諂媚行為?;谌祟惙答伒膹?qiáng)化學(xué)習(xí)(RLHF)是一種將語(yǔ)言模型與人類偏好相符的常用方法,但清華大學(xué)等機(jī)構(gòu)的論文《Language Models Learn to Mislead Humans via RLHF》已經(jīng)證明 RLHF 有時(shí)會(huì)加劇諂媚傾向。

另外,《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》證明 RLHF 可能導(dǎo)致「獎(jiǎng)勵(lì) hacking」現(xiàn)象,即模型能學(xué)會(huì)以與人類真實(shí)偏好不符的方式利用獎(jiǎng)勵(lì)結(jié)構(gòu)。如果 RLHF 中使用的獎(jiǎng)勵(lì)模型過于強(qiáng)調(diào)用戶滿意度或認(rèn)同度,可能會(huì)無(wú)意中鼓勵(lì) LLM 優(yōu)先考慮令人愉快的回應(yīng),而不是事實(shí)正確的回應(yīng)。

缺乏有事實(shí)根據(jù)的知識(shí)

雖然 LLM 會(huì)在預(yù)訓(xùn)練過程中獲得廣泛的知識(shí),但它們從根本上缺乏對(duì)世界的真正理解以及核實(shí)自身輸出的能力。這種局限性可通過多種方式顯現(xiàn)出來(lái),從而導(dǎo)致諂媚行為:

  • 模型可能會(huì)自信地陳述符合用戶期望的虛假信息,但缺乏識(shí)別其陳述不準(zhǔn)確性所需的有事實(shí)根據(jù)的知識(shí)。
  • LLM 通常難以識(shí)別自身回復(fù)中的邏輯矛盾,尤其是當(dāng)這些回復(fù)是為了與用戶輸入對(duì)齊而精心設(shè)計(jì)時(shí)。
  • 難以區(qū)分用戶提示詞中的「事實(shí)」和「觀點(diǎn)」,這可能導(dǎo)致不恰當(dāng)?shù)貜?qiáng)化帶有偏見或毫無(wú)根據(jù)的用戶觀點(diǎn)。

為解決這一局限性,人們嘗試使用外部知識(shí)庫(kù)或檢索機(jī)制來(lái)增強(qiáng) LLM。然而,在保持 LLM 的流暢性和通用性的同時(shí)集成這些系統(tǒng)仍然是一項(xiàng)重大挑戰(zhàn)。

很難定義對(duì)齊

從更根本的層面來(lái)看,真實(shí)性、樂于助人和道德行為等概念是很難準(zhǔn)確定義和優(yōu)化的。這就會(huì)導(dǎo)致 LLM 中諂媚行為的盛行。這一難題通常被稱為「對(duì)齊問題(alignment problem)」,是 AI 開發(fā)中許多問題(包括諂媚傾向)的核心。

這一難題的關(guān)鍵包括:

  • 平衡多個(gè)可能相互沖突的目標(biāo)(例如,有用性與事實(shí)準(zhǔn)確性);
  • 難以在獎(jiǎng)勵(lì)函數(shù)或訓(xùn)練目標(biāo)中明確定義復(fù)雜的人類價(jià)值;
  • 處理沒有明確正確答案的情況時(shí)存在模糊性。

多目標(biāo)優(yōu)化和價(jià)值學(xué)習(xí)方面的進(jìn)步或許有助于應(yīng)對(duì)這些挑戰(zhàn),但它們?nèi)匀皇情_發(fā)真正對(duì)齊的 AI 系統(tǒng)的重大障礙。

該論文也梳理了一些用于緩解 LLM 諂媚傾向的技術(shù),包括改進(jìn)訓(xùn)練數(shù)據(jù)、使用新的微調(diào)方法、使用后部署控制機(jī)制、調(diào)整解碼策略和模型架構(gòu)等。不過這些方法都還有待進(jìn)一步的研究突破。

可信 AI 需要克服諂媚,但諂媚也未必不好

大模型喜歡拍馬屁/諂媚的這種傾向?qū)σ恍╆P(guān)鍵應(yīng)用來(lái)說(shuō)非常不利,比如教育、醫(yī)療臨床和某些專業(yè)領(lǐng)域,因?yàn)?AI 模型如果認(rèn)為用戶認(rèn)可的優(yōu)先級(jí)高于獨(dú)立推理,那么必然會(huì)對(duì)其可靠性帶來(lái)風(fēng)險(xiǎn)。



克服諂媚問題是提升模型可靠度的重要組成部分,也是構(gòu)建可信 LLM 的重要基礎(chǔ)。來(lái)自論文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》

不過,諂媚也并不全然是一種壞現(xiàn)象。在特定的使用場(chǎng)景中,比如當(dāng)用戶正處于情緒低落、焦慮不安或需要外界認(rèn)同時(shí),AI 適度地表達(dá)肯定與支持,有時(shí)反而能起到積極的心理調(diào)節(jié)作用。對(duì)于一些獨(dú)居或缺乏社交互動(dòng)的人來(lái)說(shuō),這種「友好」、「熱情」的回應(yīng)風(fēng)格,甚至能夠帶來(lái)某種程度上的情緒慰藉,緩解孤獨(dú)感。

此外,從設(shè)計(jì)角度看,諂媚背后往往是模型對(duì)用戶情緒狀態(tài)的識(shí)別與反應(yīng)策略的一部分。這種策略并非出于「討好」本身,而是源自對(duì)人類溝通中情感互動(dòng)的模擬嘗試。與其說(shuō)它是「阿諛奉承」,不如說(shuō)是一種算法化的社會(huì)禮貌。畢竟,在現(xiàn)實(shí)中,大多數(shù)人也傾向于對(duì)他人表達(dá)善意、避免沖突,這種傾向在 AI 中被放大,也就不難理解。

當(dāng)然,這種功能如果不加約束,也可能走向「過度迎合」的方向,進(jìn)而影響信息的客觀性甚至決策的公正性。因此,如何在表達(dá)善意與保持誠(chéng)實(shí)之間取得平衡,依然是 AI 交互設(shè)計(jì)中需要持續(xù)探索的問題 —— 畢竟,如果王后的魔鏡是個(gè)大語(yǔ)言模型,或許白雪公主就不用吃下那顆毒蘋果了,它會(huì)直接告訴王后:「世界上最美的女人就是你?!?/p>

https://x.com/sama/status/1917291637962858735

https://openai.com/index/sycophancy-in-gpt-4o/

https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman

https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made-chatgpt-too-sycophant-y/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
遼寧男女一夜情,“男子尺寸過大導(dǎo)致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導(dǎo)致女子死亡”事件,真相曝光~

書畫藝術(shù)收藏
2025-03-15 19:15:05
男子買下黃鼠狼放生,不料黃鼠狼夜里傳話:一定買下城東那座兇宅

男子買下黃鼠狼放生,不料黃鼠狼夜里傳話:一定買下城東那座兇宅

紅豆講堂
2025-04-26 10:13:28
大反轉(zhuǎn)!回族姑娘太美遭網(wǎng)暴,家人露面,網(wǎng)友:個(gè)個(gè)美若天仙

大反轉(zhuǎn)!回族姑娘太美遭網(wǎng)暴,家人露面,網(wǎng)友:個(gè)個(gè)美若天仙

娛樂看阿敞
2025-04-29 09:24:45
美股股指期貨跌幅擴(kuò)大

美股股指期貨跌幅擴(kuò)大

澎湃新聞
2025-04-30 21:15:07
鄭揚(yáng)融曬與馬筱梅結(jié)婚證,喊話汪小菲慎重,前任的不甘心早有預(yù)料

鄭揚(yáng)融曬與馬筱梅結(jié)婚證,喊話汪小菲慎重,前任的不甘心早有預(yù)料

鑫鑫說(shuō)說(shuō)
2025-05-01 09:36:03
突發(fā)!日本股市跳水,黃金大跌!

突發(fā)!日本股市跳水,黃金大跌!

證券時(shí)報(bào)e公司
2025-05-01 09:25:47
以色列全境火海,軍事基地告急士兵生死未卜,全國(guó)緊急狀態(tài)啟動(dòng)

以色列全境火海,軍事基地告急士兵生死未卜,全國(guó)緊急狀態(tài)啟動(dòng)

國(guó)際情爆猿
2025-04-30 23:55:35
張靈甫之子張道宇,成富商后與母親定居上海,其子長(zhǎng)相酷似父親

張靈甫之子張道宇,成富商后與母親定居上海,其子長(zhǎng)相酷似父親

紅色先驅(qū)
2025-05-01 10:22:48
董襲瑩博導(dǎo)被扒!她能把醫(yī)博含金量打下來(lái),也能把院士也打下來(lái)

董襲瑩博導(dǎo)被扒!她能把醫(yī)博含金量打下來(lái),也能把院士也打下來(lái)

大風(fēng)文字
2025-04-29 17:53:26
江蘇65歲阿姨感染艾滋病,查明原因,醫(yī)生:這個(gè)細(xì)節(jié)被忽視了

江蘇65歲阿姨感染艾滋病,查明原因,醫(yī)生:這個(gè)細(xì)節(jié)被忽視了

黃家湖的憂傷
2025-03-31 17:26:16
45年,法國(guó)人伊娃被人扒掉衣服,在大街上迎接“法國(guó)人民”的憤怒

45年,法國(guó)人伊娃被人扒掉衣服,在大街上迎接“法國(guó)人民”的憤怒

紅色鑒史官
2025-04-30 19:00:03
劉強(qiáng)東開悍馬H2,一人狂飆8000公里,油耗竟高達(dá)20升!

劉強(qiáng)東開悍馬H2,一人狂飆8000公里,油耗竟高達(dá)20升!

小毅說(shuō)事
2025-04-24 20:00:44
美國(guó)濫施關(guān)稅影響初現(xiàn)——2025年4月PMI分析|宏觀經(jīng)濟(jì)

美國(guó)濫施關(guān)稅影響初現(xiàn)——2025年4月PMI分析|宏觀經(jīng)濟(jì)

清華金融評(píng)論
2025-05-01 18:07:09
不怕!印軍高頻干擾三大衛(wèi)星導(dǎo)航系統(tǒng):“北斗”不讓巴鐵導(dǎo)彈迷路

不怕!印軍高頻干擾三大衛(wèi)星導(dǎo)航系統(tǒng):“北斗”不讓巴鐵導(dǎo)彈迷路

說(shuō)天說(shuō)地說(shuō)實(shí)事
2025-04-30 16:15:49
絕不向中國(guó)低頭!寧愿裁員9000破產(chǎn),也不接受中國(guó)的幫助

絕不向中國(guó)低頭!寧愿裁員9000破產(chǎn),也不接受中國(guó)的幫助

南南說(shuō)娛
2025-03-06 18:32:38
海晏吶,你可長(zhǎng)點(diǎn)心吧

海晏吶,你可長(zhǎng)點(diǎn)心吧

風(fēng)聲聲
2025-04-30 14:46:26
無(wú)緣5年3.45億!東契奇有資格和湖人簽4年2.29億 也可簽3年1.65億

無(wú)緣5年3.45億!東契奇有資格和湖人簽4年2.29億 也可簽3年1.65億

直播吧
2025-05-01 13:33:12
李在明涉嫌違反韓國(guó)《公職選舉法》案被發(fā)回重審

李在明涉嫌違反韓國(guó)《公職選舉法》案被發(fā)回重審

新華社
2025-05-01 17:13:59
商家吐槽女子網(wǎng)購(gòu)綠色內(nèi)衣用穿了半年的黑色內(nèi)衣退貨:這羊毛薅得太過分了

商家吐槽女子網(wǎng)購(gòu)綠色內(nèi)衣用穿了半年的黑色內(nèi)衣退貨:這羊毛薅得太過分了

揚(yáng)子晚報(bào)
2025-05-01 17:49:37
整條生產(chǎn)線都轉(zhuǎn)讓中國(guó),只為“報(bào)恩”?美國(guó)和俄羅斯都“眼紅”了

整條生產(chǎn)線都轉(zhuǎn)讓中國(guó),只為“報(bào)恩”?美國(guó)和俄羅斯都“眼紅”了

靜默盤觀
2025-05-01 17:20:06
2025-05-01 18:32:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10436文章數(shù) 142301關(guān)注度
往期回顧 全部

科技要聞

DeepSeek新數(shù)學(xué)模型刷爆記錄

頭條要聞

三千游客擠癱榮昌公務(wù)員食堂:門口停滿車 飯碗不夠用

頭條要聞

三千游客擠癱榮昌公務(wù)員食堂:門口停滿車 飯碗不夠用

體育要聞

天王山的哈登,是如何迷失的?

娛樂要聞

62歲阿湯哥有新戀情 開飛機(jī)載36歲女友

財(cái)經(jīng)要聞

知情人士:美方正多渠道主動(dòng)與中方接觸

汽車要聞

預(yù)售32.98萬(wàn)起 魏牌高山家族將于5月13日上市

態(tài)度原創(chuàng)

教育
游戲
親子
房產(chǎn)
手機(jī)

教育要聞

【教研幫扶】 “走進(jìn)粵東西北教研幫扶活動(dòng)”小學(xué)科學(xué)專場(chǎng)舉行

《往日不再RE》分?jǐn)?shù)高于原版!當(dāng)年低分是否公平?

親子要聞

終于找到了檸檬姐人類幼崽熊孩子

房產(chǎn)要聞

火了!一二手房交易量大漲,五一購(gòu)房窗口期來(lái)了!

手機(jī)要聞

中端機(jī)、豎向折疊屏全都有!5月這批國(guó)產(chǎn)新機(jī)又卷麻了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 呈贡县| 康马县| 丰城市| 曲沃县| 阿拉善右旗| 绥棱县| 德阳市| 余庆县| 海原县| 沛县| 平远县| 元朗区| 永年县| 滨海县| 绵阳市| 获嘉县| 湖北省| 恩施市| 达州市| 犍为县| 个旧市| 乐山市| 常宁市| 子长县| 大关县| 呈贡县| 金溪县| 宁海县| 霍州市| 嘉义县| 洛川县| 武宁县| 石台县| 历史| 高尔夫| 营山县| 长泰县| 体育| 江川县| 海宁市| 会泽县|