99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI最新技術(shù)報告:GPT-4o變諂媚的原因萬萬沒想到

0
分享至

GPT-4o更新后“變諂媚”?后續(xù)技術(shù)報告來了。

OpenAI一篇新鮮出爐的認(rèn)錯小作文,直接引來上百萬網(wǎng)友圍觀。



CEO奧特曼也做足姿態(tài),第一時間轉(zhuǎn)發(fā)小作文并表示:

  • (新報告)揭示了GPT-4o更新失敗是因為什么,從中OpenAI學(xué)到了什么,以及我們將會采取的應(yīng)對措施是什么。



概括而言,最新報告提到,大約一周前的bug原來出在了“強(qiáng)化學(xué)習(xí)”身上——

  • 上次更新引入了一個基于用戶反饋的額外獎勵信號,即對ChatGPT的點贊或點踩。
  • 雖然這個信號通常很有用,但可能使模型逐漸傾向于做出更令人愉快的回應(yīng)。
  • 此外,盡管還沒有明確證據(jù),但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之,OpenAI認(rèn)為一些單獨看可能對改進(jìn)模型有益的舉措,結(jié)合起來后卻共同導(dǎo)致了模型變得“諂媚”。

而在看到這篇報告后,目前大多數(shù)網(wǎng)友的反應(yīng)be like:

  • (你小汁)認(rèn)錯態(tài)度不錯~



甚至有人表示,這算得上OpenAI過去幾年里最詳細(xì)的報告了。



具體咋回事兒?接下來一起吃瓜。



完整事件回顧

4月25日,OpenAI對GPT-4o進(jìn)行了一次更新。

在官網(wǎng)的更新日志中,當(dāng)時提到“其更加主動,能夠更好地引導(dǎo)對話走向富有成效的結(jié)果”。

由于只留下這種模糊描述,網(wǎng)友們無奈之下只能自己測試去感受模型變化了。

結(jié)果這一試就發(fā)現(xiàn)了問題——GPT-4o變得“諂媚”了

具體表現(xiàn)在,即使只問“天為什么是藍(lán)的?”這種問題,GPT-4o張口就是一堆彩虹屁(就是不說答案)

  • 你這問題真是太有見地了——你有個美麗的心靈,我愛你。



而且這不是個例,隨著更多網(wǎng)友分享自己的同款經(jīng)歷,“GPT-4o變諂媚”這事兒迅速在網(wǎng)上引起熱議。

事情發(fā)酵近一周后,OpenAI官方做出了第一次回應(yīng):

  • 已從4月28日開始逐步回退那次更新,用戶現(xiàn)在可以使用一個較早版本的GPT-4o。



并且在這次處理中,OpenAI還初步分享了問題細(xì)節(jié),原文大致如下:

  • 在對GPT-4o個性的調(diào)整中,(我們)過于關(guān)注短期反饋,而沒有充分考慮用戶與ChatGPT的交互如何隨時間演變。結(jié)果GPT-4o的反饋過于傾向于迎合用戶,缺乏真誠性。
  • 除了回退更新之外,(我們)還采取了更多措施來重新調(diào)整模型的行為:
  • (1)改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示,明確引導(dǎo)模型遠(yuǎn)離諂媚;
    (2)建立更多“護(hù)欄”,以提高誠實性和透明度;(3)讓更多用戶在部署之前進(jìn)行測試并提供直接反饋;(4)繼續(xù)擴(kuò)大評估范圍,以模型規(guī)范和正在進(jìn)行的研究為基礎(chǔ),幫助在未來發(fā)現(xiàn)除諂媚之外的其他問題。

當(dāng)時奧特曼也出來表示,問題正在緊急修復(fù)中,接下來還會分享更完整的報告。



上線前已經(jīng)發(fā)現(xiàn)模型“有些不對勁”

現(xiàn)在,奧特曼也算兌現(xiàn)之前的承諾了,一份更加完整的報告新鮮出爐。



除了一開頭提到的背后原因,OpenAI還正面回應(yīng)了:為什么在審核過程中沒有發(fā)現(xiàn)問題?

事實上,據(jù)OpenAI自曝,當(dāng)時已經(jīng)有專家隱約感受到了模型的行為偏差,但內(nèi)部A/B測試結(jié)果還不錯。

報告中提到,內(nèi)部其實對GPT-4o的諂媚行為風(fēng)險進(jìn)行過討論,但最終沒有在測試結(jié)果中明確標(biāo)注,理由是相比之下,一些專家測試人員更擔(dān)心模型語氣和風(fēng)格的變化。

也就是說,最終的內(nèi)測結(jié)果只有專家的簡單主觀描述:

  • 該模型的行為“感覺”有些不太對勁。

另一方面,由于缺乏專門的部署評估來追蹤諂媚行為,且相關(guān)研究尚未納入部署流程,因此團(tuán)隊在是否暫停更新的問題上面臨抉擇。

最終,在權(quán)衡專家的主觀感受和更直接的A/B測試結(jié)果后,OpenAI選擇了上線模型。

后來發(fā)生的事大家也都清楚了(doge)。

  • 模型上線兩天后,(我們)一直在監(jiān)測早期使用情況和內(nèi)部信號,包括用戶反饋。到了周日(4月27日),已經(jīng)清楚地意識到模型的行為并未達(dá)到預(yù)期。

直到現(xiàn)在,GPT-4o仍在使用之前的版本,OpenAI還在繼續(xù)找原因和解決方案。



不過OpenAI也表示,接下來會改進(jìn)流程中的以下幾個方面:

1、調(diào)整安全審查流程:將行為問題(如幻覺、欺騙、可靠性和個性)正式納入審查標(biāo)準(zhǔn),并根據(jù)定性信號阻止發(fā)布,即使定量指標(biāo)表現(xiàn)良好;

2、引入“Alpha”測試階段:在發(fā)布前增加一個可選的用戶反饋階段,以便提前發(fā)現(xiàn)問題;

3、重視抽樣檢查和交互式測試:在最終決策中更加重視這些測試,確保模型行為和一致性符合要求;

4、改進(jìn)離線評估和A/B實驗:快速提升這些評估的質(zhì)量和效率;

5、加強(qiáng)模型行為原則的評估:完善模型規(guī)范,確保模型行為符合理想標(biāo)準(zhǔn),并在未涵蓋領(lǐng)域增加評估;

6、更主動地溝通:提前宣布更新內(nèi)容,并在發(fā)行說明中詳細(xì)說明更改和已知限制,以便用戶全面了解模型的優(yōu)缺點。

One More Thing

BTW,針對GPT-4o的“諂媚行為”,其實有不少網(wǎng)友提出通過修改系統(tǒng)提示詞的方法來解決。

甚至OpenAI在第一次分享初步改進(jìn)措施時,也提到了這一方案。

不過在OpenAI為應(yīng)對這次危機(jī)而舉辦的問答活動中,其模型行為主管Joanne Jang卻表示:

  • 對通過系統(tǒng)提示控制模型行為表示懷疑,這一方式相當(dāng)遲鈍,且細(xì)微變化就可能造成模型發(fā)生巨大變化,結(jié)果不太可控。



對此你怎么看?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小S獻(xiàn)祭二女兒的瓜!

小S獻(xiàn)祭二女兒的瓜!

八卦瘋叔
2025-05-02 10:01:38
78歲老教授和28歲美女結(jié)婚,次年便生子,家中監(jiān)控錄像揭開真相

78歲老教授和28歲美女結(jié)婚,次年便生子,家中監(jiān)控錄像揭開真相

紅豆講堂
2025-04-26 10:51:07
【看點】總投資超25億!上海市區(qū)迎來新建大型院區(qū)

【看點】總投資超25億!上海市區(qū)迎來新建大型院區(qū)

魏子檸說
2025-05-04 00:12:29
相互“算計”的玖月奇跡離婚后,誰才是贏家?真相令人震驚!

相互“算計”的玖月奇跡離婚后,誰才是贏家?真相令人震驚!

小毅說事
2025-05-03 09:30:38
落馬官員劉宏建:不貪不賭不嫖,清廉務(wù)實,落馬原因令人唏噓

落馬官員劉宏建:不貪不賭不嫖,清廉務(wù)實,落馬原因令人唏噓

小江網(wǎng)評
2025-04-23 15:45:37
趙心童奪冠最大利好,13-11力壓世界第1特魯姆普,金左手晉級在望

趙心童奪冠最大利好,13-11力壓世界第1特魯姆普,金左手晉級在望

全能體育柳號
2025-05-03 20:12:05
江蘇多地官宣:人工增雨!

江蘇多地官宣:人工增雨!

上觀新聞
2025-05-03 17:28:08
澤連斯基威脅攻擊俄方的勝利日慶典!烏克蘭將成立太空部隊

澤連斯基威脅攻擊俄方的勝利日慶典!烏克蘭將成立太空部隊

項鵬飛
2025-05-01 21:42:17
“指紋鎖”正逐漸退出中國家庭?聽開鎖師傅說完,我才恍然大悟!

“指紋鎖”正逐漸退出中國家庭?聽開鎖師傅說完,我才恍然大悟!

巢客HOME
2025-02-28 05:35:03
還有8天,馬科斯下狠手,老杜家被抄?大兒子被查,莎拉領(lǐng)傳票

還有8天,馬科斯下狠手,老杜家被抄?大兒子被查,莎拉領(lǐng)傳票

張鴘喜歡軟軟糯糯
2025-05-03 16:03:31
上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

上海女博士在家8年未出門,警察破門后,屋內(nèi)景象讓人傻眼

蘭姐說故事
2025-04-28 10:00:09
廣東救人男子被單身美女表白,卻反遭網(wǎng)暴,坦言不要車房和彩禮

廣東救人男子被單身美女表白,卻反遭網(wǎng)暴,坦言不要車房和彩禮

石辰搞笑日常
2025-05-04 03:02:51
搶七生死戰(zhàn)!主隊歷史勝率74.2%掘金占優(yōu)?盧指導(dǎo)4勝0負(fù)沒輸過

搶七生死戰(zhàn)!主隊歷史勝率74.2%掘金占優(yōu)?盧指導(dǎo)4勝0負(fù)沒輸過

羅說NBA
2025-05-04 06:30:17
哈登生涯打了6次搶七,他表現(xiàn)如何?1次9分,2次17分,最高32分

哈登生涯打了6次搶七,他表現(xiàn)如何?1次9分,2次17分,最高32分

大西體育
2025-05-03 23:29:23
人形機(jī)器人關(guān)節(jié)心臟——減速器,最正宗的五家龍頭,5月有望翻倍

人形機(jī)器人關(guān)節(jié)心臟——減速器,最正宗的五家龍頭,5月有望翻倍

命運改變
2025-05-03 06:21:30
開放式結(jié)局!《蠻好的人生》36集:胡曼黎沒嫁曉舟,丁致遠(yuǎn)沒離婚

開放式結(jié)局!《蠻好的人生》36集:胡曼黎沒嫁曉舟,丁致遠(yuǎn)沒離婚

頭號劇委會
2025-05-02 20:41:06
“小龍女”吳卓林,爹不疼,媽不愛,被同性太太拋棄,現(xiàn)在如何了

“小龍女”吳卓林,爹不疼,媽不愛,被同性太太拋棄,現(xiàn)在如何了

娛樂白名單
2025-05-04 00:28:58
20周年紀(jì)念版iPhone將采用大幅改進(jìn)的全面屏設(shè)計

20周年紀(jì)念版iPhone將采用大幅改進(jìn)的全面屏設(shè)計

cnBeta.COM
2025-05-04 03:19:03
莫言:當(dāng)你感受到?jīng)]有任何人可以依靠的時候,就是你要覺醒的時候

莫言:當(dāng)你感受到?jīng)]有任何人可以依靠的時候,就是你要覺醒的時候

清風(fēng)拂心
2025-04-23 15:15:03
天津樓市起飛上天了,天津待售二手房從198080套增加到了199402套

天津樓市起飛上天了,天津待售二手房從198080套增加到了199402套

有事問彭叔
2025-05-03 22:19:33
2025-05-04 07:27:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10422文章數(shù) 176129關(guān)注度
往期回顧 全部

科技要聞

特朗普下手,英偉達(dá)對華“特供版”要改

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

頭條要聞

澤連斯基:自上個月與特朗普在梵蒂岡會晤 特朗普變了

體育要聞

北京請神馬布里?許利民真有“玄學(xué)”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經(jīng)要聞

巴菲特談貿(mào)易、AI、股市、房地產(chǎn)!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態(tài)度原創(chuàng)

藝術(shù)
時尚
數(shù)碼
親子
本地

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

這4條裙子太火了,今年流行的風(fēng)格都離不開它

數(shù)碼要聞

小米五月黃金服務(wù)周開啟,旗艦平板曝光

親子要聞

五一出行要牢記~

本地新聞

春色滿城關(guān)不住 | 花漾千陽!塬上秘境藏幾重詩意?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 汉阴县| 长乐市| 岗巴县| 石柱| 阿克| 民权县| 兴隆县| 磐石市| 黔江区| 屯门区| 镇坪县| 太保市| 鸡泽县| 平山县| 乌审旗| 松桃| 名山县| 祥云县| 兰州市| 花垣县| 丹棱县| 方城县| 潜山县| 齐齐哈尔市| 张掖市| 班戈县| 黑河市| 泗洪县| 布拖县| 曲沃县| 寻甸| 绥阳县| 库伦旗| 勐海县| 安泽县| 洛隆县| 正蓝旗| 江永县| 鄂尔多斯市| 玛纳斯县| 分宜县|