網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI最新技術(shù)報告：GPT-4o變諂媚的原因萬萬沒想到

2025-05-03 12:02:04　來源: 量子位

山東舉報

分享至

GPT-4o更新后“變諂媚”？后續(xù)技術(shù)報告來了。

OpenAI一篇新鮮出爐的認(rèn)錯小作文，直接引來上百萬網(wǎng)友圍觀。

CEO奧特曼也做足姿態(tài)，第一時間轉(zhuǎn)發(fā)小作文并表示：

（新報告）揭示了GPT-4o更新失敗是因為什么，從中OpenAI學(xué)到了什么，以及我們將會采取的應(yīng)對措施是什么。

概括而言，最新報告提到，大約一周前的bug原來出在了“強(qiáng)化學(xué)習(xí)”身上——

上次更新引入了一個基于用戶反饋的額外獎勵信號，即對ChatGPT的點贊或點踩。
雖然這個信號通常很有用，但可能使模型逐漸傾向于做出更令人愉快的回應(yīng)。
此外，盡管還沒有明確證據(jù)，但用戶記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之，OpenAI認(rèn)為一些單獨看可能對改進(jìn)模型有益的舉措，結(jié)合起來后卻共同導(dǎo)致了模型變得“諂媚”。

而在看到這篇報告后，目前大多數(shù)網(wǎng)友的反應(yīng)be like：

（你小汁）認(rèn)錯態(tài)度不錯~

甚至有人表示，這算得上OpenAI過去幾年里最詳細(xì)的報告了。

具體咋回事兒？接下來一起吃瓜。

完整事件回顧

4月25日，OpenAI對GPT-4o進(jìn)行了一次更新。

在官網(wǎng)的更新日志中，當(dāng)時提到“其更加主動，能夠更好地引導(dǎo)對話走向富有成效的結(jié)果”。

由于只留下這種模糊描述，網(wǎng)友們無奈之下只能自己測試去感受模型變化了。

結(jié)果這一試就發(fā)現(xiàn)了問題——GPT-4o變得“諂媚”了。

具體表現(xiàn)在，即使只問“天為什么是藍(lán)的？”這種問題，GPT-4o張口就是一堆彩虹屁（就是不說答案）：

你這問題真是太有見地了——你有個美麗的心靈，我愛你。

而且這不是個例，隨著更多網(wǎng)友分享自己的同款經(jīng)歷，“GPT-4o變諂媚”這事兒迅速在網(wǎng)上引起熱議。

事情發(fā)酵近一周后，OpenAI官方做出了第一次回應(yīng)：

已從4月28日開始逐步回退那次更新，用戶現(xiàn)在可以使用一個較早版本的GPT-4o。

并且在這次處理中，OpenAI還初步分享了問題細(xì)節(jié)，原文大致如下：

在對GPT-4o個性的調(diào)整中，（我們）過于關(guān)注短期反饋，而沒有充分考慮用戶與ChatGPT的交互如何隨時間演變。結(jié)果GPT-4o的反饋過于傾向于迎合用戶，缺乏真誠性。
除了回退更新之外，（我們）還采取了更多措施來重新調(diào)整模型的行為：
（1）改進(jìn)核心訓(xùn)練技術(shù)和系統(tǒng)提示，明確引導(dǎo)模型遠(yuǎn)離諂媚；
（2）建立更多“護(hù)欄”，以提高誠實性和透明度；（3）讓更多用戶在部署之前進(jìn)行測試并提供直接反饋；（4）繼續(xù)擴(kuò)大評估范圍，以模型規(guī)范和正在進(jìn)行的研究為基礎(chǔ)，幫助在未來發(fā)現(xiàn)除諂媚之外的其他問題。

當(dāng)時奧特曼也出來表示，問題正在緊急修復(fù)中，接下來還會分享更完整的報告。

上線前已經(jīng)發(fā)現(xiàn)模型“有些不對勁”

現(xiàn)在，奧特曼也算兌現(xiàn)之前的承諾了，一份更加完整的報告新鮮出爐。

除了一開頭提到的背后原因，OpenAI還正面回應(yīng)了：為什么在審核過程中沒有發(fā)現(xiàn)問題？

事實上，據(jù)OpenAI自曝，當(dāng)時已經(jīng)有專家隱約感受到了模型的行為偏差，但內(nèi)部A/B測試結(jié)果還不錯。

報告中提到，內(nèi)部其實對GPT-4o的諂媚行為風(fēng)險進(jìn)行過討論，但最終沒有在測試結(jié)果中明確標(biāo)注，理由是相比之下，一些專家測試人員更擔(dān)心模型語氣和風(fēng)格的變化。

也就是說，最終的內(nèi)測結(jié)果只有專家的簡單主觀描述：

該模型的行為“感覺”有些不太對勁。

另一方面，由于缺乏專門的部署評估來追蹤諂媚行為，且相關(guān)研究尚未納入部署流程，因此團(tuán)隊在是否暫停更新的問題上面臨抉擇。

最終，在權(quán)衡專家的主觀感受和更直接的A/B測試結(jié)果后，OpenAI選擇了上線模型。

后來發(fā)生的事大家也都清楚了（doge）。

模型上線兩天后，（我們）一直在監(jiān)測早期使用情況和內(nèi)部信號，包括用戶反饋。到了周日（4月27日），已經(jīng)清楚地意識到模型的行為并未達(dá)到預(yù)期。

直到現(xiàn)在，GPT-4o仍在使用之前的版本，OpenAI還在繼續(xù)找原因和解決方案。

不過OpenAI也表示，接下來會改進(jìn)流程中的以下幾個方面：

1、調(diào)整安全審查流程：將行為問題（如幻覺、欺騙、可靠性和個性）正式納入審查標(biāo)準(zhǔn)，并根據(jù)定性信號阻止發(fā)布，即使定量指標(biāo)表現(xiàn)良好；

2、引入“Alpha”測試階段：在發(fā)布前增加一個可選的用戶反饋階段，以便提前發(fā)現(xiàn)問題；

3、重視抽樣檢查和交互式測試：在最終決策中更加重視這些測試，確保模型行為和一致性符合要求；

4、改進(jìn)離線評估和A/B實驗：快速提升這些評估的質(zhì)量和效率；

5、加強(qiáng)模型行為原則的評估：完善模型規(guī)范，確保模型行為符合理想標(biāo)準(zhǔn)，并在未涵蓋領(lǐng)域增加評估；

6、更主動地溝通：提前宣布更新內(nèi)容，并在發(fā)行說明中詳細(xì)說明更改和已知限制，以便用戶全面了解模型的優(yōu)缺點。

One More Thing

BTW，針對GPT-4o的“諂媚行為”，其實有不少網(wǎng)友提出通過修改系統(tǒng)提示詞的方法來解決。

甚至OpenAI在第一次分享初步改進(jìn)措施時，也提到了這一方案。

不過在OpenAI為應(yīng)對這次危機(jī)而舉辦的問答活動中，其模型行為主管Joanne Jang卻表示：

對通過系統(tǒng)提示控制模型行為表示懷疑，這一方式相當(dāng)遲鈍，且細(xì)微變化就可能造成模型發(fā)生巨大變化，結(jié)果不太可控。

對此你怎么看？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.