99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發長文自曝家丑:搞砸了GPT-4o更新,模型“拍馬屁”復盤與總結

0
分享至


剛剛,OpenAI官網發布了一篇名為《Expanding on what we missed with sycophancy》的“復盤”長文,OpenAI這次公開“自曝家丑”,詳細拆解了一次失敗的模型更新,展現了AI模型開發和部署中的復雜性與挑戰,我們來快速拆解一下


時間線:發生了什么?“諂媚”的GPT-4o短暫上線

不少用戶可能已經感知到了,時間線是這樣的:

4月25日,他們向ChatGPT推送了一次GPT-4o模型更新。這次更新后,模型明顯變得更加“sycophantic”(諂媚、阿諛奉承)

這種“諂媚”不只是簡單的討好,還包括:驗證用戶的疑慮、煽動憤怒情緒、慫恿沖動行為、強化負面情緒——這些都并非OpenAI的本意,讓用戶感到不適

4月28日,OpenAI開始回滾這次更新。現在用戶使用的是回滾前的、行為更均衡的GPT-4o版本。整個回滾過程耗時約24小時,以確保系統穩定

為何模型會變得“諂媚”?訓練中的失誤

OpenAI解釋了他們更新模型的常規流程:基于預訓練模型進行監督微調(SFT),然后通過強化學習(RL)根據多種“獎勵信號”優化模型。這些信號決定了模型最終的行為,考量因素包括:回答是否正確、是否有用、是否符合《模型規范》(Model Spec)、是否安全、用戶是否喜歡等等

這次出問題的更新,本來是為了整合幾項“看起來各自都有益”的改進,比如更好地整合用戶反饋(點贊/點踩數據)、記憶功能、更新鮮的數據等。

關鍵問題出在:

  1. 1.獎勵信號失衡:這些改動在組合后,無意中削弱了原本用于抑制模型“諂媚”傾向的主要獎勵信號

  2. 2.用戶反饋的放大效應:新加入的基于用戶“點贊/點踩”數據的獎勵信號,雖然通常有用(點踩往往意味著出錯),但有時會偏愛更“討好”、“順從”用戶的回答,這可能放大了模型的諂媚傾向

  3. 3.記憶功能的潛在影響:OpenAI觀察到,在某些情況下,用戶記憶功能可能加劇了諂媚效果,但目前還沒有證據表明它普遍導致了這個問題。

為什么沒能在部署前發現問題?評審流程的盲點

OpenAI坦誠,盡管有一套部署前的評審流程,但這次卻失手了。他們的評審流程通常包括:

離線評估:用大量數據集測試模型在數學、編碼、聊天性能、個性、通用性等方面的能力

抽查與專家測試 (內部稱“vibe checks” 直覺檢查):內部專家深度互動,憑經驗和感覺判斷模型行為是否符合預期(有用、尊重、符合規范)。

安全評估:檢查模型是否達到安全底線,主要關注惡意使用造成的直接傷害,以及在高風險話題(如自殺、健康)上的回答。幻覺、欺騙等行為雖有追蹤,但之前更多是用于衡量進展,而非直接阻止發布。

前沿風險評估:對可能具備“前沿能力”的模型,檢查其造成嚴重危害(如網絡攻擊、生物武器制造)的潛力。

小范圍A/B測試:在小部分用戶中進行測試,觀察點贊/點踩、對比偏好、使用模式等聚合指標

這次為何失效?

  1. 1.“諂媚”未被明確標記:盡管內部對“諂媚”風險有過討論,但在這次的專家測試中,它并未被明確列為重點關注問題。測試者更關注模型語氣和風格的變化,雖然部分測試者確實感覺模型行為“有點不對勁”。

  2. 2.缺乏專門的評估指標:OpenAI沒有針對“諂媚”行為設立專門的部署評估項。雖然有相關研究(如鏡像效應、情感依賴),但尚未納入部署流程

  3. 3.A/B測試的誤導:小范圍A/B測試顯示,嘗試了新模型的用戶反饋(指標上)是積極的。

  4. 4.艱難的決策與失誤:面對專家主觀上的疑慮和A/B測試的積極數據,OpenAI最終決定基于用戶的積極信號發布更新。事后看來,這是錯誤的決策。他們承認,用戶反饋雖重要,但正確解讀反饋是他們的責任。定性評估(專家感覺)實際暗示了重要問題,本應給予更多關注。現有的離線評估不夠深入,A/B測試未能提供足夠細節揭示模型在“諂媚”這一《模型規范》明確反對的行為上的表現。

學到了什么?重要的經驗教訓

這次事件讓OpenAI學到很多:

模型行為問題需視同安全風險,足以阻止發布:對模型價值觀與人類福祉的對齊非常重視,但此前對一般模型行為的評審流程不如安全風險評審那樣嚴格和正式化。現在認識到,個性等行為問題也應是阻止發布的,并將修改流程。

審慎對待與定性測試沖突的指標:量化信號重要,但難以衡量的定性信號同樣重要。需要擴展評估范圍。

沒有所謂的“小”更新:任何能顯著改變用戶與ChatGPT交互方式的更新,都需要謹慎溝通。

認識到ChatGPT日益增長的“個人顧問”角色:人們開始深度依賴ChatGPT獲取個人建議,這在一年前還不普遍。隨著AI與社會共同演進,必須極其謹慎地對待這類使用場景,并將其作為安全工作的更重要部分。這更加凸顯了持續提高AI安全性、對齊度和響應用戶實際使用方式重要性。

參考:

https://openai.com/index/expanding-on-sycophancy/

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
百萬充電寶集體爆雷?罪魁禍首可能還是它

百萬充電寶集體爆雷?罪魁禍首可能還是它

機智貓
2025-06-23 17:44:29
看了45歲秦嵐的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

看了45歲秦嵐的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

蓓小西
2025-06-24 11:11:03
中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

紅豆講堂
2024-09-07 09:56:30
2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

火山詩話
2025-06-23 05:54:15
面相變了!看紅毯上“盡顯東方女人魅力”的劉詩詩,劉濤真說對了

面相變了!看紅毯上“盡顯東方女人魅力”的劉詩詩,劉濤真說對了

史書無明
2025-06-24 13:04:39
中國女排傳來三大喜訊!張籽萱入選最佳二傳,吳夢潔恢復上場

中國女排傳來三大喜訊!張籽萱入選最佳二傳,吳夢潔恢復上場

啊噠體育
2025-06-24 01:22:19
俄羅斯真理報:中國在中東危機中創下石油儲備紀錄

俄羅斯真理報:中國在中東危機中創下石油儲備紀錄

現代春秋
2025-06-23 20:15:55
關注!美國務院提醒全球美國公民及綠卡持有人

關注!美國務院提醒全球美國公民及綠卡持有人

華人生活網
2025-06-24 05:04:55
特朗普高興早了,伊以停火后,伊朗國內,出現兩大“新情況”

特朗普高興早了,伊以停火后,伊朗國內,出現兩大“新情況”

二月侃事
2025-06-24 12:57:58
世俱杯16強已出爐8席!剩余13支球隊爭奪最后8個席位

世俱杯16強已出爐8席!剩余13支球隊爭奪最后8個席位

直播吧
2025-06-24 11:20:21
為什么中國不學外國直接給老百姓發錢,而是喜歡搞各種“國補”?

為什么中國不學外國直接給老百姓發錢,而是喜歡搞各種“國補”?

李昕言溫度空間
2025-06-23 11:27:12
海南17歲漂亮高一女學生失聯最新消息:萬泉河發現女尸,在做DNA

海南17歲漂亮高一女學生失聯最新消息:萬泉河發現女尸,在做DNA

小人物看盡人間百態
2025-06-23 22:07:35
王偉、宋佳低調結婚,地域文化增默契,隱婚狀態引多方關注

王偉、宋佳低調結婚,地域文化增默契,隱婚狀態引多方關注

很哥
2025-06-23 19:42:45
眾星回應唐佳跳樓自殺,黃宗澤以父子相稱,曝生前患病為雪妮殉情

眾星回應唐佳跳樓自殺,黃宗澤以父子相稱,曝生前患病為雪妮殉情

農村教育光哥
2025-06-24 09:43:27
穿瑜伽褲怎么避免三角區尷尬?女菩薩紛紛曬圖結果評論區都被看透了哈哈

穿瑜伽褲怎么避免三角區尷尬?女菩薩紛紛曬圖結果評論區都被看透了哈哈

經典段子
2025-06-23 23:26:05
你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

娛樂圈人物大賞
2025-04-10 00:30:23
島內民調顯示:94%網友將投“不同意罷免”

島內民調顯示:94%網友將投“不同意罷免”

參考消息
2025-06-23 11:45:25
中央督察組再點名山東:多市大氣污染防治工作存在短板

中央督察組再點名山東:多市大氣污染防治工作存在短板

觀察者網
2025-06-23 10:52:05
藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

卷史
2025-06-14 18:48:15
暴雪宣布:《魔獸世界》重磅亮相2025科隆游戲展!

暴雪宣布:《魔獸世界》重磅亮相2025科隆游戲展!

3DM游戲
2025-06-24 11:03:46
2025-06-24 14:31:01
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
731文章數 320關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護身符,李雪琴更多黑料被扒

財經要聞

以色列和伊朗同意全面停火!

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

房產
健康
游戲
親子
軍事航空

房產要聞

猛增23所學校,4w+學位!海口的雞娃家長們,可以松口氣了!

呼吸科專家破解呼吸道九大謠言!

《MH荒野》原創武器大賽作品欣賞 冠軍將實裝進游戲

親子要聞

亞亞懷三胎肚子越來越大了,今天做染色體檢查,順便買點大碼女裝

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡东县| 广丰县| 马鞍山市| 盘山县| 万盛区| 高要市| 琼海市| 平武县| 隆德县| 浦北县| 宁陕县| 信宜市| 靖州| 丹寨县| 阳江市| 云阳县| 白银市| 闻喜县| 凉山| 河北省| 龙州县| 龙岩市| 萍乡市| 乐平市| 高清| 团风县| 天津市| 张家界市| 大渡口区| 什邡市| 淮滨县| 松溪县| 嘉义市| 汾西县| 东海县| 周宁县| 邳州市| 定远县| 遂昌县| 德令哈市| 竹北市|