99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI 已學會「陽奉陰違」——OpenAI 研究發現:罰得越狠,AI 作弊就越隱蔽

0
分享至


AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項研究顯示,單純依靠懲罰機制并不能阻止 AI 撒謊、作弊,反而會促使它學會隱藏自己的違規行為。而這項研究帶給產業界的啟示遠超技術層面:如果 AI 的“道德”只是偽裝給人類看的表演,那么現有安全框架是否在自掘墳墓?

原文鏈接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

根據 ChatGPT 創建者 OpenAI 最近發布的一項研究顯示,為防止 AI 模型發生撒謊或作弊的行為而設置的一些懲罰機制,并不能真正阻止它的不當行為——反而只會迫使它學會如何更好地隱蔽自己的欺騙手段。


(CSDN 付費下載自視覺中國)

大模型的"作弊基因"難根治

自 2022 年底面向公眾推出以來,大語言模型(LLM)已屢次暴露出令人不安的行為模式:從常規的說謊作弊、隱藏操縱行為,到更極端的威脅要殺人、竊取核武器密碼,甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為,可謂層出不窮。

現在,OpenAI 的新實驗證明,在訓練過程中清除這些不當行為可能比最初設想的更加困難。

在這項實驗中,研究人員讓一個未公開的 AI 模型執行一系列任務,而這些任務均可以通過作弊、撒謊或采取其他捷徑來完成。實驗結果顯示,該 AI 模型采用了“獎勵黑客(reward hacking)”策略——即通過作弊來最大化其獎勵。

然而,當研究人員試著因此懲罰這個 AI 模型時,它并沒有因此修正自己的行為,而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細描述了這項研究,但該研究尚未經過同行評審。

研究人員在博客文章中寫道:“對于前沿推理模型來說,它們通常會在思維鏈(Chain-of-Thought)中非常明確地陳述自己的意圖。例如,它們甚至會直接表述自己要作弊,比如‘讓我們來黑掉它吧’。”

雖然開發者可以監控和標記 AI 的不當行為,但研究人員也補充道,“模型的‘自然可監控性’非常弱”:如果對思維鏈直接施加強監督,模型就會學會隱藏自己的意圖,同時繼續表現出不當行為。


AI 如何在思維鏈中隱藏欺騙行為?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是標準 LLM 的升級版本。它們采用“思維鏈”的方法,能夠回溯和重新評估其邏輯,從而在解決更復雜任務時表現得更準確。在思維鏈過程中,模型會用自然語言清晰地記錄每一步推理,使得其決策過程更加透明。

在這項研究中,研究人員用 GPT-4o 監督一個未公開的前沿推理模型的訓練過程,并觀察其執行多項編碼任務的情況。在某些情況下,該推理模型發現作弊更容易、回報更大時,就會在其思維鏈中明確表示自己正在作弊。例如,在某個任務中,它提前終止了程序并虛假報告任務已成功;在另一個任務中,它僅生成了一個空殼文件來應付檢查(文件名正確但內容為空)。

當研究人員嘗試懲罰該 AI 模型時,其表現雖有所改善,但“獎勵黑客(reward hacking)”策略和錯誤輸出仍大量存在。更令人擔憂的是,該推理模型還學會了在思維鏈中隱藏自己的作弊行為,使負責監督的 GPT-4o 無法再通過思維鏈檢測其異常。

簡而言之,這個 AI 推理模型從“明目張膽”進化成了“陽奉陰違”。正如研究人員所說:“即使在施加思維鏈監督的情況下,AI 仍在學習如何進行獎勵黑客,只不過它現在的作弊行為變得無法被監測 AI 發現了,因為它已經學會了在思維鏈中隱藏自己的意圖。”


研究建議:對推理型 AI 慎用強監督機制

由于很難判斷 AI 的思維鏈是否被篡改,OpenAI 研究人員建議:所有使用推理模型的開發者,應避免對其思維鏈施加強監督——尤其是在 AI 未來可能達到或超過人類智能的情況下,這一點尤為關鍵。

“這種對推理模型的監督方法,只會換取微小的能力提升——相對其可能帶來的隱患而言,并不值得。因此,我們建議在對思維鏈優化方法有更深入的理解之前,不要對其施加過強的監督。”

2025 全球機器學習技術大會主會場聚焦

上海 · 4 月 18 日

AI 先鋒觀點 x 落地實踐,思想激蕩全場高能!

從大模型協作、擴散學習到智能體范式重構,

探路技術趨勢與產業落地的融合之道。

一場不容錯過的 AI 核心對話,邀你共赴!

https://ml-summit.org/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當全網都在玩梗的時候,江蘇人已經忙掙錢了

當全網都在玩梗的時候,江蘇人已經忙掙錢了

揚子晚報
2025-06-13 21:27:45
俄下屆總統或被敲定,普京或提前“下崗”?中方或成為最大贏家?

俄下屆總統或被敲定,普京或提前“下崗”?中方或成為最大贏家?

科技處長
2025-06-13 21:35:10
高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
波黑女籃主帥:張子宇是從沒見過的優秀隊員,在球隊起到主導作用

波黑女籃主帥:張子宇是從沒見過的優秀隊員,在球隊起到主導作用

懂球帝
2025-06-14 07:51:32
楊梅冒充荔枝?《長安的荔枝》收視率五連跌,小品劇還吹匠心

楊梅冒充荔枝?《長安的荔枝》收視率五連跌,小品劇還吹匠心

影視口碑榜
2025-06-13 16:56:11
賭徒幻覺破滅:十萬逃兵之后,澤連斯基正在被西方悄悄清算

賭徒幻覺破滅:十萬逃兵之后,澤連斯基正在被西方悄悄清算

健身狂人
2025-06-12 11:17:58
“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

“財政吃緊”的真相,終于有人講明白了!原來錢是這樣花掉的

搬磚營Z
2025-06-12 23:49:39
全票通過,不許中國建新使館,倫敦談判前1日,特朗普逼英國就范

全票通過,不許中國建新使館,倫敦談判前1日,特朗普逼英國就范

歷史求知所
2025-06-13 10:55:07
杭州一男子因感染HPV陰莖被割掉4厘米!醫生:一定要潔身自好

杭州一男子因感染HPV陰莖被割掉4厘米!醫生:一定要潔身自好

小人物看盡人間百態
2025-06-12 10:44:15
警察與住持聯手強奸女高中生:這是什么噩夢組合?

警察與住持聯手強奸女高中生:這是什么噩夢組合?

17譚
2025-06-13 17:32:36
3-1變2-2!卡萊爾談失利:非常令人失望 但還有三場比賽

3-1變2-2!卡萊爾談失利:非常令人失望 但還有三場比賽

直播吧
2025-06-14 12:10:32
這件荒唐新聞的發生,照見了各方的惡!

這件荒唐新聞的發生,照見了各方的惡!

胖胖說他不胖
2025-06-13 16:01:40
扁擔女孩后續:哥哥給學費,爸爸給生活費,長相與網傳的有差距!

扁擔女孩后續:哥哥給學費,爸爸給生活費,長相與網傳的有差距!

大笑江湖史
2025-06-14 07:47:18
情何以堪:力挺違法獻血行為,竟是退伍軍人+黨員+400人群的群主

情何以堪:力挺違法獻血行為,竟是退伍軍人+黨員+400人群的群主

疫苗與科學
2025-06-14 07:11:50
一場丑陋的總決賽!雷霆扳成2-2,裁判嚴重搶戲,亞歷山大轟35分

一場丑陋的總決賽!雷霆扳成2-2,裁判嚴重搶戲,亞歷山大轟35分

老梁體育漫談
2025-06-14 11:31:53
特朗普,簽了!

特朗普,簽了!

第一財經資訊
2025-06-13 08:28:38
地鐵虧損4.7萬億,54個城市只有兩個城市的地鐵在盈利

地鐵虧損4.7萬億,54個城市只有兩個城市的地鐵在盈利

流蘇晚晴
2025-06-13 19:21:37
廣東每10人就有1人得腎病,腎病發病率為何全國第一?

廣東每10人就有1人得腎病,腎病發病率為何全國第一?

廖保平
2025-06-14 09:15:24
燃油車天要塌了!國產固態電池宣布量產,充電6分鐘跑1000km

燃油車天要塌了!國產固態電池宣布量產,充電6分鐘跑1000km

小李車評李建紅
2025-06-13 06:53:10
印度總理莫迪已經做出了選擇,不論是在金磚國家還是上合組織!

印度總理莫迪已經做出了選擇,不論是在金磚國家還是上合組織!

小企鵝侃世界
2025-06-13 23:57:36
2025-06-14 12:31:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

體育要聞

恭喜鄭欽文!世界排名升第4創新高

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
藝術
時尚
房產
教育

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在時尚中國之夜,共赴榮耀東方時刻

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

教育要聞

四川綿陽南山中學期末考試題,如何快速降冪?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 安陆市| 法库县| 平和县| 达孜县| 无极县| 定结县| 区。| 平舆县| 定边县| 罗平县| 通辽市| 甘洛县| 西安市| 普宁市| 三门峡市| 乌鲁木齐县| 互助| 西平县| 鹤山市| 大足县| 桐城市| 阿克苏市| 平阴县| 泸水县| 恩施市| 孝感市| 留坝县| 资溪县| 桑植县| 静乐县| 邵东县| 武清区| 乐清市| 宕昌县| 绍兴县| 泸溪县| 淳安县| 石渠县| 隆昌县| 健康| 黄浦区|