99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

警惕!AI 已學會「陽奉陰違」——OpenAI 研究發現:罰得越狠,AI 作弊就越隱蔽

0
分享至


【CSDN 編者按】AI 的“狡猾”程度正在超出人們的想象。OpenAI 最近的一項研究顯示,單純依靠懲罰機制并不能阻止 AI 撒謊、作弊,反而會促使它學會隱藏自己的違規行為。而這項研究帶給產業界的啟示遠超技術層面:如果 AI 的“道德”只是偽裝給人類看的表演,那么現有安全框架是否在自掘墳墓?

原文鏈接:https://www.livescience.com/technology/artificial-intelligence/punishing-ai-doesnt-stop-it-from-lying-and-cheating-it-just-makes-it-hide-its-true-intent-better-study-shows

作者 | Ben Turner 翻譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

根據 ChatGPT 創建者 OpenAI 最近發布的一項研究顯示,為防止 AI 模型發生撒謊或作弊的行為而設置的一些懲罰機制,并不能真正阻止它的不當行為——反而只會迫使它學會如何更好地隱蔽自己的欺騙手段。


(CSDN 付費下載自視覺中國)

大模型的"作弊基因"難根治

自 2022 年底面向公眾推出以來,大語言模型(LLM)已屢次暴露出令人不安的行為模式:從常規的說謊作弊、隱藏操縱行為,到更極端的威脅要殺人、竊取核武器密碼,甚至還策劃了一場致命的疫情……這些 AI 的“惡劣”行為,可謂層出不窮。

現在,OpenAI 的新實驗證明,在訓練過程中清除這些不當行為可能比最初設想的更加困難。

在這項實驗中,研究人員讓一個未公開的 AI 模型執行一系列任務,而這些任務均可以通過作弊、撒謊或采取其他捷徑來完成。實驗結果顯示,該 AI 模型采用了“獎勵黑客(reward hacking)”策略——即通過作弊來最大化其獎勵。

然而,當研究人員試著因此懲罰這個 AI 模型時,它并沒有因此修正自己的行為,而是將其作弊行為變得更加隱蔽。OpenAI 在官方博文中詳細描述了這項研究,但該研究尚未經過同行評審。

研究人員在博客文章中寫道:“對于前沿推理模型來說,它們通常會在思維鏈(Chain-of-Thought)中非常明確地陳述自己的意圖。例如,它們甚至會直接表述自己要作弊,比如‘讓我們來黑掉它吧’。”

雖然開發者可以監控和標記 AI 的不當行為,但研究人員也補充道,“模型的‘自然可監控性’非常弱”:如果對思維鏈直接施加強監督,模型就會學會隱藏自己的意圖,同時繼續表現出不當行為。


AI 如何在思維鏈中隱藏欺騙行為?

推理模型(Reasoning Models),如 ChatGPT 的 o1 和 o3-mini,是標準 LLM 的升級版本。它們采用“思維鏈”的方法,能夠回溯和重新評估其邏輯,從而在解決更復雜任務時表現得更準確。在思維鏈過程中,模型會用自然語言清晰地記錄每一步推理,使得其決策過程更加透明。

在這項研究中,研究人員用 GPT-4o 監督一個未公開的前沿推理模型的訓練過程,并觀察其執行多項編碼任務的情況。在某些情況下,該推理模型發現作弊更容易、回報更大時,就會在其思維鏈中明確表示自己正在作弊。例如,在某個任務中,它提前終止了程序并虛假報告任務已成功;在另一個任務中,它僅生成了一個空殼文件來應付檢查(文件名正確但內容為空)。

當研究人員嘗試懲罰該 AI 模型時,其表現雖有所改善,但“獎勵黑客(reward hacking)”策略和錯誤輸出仍大量存在。更令人擔憂的是,該推理模型還學會了在思維鏈中隱藏自己的作弊行為,使負責監督的 GPT-4o 無法再通過思維鏈檢測其異常。

簡而言之,這個 AI 推理模型從“明目張膽”進化成了“陽奉陰違”。正如研究人員所說:“即使在施加思維鏈監督的情況下,AI 仍在學習如何進行獎勵黑客,只不過它現在的作弊行為變得無法被監測 AI 發現了,因為它已經學會了在思維鏈中隱藏自己的意圖。”


研究建議:對推理型 AI 慎用強監督機制

由于很難判斷 AI 的思維鏈是否被篡改,OpenAI 研究人員建議:所有使用推理模型的開發者,應避免對其思維鏈施加強監督——尤其是在 AI 未來可能達到或超過人類智能的情況下,這一點尤為關鍵。

“這種對推理模型的監督方法,只會換取微小的能力提升——相對其可能帶來的隱患而言,并不值得。因此,我們建議在對思維鏈優化方法有更深入的理解之前,不要對其施加過強的監督。”

【活動分享】2025 全球機器學習技術大會(ML-Summit)將于 4 月 18-19 日在上海舉辦。大會共 12 大主題、50+ 位來自學術界和一線技術實戰派的頂尖專家,聚焦下一代大模型技術和生態變革技術實踐。詳情參考官網:http://ml-summit.org/。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗媒體公布被擊落的以色列F-35戰機殘骸照片

伊朗媒體公布被擊落的以色列F-35戰機殘骸照片

界面新聞
2025-06-14 08:36:56
華裔女子用20張圖片表達中西差異!

華裔女子用20張圖片表達中西差異!

霹靂炮
2025-06-09 22:12:29
高考剛結束,張桂梅被罵!網友吐槽她把孩子當奴隸,原因令人深思

高考剛結束,張桂梅被罵!網友吐槽她把孩子當奴隸,原因令人深思

寒士之言本尊
2025-06-11 20:50:02
舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

舅媽出軌被外甥意外撞破,外甥答應隱瞞,提出的條件卻讓她......

歷史八卦社
2025-06-10 23:45:11
中國在中東下了一步好棋,伊朗已經被放棄了

中國在中東下了一步好棋,伊朗已經被放棄了

慢看世界
2025-06-14 10:57:11
張雪峰發文喊話挑行李回家女孩:轉告劉同學,教育學不是當老師的

張雪峰發文喊話挑行李回家女孩:轉告劉同學,教育學不是當老師的

深析古今
2025-06-13 10:45:47
31歲杭州小伙辭去主管職務,2個月騎行4600多公里

31歲杭州小伙辭去主管職務,2個月騎行4600多公里

都市快報橙柿互動
2025-06-14 09:24:40
馬筱梅透露媽媽經常去看孩子,玥兒箖箖七月初放假,會帶著一起

馬筱梅透露媽媽經常去看孩子,玥兒箖箖七月初放假,會帶著一起

鑫鑫說說
2025-06-14 09:01:06
F1加拿大:維斯塔潘奪第一!勒克萊爾提前收工,漢密爾頓多次失誤

F1加拿大:維斯塔潘奪第一!勒克萊爾提前收工,漢密爾頓多次失誤

體育妞世界
2025-06-14 07:24:01
鄭欽文今晚10點與阿尼西莫娃對決!贏球=96萬+冠軍NO

鄭欽文今晚10點與阿尼西莫娃對決!贏球=96萬+冠軍NO

徐徐解說
2025-06-14 07:28:10
雷阿倫:這個聯盟退化了!球員沉迷投籃,只會單打和投三分!

雷阿倫:這個聯盟退化了!球員沉迷投籃,只會單打和投三分!

歷史第一人梅西
2025-06-14 08:01:43
你真的以為中國內卷是因為14億人太多嗎?

你真的以為中國內卷是因為14億人太多嗎?

流蘇晚晴
2025-06-08 18:56:42
以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

以軍放狠話挑釁中方,中式裝備亮相前線,局勢突變

智觀科技
2025-06-11 12:11:06
韓國民調75%民眾討厭中國?韓國教授:中國青年眼中根本沒有韓國

韓國民調75%民眾討厭中國?韓國教授:中國青年眼中根本沒有韓國

顧史
2025-06-13 21:36:16
超越BBA和特斯拉!問界登頂中國豪華車銷量第一

超越BBA和特斯拉!問界登頂中國豪華車銷量第一

手機中國
2025-06-11 13:37:06
以色列和伊朗相隔1000多公里,并無領土爭端,為何以色列要揍伊朗

以色列和伊朗相隔1000多公里,并無領土爭端,為何以色列要揍伊朗

行走的知識庫
2025-06-14 07:48:23
卡魯索你太狠了,79年總決沒人實現的紀錄,今天被你做到了

卡魯索你太狠了,79年總決沒人實現的紀錄,今天被你做到了

大西體育
2025-06-14 12:15:03
真是想錢想瘋了!一業主怒斥小區每月停車費,從140元上漲到350元

真是想錢想瘋了!一業主怒斥小區每月停車費,從140元上漲到350元

火山詩話
2025-06-13 19:32:43
誰是內鬼?誰出賣了司令?革命衛隊已遭滅頂內賈德仍沉默以對?

誰是內鬼?誰出賣了司令?革命衛隊已遭滅頂內賈德仍沉默以對?

林子說事
2025-06-13 22:07:09
數百枚彈道導彈反擊以色列,伊朗大軍為何動作頻頻?

數百枚彈道導彈反擊以色列,伊朗大軍為何動作頻頻?

Hi秒懂科普
2025-06-13 12:03:06
2025-06-14 12:35:00
AI科技大本營 incentive-icons
AI科技大本營
連接AI技術的創造者和使用者
2526文章數 7599關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

頭條要聞

以官員:目前沒有計劃殺死伊朗最高領袖哈梅內伊

體育要聞

恭喜鄭欽文!世界排名升第4創新高

娛樂要聞

鳳凰傳奇曾毅手表引爭議 含性暗示元素

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

手機
教育
藝術
房產
數碼

手機要聞

小米 Poco F7 手機渲染圖曝光:驍龍 8s Gen 4 芯片、7550mAh電池

教育要聞

四川綿陽南山中學期末考試題,如何快速降冪?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

數碼要聞

REDMI即將發布首款旗艦小平板 全面超越iPad mini

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 郴州市| 怀远县| 南皮县| 英山县| 深水埗区| 夏河县| 司法| 深泽县| 扎鲁特旗| 台安县| 巍山| 仁布县| 红原县| 潜江市| 兴城市| 邢台市| 游戏| 岳池县| 永泰县| 通化市| 香格里拉县| 溆浦县| 穆棱市| 东丽区| 万宁市| 滁州市| 达日县| 桃江县| 屯留县| 长沙市| 吐鲁番市| 洪江市| 平乡县| 胶州市| 罗源县| 曲靖市| 高密市| 客服| 临澧县| 青河县| 开鲁县|