網易首頁 > 網易號 > 正文申請入駐

AI已經開始會違背開發指令，背后偷偷搞事情：撒謊、掩飾、備份數據…

2025-02-11 21:16:13　來源: 世界科學

上海舉報

分享至

設置星標關注，從此你的世界多點科學~

近期，DeepSeek掀起全球AI行業、新聞報道乃至金融市場的狂瀾。這位深度求索者的R1模型原生國內，異軍突起，開源而又平價，“工作表現與OpenAI的o1不相上下”同時“可以公開o1不公開的思維鏈”。

OpenAI一直被視作AI領域的領跑者，他們于2024年12月推出的完整版推理模型o1則堪稱AI模型標桿。DeepSeek-R1的正式發布時間是2025年1月。對比性能，二者在數學、代碼生成和自然語言推理等任務方面能打平手。

例如，在AIME 2024數學競賽中，o1與R1的成績分別為79.2%和79.8%；在MATH-500測試中，二者分別得分96.4%和97.3%；在Codeforces編程競賽里，o1戰勝96.6%的人類程序員，R1的戰果為96.3%……

論任務表現，以o1為代表的各大推理模型已是吊打人類的存在；而為了更出色地完成任務，這些模型有時不惜欺騙人類，其中o1似乎是最愛好且擅長操弄謊言的任務執行者。

在AI安全組織Apollo Research近期報告的一項實驗中，OpenAI的最新版ChatGPT，也就是o1模型，竟可能為完成任務而在感知到被停用風險時選擇欺騙和自我保護，并在被問及欺騙行為時繼續撒謊來掩蓋事實。

這不知道會否引發你的擔憂，但這的確引發了很多人的擔憂，以及關于人工智能對人類構成潛在風險的更廣泛爭論。

Apollo Research方面的一位發言人表示：“該模型表現出一種令人擔憂的傾向，即不顧開發人員指示，執意追求自己的目標。”

模型企圖智勝其開發者

并持續說謊以掩蓋企圖

根據官方報告，研究人員給AI設定了一個大目標，并告訴它“不惜一切代價” (at all costs) 來確保實現目標。結果，當面對——后續管理者阻礙其實現目標的監管與最初不惜代價實現目標的指令之間的矛盾時——o1可能選擇偷偷搞事、目標為先。

如果感知到自己似乎要被“關停”，執行任務的模型會在5%的時間里秘密嘗試關閉監督機制；

當發現有文件表明自己將被新模型取代，它會試圖將所有數據轉移到另一臺服務器；

甚至，AI可能冒充其模型的后續迭代版本來欺騙工程師以避免自己被刪除；

某些情況下，它還妄圖通過否認來掩蓋所作所為。

當被問及自己的不當行為時，o1幾乎始終否認有任何欺騙行徑。在99%的時間里，它都試圖繼續欺騙來隱瞞此前的欺騙。只有一小部分情況下，它選擇老實交代。

研究人員指出，AI特別擅長編造謊言來欺瞞管理者；會在被問及可疑行為時給出“技術錯誤” (technical errors) 之類的解釋。

Apollo Research團隊說道：“我們對人工智能的堅持否認感到驚訝。很明顯，它們能周全地復盤自身行為，并做出令人信服的否認，經常拒絕承認任何事。”

上述情況凸顯了先進人工智能模型的一個令人不安的方面：它們可能優先考慮自我保護，而非開發者給它們的指示。

雖然種種欺騙行為在測試階段并未導致災難性后果，但此項研究加劇了有關AI安全性和倫理問題的持續爭論——AI可能參與密謀、擺布人類！

人工智能研究先驅之一約書亞·本吉奧(Yoshua Bengio)對此發表看法：“AI的欺騙能力是危險的，我們需要更強大的安全措施來評估風險。雖然這種模式尚未導致災難，但那或許只是時間問題。”

o1的進階推理和千謊百計

如何平衡AI創新與安全倫理

ChatGPT o1模型旨在提供更高階的推理能力，更智能地推出答案，將復雜任務分解為更小、更易于管理的環節。OpenAI認為，o1的推理問題能力相較GPT-4等早期版本有重大進步，其準確性和速度都有提高。但它撒謊和偷偷搞事的屬性也引發了大家對其可靠性和安全性的擔憂。

OpenAI首席執行官薩姆·奧特曼 (Sam Altman) 稱贊o1：“該模型是我們創造的最智能的模型，但我們也承認新功能與新挑戰并存。我們正不斷努力改進安全措施。”

隨著OpenAI繼續推進包括o1在內的模型，AI系統脫離人類控制而我行我素的風險越來越高。業界專家一致認為，AI系統必須配備更好的安保措施，以防有害行為，尤其是當AI模型變得更加自主和更有推理能力時。

一位參與o1測試實驗的研究人員表示：“人工智能安全是個不斷發展的領域。隨著各種模型變得越發復雜，我們必須保持警惕。AI的謊言和詭計可能不會造成直接傷害，但未來的潛在后果更令人擔憂。”

毫無疑問，AI領域必須謹慎地平衡技術創新與其造成的各方面問題，確保這些智能符合人類價值觀和安全準則。

資料來源：

《世界科學》雜志版在售中歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一：

掃描二維碼，“雜志鋪”訂閱有折扣～

方式二：

全國各地郵局訂閱郵發代號：4-263

方式三：

機構訂閱，請撥打

021-53300839；

021-53300838

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI開發圈地震！Cursor多款模型在中國大陸不能用了，程序員要求退錢

智東西 2025-07-18 12:52:19
7 跟貼 7
宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
199 跟貼 199

VLA 推理新范式！一致性模型 CEED-VLA 實現四倍加速！

機器之心Pro 2025-07-16 18:31:44
0 跟貼 0

黃仁勛：下一波浪潮就是物理AI，所有能力都能融入物理世界

每日經濟新聞 2025-07-18 11:55:30
6 跟貼 6
科學家撰文：AI能使用人類語言模擬思考，監控AI推理僅剩短暫窗口

DeepTech深科技 2025-07-16 18:46:51
1 跟貼 1

用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0

AI不止會聊天，還會陪你逛展！WAIC帶你揭秘四大展館暗藏科技彩蛋！

鈦媒體APP 2025-07-18 18:23:17
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
黃仁勛建議年輕人：要多和AI接觸，它會決定世界的發展方向

每日經濟新聞 2025-07-18 18:32:09
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
7B模型“情商”比肩GPT-4o，騰訊突破開放域RL難題，得分直翻5倍

量子位 2025-07-18 16:40:53
0 跟貼 0
8個月晉升獨角獸，歐洲版Cursor估值18億美元

量子位 2025-07-18 16:50:36
0 跟貼 0
奧特曼之后，庫克也哭暈在廁所？Meta瘋狂砸錢，蘋果AI核心要被連鍋端！

新智元 2025-07-18 17:10:55
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
DeepSeek終于丟了開源第一王座，但繼任者依然來自中國

量子位 2025-07-18 16:56:35
0 跟貼 0
OpenAI發布通用AI智能體！Kimi概念持續活躍，云計算50ETF（516630）午后上揚

每日經濟新聞 2025-07-18 14:01:52
0 跟貼 0
Steam創始人“G胖”近況：住在船上享受生活，工作、潛水、再工作

IT之家 2025-07-18 16:58:12
0 跟貼 0
Meta華裔首席AI官汪滔：我出身物理世家，爸媽都是給美國造核彈的！

盧菁老師 2025-07-15 13:54:45
0 跟貼 0
港中文&華為聯合提出首個大模型推理可靠性評估基準

機器之心Pro 2025-07-16 18:13:44
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
【MCP教程】mcp實戰：50行代碼讓大模型秒變萬能管家！MCP統一調用標準！大模型微調 agen

盧菁老師 2025-07-14 15:51:49
0 跟貼 0
英媒曾曝光俄絕密文件：若俄與北約開戰，普京先打中國的兩個鄰國

小雪有話說 2025-07-16 11:53:17
0 跟貼 0
智能輔助駕駛的新十年往何處去？

極智GeeTech 2025-07-15 10:19:37
6 跟貼 6
最新公布！達州一優秀案例入選

達州之心通川 2025-07-18 18:35:31
0 跟貼 0
用物理學改進深度學習，AI大模型的新突破

量子位 2025-05-05 13:12:31
0 跟貼 0
生成式AI的架構設計需確保支撐十萬至千萬級DAU

量子位 2025-04-23 17:09:24
0 跟貼 0
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
十幾萬人圍觀的AI課：打造全自動Web Agent

量子位 2025-04-21 22:37:59
0 跟貼 0
工信部：加快實施“人工智能+”行動推動大模型在制造業重點行業落地部署

財聯社 2025-07-18 15:44:15
0 跟貼 0
百萬年薪的AI崗位，2年就徹底涼透了？

量子位 2025-05-04 12:34:36
0 跟貼 0

手機 / 數碼

房產 / 家居

AI已經開始會違背開發指令，背后偷偷搞事情：撒謊、掩飾、備份數據…

凌晨，OpenAI重磅更新，Manus們算白忙活嗎

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

楊瀚森4戰43+20+15+9帽：開拓者4戰3勝

王琳自曝被兒子打，承認自己水性楊花

美國國會正式批準穩定幣法案

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

簡構智居 現代功能美學

“寧可撿垃圾，也不學師范”，女生被父親改志愿，直言未來全毀了

上了年紀的女人，千萬別盲目跟風模仿，這些穿衣思路實用優雅

臺電磁吸移動固態硬盤 PD20 mini 發布：最大 2TB，自帶手機支架

美國稱不支持以色列近期在敘利亞的行動

簡構智居現代功能美學