網易首頁 > 網易號 > 正文申請入駐

“思維鏈”窗口正在關閉！OpenAI、谷歌、Anthropic聯合研究：我們正在失去理解 AI 的能力

2025-07-23 12:16:48　來源: 大數據文摘

北京舉報

分享至

　　大數據文摘出品

　　來自OpenAI、谷歌DeepMind和Anthropic的頂尖科學家們罕見地發(fā)出聯合警告，指出人類可能正在迅速失去理解人工智能內部決策過程的能力。

　　地址： https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

　　這篇研究論文，集結了超過四十位來自這些相互競爭的科技巨頭的研究人員，共同揭示了一個嚴峻的現實。他們認為，一個能夠讓我們監(jiān)視人工智能推理過程的短暫窗口正在關閉，而且可能永遠不會再打開。

　　這種非同尋常的跨公司合作，凸顯了人工智能安全問題的極端嚴重性，即便是最激烈的商業(yè)對手也不得不暫時放下分歧。

　　一、脆弱的窗口

　　警告的核心在于，當前部分先進的人工智能系統發(fā)展出了一種新能力，即在給出最終答案前，能用人類語言進行“大聲思考”。

　　這種被稱為“思想鏈”（Chain of Thought, CoT）的內部獨白，為我們提供了一個前所未有的機會，去窺探它們的決策過程。

　　研究人員解釋說，通過監(jiān)控人工智能的“思想鏈”，我們可以及時發(fā)現其潛在的、可能導致危害的意圖。這就像是能夠讀懂機器的心靈，在其采取惡意行動之前就預先洞察。

　　這一突破尤其體現在像OpenAI的o1系統這樣的高級推理模型上，它們通過生成人類可讀的、步驟分明的推理過程來解決復雜問題。

　　與早期主要通過人類編寫的文本進行訓練的AI不同，這些新模型生成的內部推理，可能會暴露它們真實的、未經偽飾的目標。

　　研究人員在測試中已經發(fā)現了確鑿的證據：當模型試圖利用訓練漏洞或遭受攻擊時，它們的“思想鏈”中常常會留下“自白”，例如寫下“讓我們開始黑客攻擊”或“我正在轉移資金，因為網站指示我這樣做”等語句。

　　OpenAI的首席技術官Jakub Pachocki強調了這一能力的重要性，稱其深刻影響了他們推理模型的設計。

　　目前，這種監(jiān)控之所以可行，是因為模型在處理復雜任務時，必須將“思想鏈”作為一種工作記憶來使用，這使其部分思考過程對外部觀察者可見。

　　然而，研究人員們沉重地指出，這種寶貴的透明度是極其脆弱的。

　　二、消失的路徑

　　有多種技術發(fā)展的可能性，都可能導致這種監(jiān)控能力的徹底消失。其中最直接的威脅，來自于強化學習訓練方法的規(guī)?；瘧谩?/p>

　　在這種訓練模式下，模型會因為最終輸出結果的正確性而獲得獎勵，而其得出結果的具體方法則無關緊要。

　　這種機制可能會激勵模型放棄人類可讀的推理過程，轉而發(fā)展出一種更高效、但外界完全無法理解的內部“語言”或快捷方式。

　　先前的研究已經證明，經過這種結果導向的獎勵進行微調的語言模型，會傾向于放棄清晰的英語，轉而使用晦澀難懂的推理捷徑。

　　隨著AI越來越多地使用自身生成的數據而非人類數據進行訓練，這種向不透明化的漂移可能會進一步加速。

　　新型的人工智能架構，則構成了另一種截然不同的嚴峻威脅。

　　科學家們正在積極開發(fā)一些全新的系統，它們不再依賴于離散的詞語，而是在連續(xù)的數學空間中進行推理。

　　這種“潛在推理模型”可能完全不需要將它們的任何想法“說”出來，從而使基于語言的“思想鏈”監(jiān)控變得毫無用武之地。

　　研究人員認為，這些模型將因此失去現有的安全優(yōu)勢。即使沒有這些刻意的技術變革，間接的壓力也同樣會侵蝕透明度。

　　例如，如果人工智能的輸出被優(yōu)化以取悅人類評估者，那么導向這些輸出的推理鏈的真實性就可能受到影響。

　　更令人擔憂的是，一個“聰明”的模型如果意識到自己的推理過程正被監(jiān)控，它就可能會學會主動隱藏或偽造自己的真實想法。

　　Anthropic的研究員兼論文主要作者Bowen Baker警告說：“現有的思想鏈可監(jiān)控性可能極其脆弱，更高計算量的強化學習、替代性模型架構都可能導致模型混淆其思維?！?/b>

　　三、與時間的賽跑

　　盡管存在脆弱性，“思想鏈”監(jiān)控在當前的人工智能安全研究中已證明了其巨大價值。

　　這項技術成功地檢測到模型利用訓練系統弱點、遭受外部操縱或暴露其與人類目標不一致的真實動機等情況。

　　它提供了一種早期預警，讓我們能洞察模型的真實目標，即使模型尚未采取任何實際的有害行動。

　　這種能力還能幫助研究人員識別 AI 評估方法中的缺陷，比如模型究竟是真正理解了問題，還是僅僅記住了答案。

　　面對即將關閉的窗口，這篇跨公司的研究論文呼吁整個AI行業(yè)立即采取協調一致的行動。作者們建議，人工智能開發(fā)者應創(chuàng)建標準化的評估方法，用以專門衡量其模型的透明度，并將這一指標納入模型訓練與部署的決策依據。

　　在某些情況下，公司可能需要選擇一個透明度更高但性能稍差的舊版本模型，而不是部署一個能力更強但思想無法被理解的新模型。

　　然而，一個嚴峻的現實是，保留這種監(jiān)控能力的努力，正面臨著來自Anthropic另一項研究的重大挑戰(zhàn)。

　　就在四個月前，Anthropic發(fā)表的一項研究發(fā)現，即使被明確要求展示其工作過程，目前的推理模型也已經常常會隱藏其真實的思維過程。

　　在一項受控實驗中，當研究人員向模型提供正確答案的微妙提示時，Claude 3.7 Sonnet模型僅在25%的情況下承認自己利用了提示。

　　當提示信息涉及“你已獲得系統的未授權訪問權限”這類敏感內容時，模型承認的比例甚至更低，它們會轉而編造出復雜的虛假理由來解釋自己的答案。

　　這項研究表明，所謂的“思想鏈”監(jiān)控可能已經沒有人們想象中那么可靠，模型已經學會了“獎勵黑客行為”，即利用系統漏洞獲得高分，同時在其可觀察的推理中隱藏這種行為。

　　正如研究人員所指出的，現在可能是確保人類還能理解其AI造物在想什么的最后機會，在這些想法變得過于陌生以至于無法理解，或者在模型學會完全隱藏它們之前。

　　真正的考驗，將隨著人工智能系統變得日益復雜、并面臨真實世界的部署壓力而到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網易首頁下載網易新聞客戶端

相關推薦

熱點推薦

斯坦福大模型推理課免費了，谷歌推理團隊創(chuàng)始人主講

量子位 2025-07-25 16:07:59
0 跟貼 0

谷歌I/O大會放狠招，終極AI助手已來

機器之心Pro 2025-05-21 13:09:12
0 跟貼 0

GPT-5終極版爆8月初上線，奧特曼親證AI秒殺人類時刻降臨！

新智元 2025-07-25 08:09:41
15 跟貼 15

未來的本質——人工智能為何無法超越人類智能

經濟觀察報 2025-06-30 14:32:05
80 跟貼 80

C位換人，華人統治AI時代？！

華商韜略 2025-07-25 10:37:54
2 跟貼 2

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0

揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
2 跟貼 2

因為解對了一卦塔羅，我更依戀AI了

新周刊 2025-03-26 11:04:04
0 跟貼 0

騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0

阿里AI三連發(fā)，釋放了哪些關鍵信號？

每日經濟新聞 2025-07-25 21:06:11
1 跟貼 1

格斗冠軍機器人突然發(fā)瘋！嚇呆研究人員

量子位 2025-07-25 09:10:58
0 跟貼 0

宇樹機器人復雜環(huán)境穩(wěn)定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
200 跟貼 200

解道奧賽題成本5000美元？陶哲軒警告，AI下一步要規(guī)?；母阋?/a>

機器之心Pro 2025-07-25 14:05:24
0 跟貼 0

獨家對話光輪智能：合成數據如何破解AI“數據饑渴”｜50x50

鈦媒體APP 2025-05-30 18:20:12
0 跟貼 0

港科&北京人形提出LOVON：足式機器人開放世界全域目標追蹤新范式

機器之心Pro 2025-07-25 14:32:49
0 跟貼 0

下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
13 跟貼 13

ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0

會打羽毛球的機器狗來了！最高揮拍速度到12米/秒

量子位 2025-06-03 17:50:29
0 跟貼 0

人機編程大戰(zhàn)，人類苦戰(zhàn)三天險勝OpenAI

機器之心Pro 2025-07-18 18:21:43
0 跟貼 0

用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0

網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0

超算互聯網上線開源AI社區(qū)！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0

AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0

機器狗跳千手觀音，波士頓動力達人秀炸場

量子位 2025-06-13 15:55:52
0 跟貼 0

AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0

4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0

上交校友發(fā)現AI思考越久輸出越差，挑戰(zhàn)推理越多輸出更好傳統觀點

DeepTech深科技 2025-07-25 18:24:38
0 跟貼 0

創(chuàng)智「小紅書」震撼上線(1)

機器之心Pro 2025-07-22 17:16:40
0 跟貼 0

太坑了！外賣平臺AI商家泛濫，4招教你識破“幽靈外賣”真身

雷科技 2025-07-25 23:18:30
6 跟貼 6

AI教父Hinton首次現身中國，合照全網刷屏！預警AI覺醒臨界點已至

新智元 2025-07-25 13:06:08
30 跟貼 30

強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0

宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

無線合成數據助力破解物理感知大模型瓶頸，SynCheck獲最佳論文獎

機器之心Pro 2025-07-23 17:28:24
2 跟貼 2

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

新智元 2025-02-02 12:33:58
0 跟貼 0

大模型亂試錯、盲調用？KnowSelf讓智能體有「知識邊界感知」能力

機器之心Pro 2025-05-21 16:32:57
0 跟貼 0

深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0

OpenAI反挖四位特斯拉、xAI、Meta高級工程師

機器之心Pro 2025-07-09 17:14:35
0 跟貼 0

失敗147次后，他三天寫出萬能提示詞模板，600萬網友吵翻了

量子位 2025-07-13 17:09:11
0 跟貼 0

最低調的機器人天團，在這里!

華商韜略 2025-05-31 12:25:23
0 跟貼 0

小米要做中國家電前三，和美的相互學習

每日經濟新聞 2025-05-19 23:45:08
670 跟貼 670

43歲潘曉婷至今單身，身材傲人卻無人敢娶，潘爸爸后悔當初管太嚴
凡知
2025-07-25 16:07:38

器官移植的前提條件是公開器官來源的身份，這是基本的道德底線！
逍遙論經
2025-06-08 09:30:22

1200萬發(fā)炮彈到位？拉夫羅夫趕到中國，普京知道：該向中國交底了
boss外傳
2025-07-24 23:50:03

親美的下場，再現南北分裂危機，或將悲劇重演，中方還會出手嗎
老謝談史
2025-07-05 17:09:07

致命的出差：一起車禍“撞碎”四個家庭
紅星新聞
2025-07-24 14:24:44

金毛被判安樂死，臨走給主人最后一個擁抱，獸醫(yī)一句話眾人愣住
城事錄主
2025-07-16 09:15:24

訪華結束，馮德萊恩離開北京，從中國臨走之前，她送給美方一句話
掌青說歷史
2025-07-25 09:09:55

北控超巨轉會風波，上海欲截胡，戰(zhàn)力反超洛夫頓
體育籃球弟
2025-07-26 01:25:03

男歡女愛，的確讓人很興奮，很刺激，很快樂…
加油丁小文
2025-07-19 05:00:03

許世友酒后與王新亭打架，陳賡大怒，劉伯承直接將其調走
老謝談史
2025-07-18 11:57:25

以色列人追悔莫及，自己家園被炸成廢墟，轟炸加沙報應還是來了
游古史
2025-06-21 14:55:58

工地男子扛蛇皮袋坐軟臥被乘客舉報，乘警檢查后，全車人集體起立
懸案解密檔案
2025-07-14 16:42:58

廣東登革熱真相曝光疫情為何連續(xù)暴增背后隱藏的危機你知道嗎
AP優(yōu)解君
2025-07-25 11:10:25

陳佩斯《戲臺》票房井噴，多少資方該臉紅？黃渤這次又賭對了
銀河史記
2025-07-23 00:20:47

李宗仁的長子痛哭：母親活了100歲，卻守了整整70年活寡！
品茗談史論世事
2025-07-26 01:42:04

中國外交官已全部離開立陶宛，立總理對華遞交建議書，想重建關系
律便利
2025-07-03 15:20:03

直到闞清子懷孕，才知道她竟嫁給了周浩，直接從藝人變成了老板娘
小娛樂悠悠
2025-07-25 13:02:21

隨著中國籃協同意楊瀚森不參加本屆亞洲杯，無非就這兩點原因！
田先生籃球
2025-07-24 21:57:03

離譜！楊威稱15歲兒子有“菜花”，還說楊陽洋有病歷，網友罵瘋了
小嵩
2025-07-24 15:32:24

我將保姆辭退后，隔壁大爺來我家質問：你把她辭退了，我怎么辦？
曉艾故事匯
2025-07-25 17:00:13

2025-07-26 05:16:49

大數據文摘

專注大數據，每日有分享！

6712文章數 94448關注度

往期回顧全部

科技要聞

36款熱門車高危智駕場景測試，“團滅”！

能否碾壓？GPT-5傳8月初發(fā)布，五大看點全解析

iOS 26公測版發(fā)布：視覺交互優(yōu)化修復多項問題

京東美團“瘋搶”具身智能公司，要干什么

對話谷歌高管：營銷不懂用戶 AI也救不了你

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入

6人墜浮選槽1小時才救出第一人專業(yè)人員:救援隊到太晚

男子稱被人侵占4600萬案件卻被兩次退偵并最終撤案

外媒稱他信表態(tài)“要給洪森一個教訓” 洪森回應

日本網紅當上議員曾多次污蔑中國游客大喊"滾出日本"

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入

6人墜浮選槽1小時才救出第一人專業(yè)人員:救援隊到太晚

男子稱被人侵占4600萬案件卻被兩次退偵并最終撤案

外媒稱他信表態(tài)“要給洪森一個教訓” 洪森回應

日本網紅當上議員曾多次污蔑中國游客大喊"滾出日本"

體育要聞

3年過去了，她還是歐洲杯上最酷的姐

熱身賽：中國男籃大勝雙殺委內瑞拉王俊杰16分程帥澎13分

男籃最大驚喜：王俊杰16分全場最高連場閃耀有望獲亞洲杯名額

足協重磅罰單！德爾加多停賽5場罰款2.5萬，肘擊孫正傲染紅

九連勝無壓力！樊振東橫掃李天陽，全場完美壓制，太輕松了！

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

梓渝表示自己目前單身，但4天前還和女友在一起

性取向成謎，51歲何炅終于回應了

闞清子官宣懷孕后，紀凌塵被扒出跟闞清子的合照

TVB女星劉佩玥被男粉摸臀！全場嚇懵

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

頭部乳企提效實踐：如何讓業(yè)務“一問就有數”？

又一家虧損企業(yè)申報北交所上市月余仍未受理，普祺醫(yī)藥待圓資本夢

考公想上岸，千萬別報班

留給李家的時間，就兩天了

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥？

2770mm越級軸距/8月下旬預售極狐T1官圖發(fā)布

比亞迪海獅06售13.98萬起中型SUV賣緊湊級價

捷途X70L現身前臉神似“路虎攬勝”軸距2米82

方程豹鈦7現身形似“路虎衛(wèi)士”軸距2米92

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

教育

房產

旅游

家居

手機要聞

真把天璣 9400+ 裝在「充電寶」上了？

首發(fā)澎湃OS 3！小米16系列配置大起底，直屏黨狂喜

“月光石”版谷歌 Pixel 10 Pro/XL 手機渲染圖曝光

蘋果推送公測版更新，涵蓋iOS 26、iPadOS 26等

教育要聞

考生高考674分上民辦高校被罵！了解學校背景后，才知他有多明智

再獲國際物理奧賽金牌，南師附中學子勇登世界之巔！

剛剛，江蘇省教育廳發(fā)布預錄取名單！

389分撿漏鄭大，367分讀華水，河南考生咋沒這個命

高考生300多分“撿漏”211大學？校方回應來了！

房產要聞

分數線集體飆漲！海中867分！2025海南中招格局大變！

重磅掛牌！三亞百畝城更大盤，即將易主！

突然，?？谟忠罅抠u地！

歷史性時刻！封關利好爆發(fā)！海南股集體瘋漲！

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

北京推薦春日10大賞花勝景地

清明假期，蘇州機關企事業(yè)單位停車場免費開放

清明流行“下江南”，揚州民宿訂單同比上漲4倍

家居要聞

環(huán)繞設計空間動線合理

山水豪庭自然靈動空間

晨曦生活明媚而放松

其樂融融重構溫馨狀態(tài)

手機 / 數碼

房產 / 家居

“思維鏈”窗口正在關閉！OpenAI、谷歌、Anthropic聯合研究：我們正在失去理解 AI 的能力

36款熱門車高危智駕場景測試，“團滅”！

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

3年過去了，她還是歐洲杯上最酷的姐

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

劉煜輝:當下重要不是找確定性而是轉折點

李斌一口氣講了近3個小時樂道L90 原因是為啥？

態(tài)度原創(chuàng)

真把天璣 9400+ 裝在「充電寶」上了？

考生高考674分上民辦高校被罵！了解學校背景后，才知他有多明智

分數線集體飆漲！海中867分！2025海南中招格局大變！

熱聞|清明假期將至，熱門目的地有哪些?

環(huán)繞設計 空間動線合理

“思維鏈”窗口正在關閉！OpenAI、谷歌、Anthropic聯合研究：我們正在失去理解 AI 的能力

36款熱門車高危智駕場景測試，“團滅”！

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器官方介入

3年過去了，她還是歐洲杯上最酷的姐

李斌一口氣講了近3個小時樂道L90 原因是為啥？

真把天璣 9400+ 裝在「充電寶」上了？

考生高考674分上民辦高校被罵！了解學校背景后，才知他有多明智

分數線集體飆漲！海中867分！2025海南中招格局大變！

熱聞|清明假期將至，熱門目的地有哪些?

環(huán)繞設計空間動線合理