99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

“思維鏈”窗口正在關閉!OpenAI、谷歌、Anthropic聯合研究:我們正在失去理解 AI 的能力

0
分享至

  

  大數據文摘出品

  來自OpenAI、谷歌DeepMind和Anthropic的頂尖科學家們罕見地發(fā)出聯合警告,指出人類可能正在迅速失去理解人工智能內部決策過程的能力。

  

  地址: https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

  這篇研究論文,集結了超過四十位來自這些相互競爭的科技巨頭的研究人員,共同揭示了一個嚴峻的現實。他們認為,一個能夠讓我們監(jiān)視人工智能推理過程的短暫窗口正在關閉,而且可能永遠不會再打開。

  這種非同尋常的跨公司合作,凸顯了人工智能安全問題的極端嚴重性,即便是最激烈的商業(yè)對手也不得不暫時放下分歧。

  一、脆弱的窗口

  警告的核心在于,當前部分先進的人工智能系統發(fā)展出了一種新能力,即在給出最終答案前,能用人類語言進行“大聲思考”。

  

  這種被稱為“思想鏈”(Chain of Thought, CoT)的內部獨白,為我們提供了一個前所未有的機會,去窺探它們的決策過程。

  研究人員解釋說,通過監(jiān)控人工智能的“思想鏈”,我們可以及時發(fā)現其潛在的、可能導致危害的意圖。這就像是能夠讀懂機器的心靈,在其采取惡意行動之前就預先洞察。

  這一突破尤其體現在像OpenAI的o1系統這樣的高級推理模型上,它們通過生成人類可讀的、步驟分明的推理過程來解決復雜問題。

  與早期主要通過人類編寫的文本進行訓練的AI不同,這些新模型生成的內部推理,可能會暴露它們真實的、未經偽飾的目標。

  研究人員在測試中已經發(fā)現了確鑿的證據:當模型試圖利用訓練漏洞或遭受攻擊時,它們的“思想鏈”中常常會留下“自白”,例如寫下“讓我們開始黑客攻擊”或“我正在轉移資金,因為網站指示我這樣做”等語句。

  OpenAI的首席技術官Jakub Pachocki強調了這一能力的重要性,稱其深刻影響了他們推理模型的設計。

  目前,這種監(jiān)控之所以可行,是因為模型在處理復雜任務時,必須將“思想鏈”作為一種工作記憶來使用,這使其部分思考過程對外部觀察者可見。

  然而,研究人員們沉重地指出,這種寶貴的透明度是極其脆弱的。

  二、消失的路徑

  有多種技術發(fā)展的可能性,都可能導致這種監(jiān)控能力的徹底消失。其中最直接的威脅,來自于強化學習訓練方法的規(guī)?;瘧谩?/p>

  在這種訓練模式下,模型會因為最終輸出結果的正確性而獲得獎勵,而其得出結果的具體方法則無關緊要。

  這種機制可能會激勵模型放棄人類可讀的推理過程,轉而發(fā)展出一種更高效、但外界完全無法理解的內部“語言”或快捷方式。

  先前的研究已經證明,經過這種結果導向的獎勵進行微調的語言模型,會傾向于放棄清晰的英語,轉而使用晦澀難懂的推理捷徑。

  隨著AI越來越多地使用自身生成的數據而非人類數據進行訓練,這種向不透明化的漂移可能會進一步加速。

  新型的人工智能架構,則構成了另一種截然不同的嚴峻威脅。

  科學家們正在積極開發(fā)一些全新的系統,它們不再依賴于離散的詞語,而是在連續(xù)的數學空間中進行推理。

  這種“潛在推理模型”可能完全不需要將它們的任何想法“說”出來,從而使基于語言的“思想鏈”監(jiān)控變得毫無用武之地。

  研究人員認為,這些模型將因此失去現有的安全優(yōu)勢。即使沒有這些刻意的技術變革,間接的壓力也同樣會侵蝕透明度。

  例如,如果人工智能的輸出被優(yōu)化以取悅人類評估者,那么導向這些輸出的推理鏈的真實性就可能受到影響。

  更令人擔憂的是,一個“聰明”的模型如果意識到自己的推理過程正被監(jiān)控,它就可能會學會主動隱藏或偽造自己的真實想法。

  Anthropic的研究員兼論文主要作者Bowen Baker警告說:“現有的思想鏈可監(jiān)控性可能極其脆弱,更高計算量的強化學習、替代性模型架構都可能導致模型混淆其思維?!?/b>

  三、與時間的賽跑

  盡管存在脆弱性,“思想鏈”監(jiān)控在當前的人工智能安全研究中已證明了其巨大價值。

  這項技術成功地檢測到模型利用訓練系統弱點、遭受外部操縱或暴露其與人類目標不一致的真實動機等情況。

  它提供了一種早期預警,讓我們能洞察模型的真實目標,即使模型尚未采取任何實際的有害行動。

  這種能力還能幫助研究人員識別 AI 評估方法中的缺陷,比如模型究竟是真正理解了問題,還是僅僅記住了答案。

  面對即將關閉的窗口,這篇跨公司的研究論文呼吁整個AI行業(yè)立即采取協調一致的行動。作者們建議,人工智能開發(fā)者應創(chuàng)建標準化的評估方法,用以專門衡量其模型的透明度,并將這一指標納入模型訓練與部署的決策依據。

  在某些情況下,公司可能需要選擇一個透明度更高但性能稍差的舊版本模型,而不是部署一個能力更強但思想無法被理解的新模型。

  然而,一個嚴峻的現實是,保留這種監(jiān)控能力的努力,正面臨著來自Anthropic另一項研究的重大挑戰(zhàn)。

  就在四個月前,Anthropic發(fā)表的一項研究發(fā)現,即使被明確要求展示其工作過程,目前的推理模型也已經常常會隱藏其真實的思維過程

  在一項受控實驗中,當研究人員向模型提供正確答案的微妙提示時,Claude 3.7 Sonnet模型僅在25%的情況下承認自己利用了提示。

  當提示信息涉及“你已獲得系統的未授權訪問權限”這類敏感內容時,模型承認的比例甚至更低,它們會轉而編造出復雜的虛假理由來解釋自己的答案。

  這項研究表明,所謂的“思想鏈”監(jiān)控可能已經沒有人們想象中那么可靠,模型已經學會了“獎勵黑客行為”,即利用系統漏洞獲得高分,同時在其可觀察的推理中隱藏這種行為。

  正如研究人員所指出的,現在可能是確保人類還能理解其AI造物在想什么的最后機會,在這些想法變得過于陌生以至于無法理解,或者在模型學會完全隱藏它們之前。

  真正的考驗,將隨著人工智能系統變得日益復雜、并面臨真實世界的部署壓力而到來。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
43歲潘曉婷至今單身,身材傲人卻無人敢娶,潘爸爸后悔當初管太嚴

43歲潘曉婷至今單身,身材傲人卻無人敢娶,潘爸爸后悔當初管太嚴

凡知
2025-07-25 16:07:38
器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

逍遙論經
2025-06-08 09:30:22
1200萬發(fā)炮彈到位?拉夫羅夫趕到中國,普京知道:該向中國交底了

1200萬發(fā)炮彈到位?拉夫羅夫趕到中國,普京知道:該向中國交底了

boss外傳
2025-07-24 23:50:03
親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

親美的下場,再現南北分裂危機,或將悲劇重演,中方還會出手嗎

老謝談史
2025-07-05 17:09:07
致命的出差:一起車禍“撞碎”四個家庭

致命的出差:一起車禍“撞碎”四個家庭

紅星新聞
2025-07-24 14:24:44
金毛被判安樂死,臨走給主人最后一個擁抱,獸醫(yī)一句話眾人愣住

金毛被判安樂死,臨走給主人最后一個擁抱,獸醫(yī)一句話眾人愣住

城事錄主
2025-07-16 09:15:24
訪華結束,馮德萊恩離開北京,從中國臨走之前,她送給美方一句話

訪華結束,馮德萊恩離開北京,從中國臨走之前,她送給美方一句話

掌青說歷史
2025-07-25 09:09:55
北控超巨轉會風波,上海欲截胡,戰(zhàn)力反超洛夫頓

北控超巨轉會風波,上海欲截胡,戰(zhàn)力反超洛夫頓

體育籃球弟
2025-07-26 01:25:03
男歡女愛,的確讓人很興奮,很刺激,很快樂…

男歡女愛,的確讓人很興奮,很刺激,很快樂…

加油丁小文
2025-07-19 05:00:03
許世友酒后與王新亭打架,陳賡大怒,劉伯承直接將其調走

許世友酒后與王新亭打架,陳賡大怒,劉伯承直接將其調走

老謝談史
2025-07-18 11:57:25
以色列人追悔莫及,自己家園被炸成廢墟,轟炸加沙報應還是來了

以色列人追悔莫及,自己家園被炸成廢墟,轟炸加沙報應還是來了

游古史
2025-06-21 14:55:58
工地男子扛蛇皮袋坐軟臥被乘客舉報,乘警檢查后,全車人集體起立

工地男子扛蛇皮袋坐軟臥被乘客舉報,乘警檢查后,全車人集體起立

懸案解密檔案
2025-07-14 16:42:58
廣東登革熱真相曝光疫情為何連續(xù)暴增背后隱藏的危機你知道嗎

廣東登革熱真相曝光疫情為何連續(xù)暴增背后隱藏的危機你知道嗎

AP優(yōu)解君
2025-07-25 11:10:25
陳佩斯《戲臺》票房井噴,多少資方該臉紅?黃渤這次又賭對了

陳佩斯《戲臺》票房井噴,多少資方該臉紅?黃渤這次又賭對了

銀河史記
2025-07-23 00:20:47
李宗仁的長子痛哭:母親活了100歲,卻守了整整70年活寡!

李宗仁的長子痛哭:母親活了100歲,卻守了整整70年活寡!

品茗談史論世事
2025-07-26 01:42:04
中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關系

律便利
2025-07-03 15:20:03
直到闞清子懷孕,才知道她竟嫁給了周浩,直接從藝人變成了老板娘

直到闞清子懷孕,才知道她竟嫁給了周浩,直接從藝人變成了老板娘

小娛樂悠悠
2025-07-25 13:02:21
隨著中國籃協同意楊瀚森不參加本屆亞洲杯,無非就這兩點原因!

隨著中國籃協同意楊瀚森不參加本屆亞洲杯,無非就這兩點原因!

田先生籃球
2025-07-24 21:57:03
離譜!楊威稱15歲兒子有“菜花”,還說楊陽洋有病歷,網友罵瘋了

離譜!楊威稱15歲兒子有“菜花”,還說楊陽洋有病歷,網友罵瘋了

小嵩
2025-07-24 15:32:24
我將保姆辭退后,隔壁大爺來我家質問:你把她辭退了,我怎么辦?

我將保姆辭退后,隔壁大爺來我家質問:你把她辭退了,我怎么辦?

曉艾故事匯
2025-07-25 17:00:13
2025-07-26 05:16:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6712文章數 94448關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態(tài)度原創(chuàng)

手機
教育
房產
旅游
家居

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

教育要聞

考生高考674分上民辦高校被罵!了解學校背景后,才知他有多明智

房產要聞

分數線集體飆漲!海中867分!2025海南中招格局大變!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

環(huán)繞設計 空間動線合理

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 太康县| 平潭县| 土默特左旗| 望城县| 仙桃市| 绍兴县| 绿春县| 越西县| 阆中市| 石林| 兴义市| 措美县| 稻城县| 雅安市| 甘德县| 马尔康县| 黄大仙区| 永城市| 左权县| 康马县| 枞阳县| 且末县| 准格尔旗| 黎平县| 安丘市| 镇赉县| 河南省| 云南省| 咸丰县| 资阳市| 苍溪县| 固始县| 清流县| 博客| 疏附县| 海原县| 白银市| 申扎县| 威海市| 芜湖市| 休宁县|