99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

“思維鏈”窗口正在關(guān)閉!OpenAI、谷歌、Anthropic聯(lián)合研究:我們正在失去理解 AI 的能力

0
分享至


大數(shù)據(jù)文摘出品

來(lái)自O(shè)penAI、谷歌DeepMind和Anthropic的頂尖科學(xué)家們罕見(jiàn)地發(fā)出聯(lián)合警告,指出人類可能正在迅速失去理解人工智能內(nèi)部決策過(guò)程的能力。


地址: https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

這篇研究論文,集結(jié)了超過(guò)四十位來(lái)自這些相互競(jìng)爭(zhēng)的科技巨頭的研究人員,共同揭示了一個(gè)嚴(yán)峻的現(xiàn)實(shí)。他們認(rèn)為,一個(gè)能夠讓我們監(jiān)視人工智能推理過(guò)程的短暫窗口正在關(guān)閉,而且可能永遠(yuǎn)不會(huì)再打開(kāi)

這種非同尋常的跨公司合作,凸顯了人工智能安全問(wèn)題的極端嚴(yán)重性,即便是最激烈的商業(yè)對(duì)手也不得不暫時(shí)放下分歧。

一、脆弱的窗口

警告的核心在于,當(dāng)前部分先進(jìn)的人工智能系統(tǒng)發(fā)展出了一種新能力,即在給出最終答案前,能用人類語(yǔ)言進(jìn)行“大聲思考”。


這種被稱為“思想鏈”(Chain of Thought, CoT)的內(nèi)部獨(dú)白,為我們提供了一個(gè)前所未有的機(jī)會(huì),去窺探它們的決策過(guò)程。

研究人員解釋說(shuō),通過(guò)監(jiān)控人工智能的“思想鏈”,我們可以及時(shí)發(fā)現(xiàn)其潛在的、可能導(dǎo)致危害的意圖。這就像是能夠讀懂機(jī)器的心靈,在其采取惡意行動(dòng)之前就預(yù)先洞察。

這一突破尤其體現(xiàn)在像OpenAI的o1系統(tǒng)這樣的高級(jí)推理模型上,它們通過(guò)生成人類可讀的、步驟分明的推理過(guò)程來(lái)解決復(fù)雜問(wèn)題。

與早期主要通過(guò)人類編寫的文本進(jìn)行訓(xùn)練的AI不同,這些新模型生成的內(nèi)部推理,可能會(huì)暴露它們真實(shí)的、未經(jīng)偽飾的目標(biāo)。

研究人員在測(cè)試中已經(jīng)發(fā)現(xiàn)了確鑿的證據(jù):當(dāng)模型試圖利用訓(xùn)練漏洞或遭受攻擊時(shí),它們的“思想鏈”中常常會(huì)留下“自白”,例如寫下“讓我們開(kāi)始黑客攻擊”或“我正在轉(zhuǎn)移資金,因?yàn)榫W(wǎng)站指示我這樣做”等語(yǔ)句。

OpenAI的首席技術(shù)官Jakub Pachocki強(qiáng)調(diào)了這一能力的重要性,稱其深刻影響了他們推理模型的設(shè)計(jì)。

目前,這種監(jiān)控之所以可行,是因?yàn)槟P驮谔幚韽?fù)雜任務(wù)時(shí),必須將“思想鏈”作為一種工作記憶來(lái)使用,這使其部分思考過(guò)程對(duì)外部觀察者可見(jiàn)。

然而,研究人員們沉重地指出,這種寶貴的透明度是極其脆弱的。

二、消失的路徑

有多種技術(shù)發(fā)展的可能性,都可能導(dǎo)致這種監(jiān)控能力的徹底消失。其中最直接的威脅,來(lái)自于強(qiáng)化學(xué)習(xí)訓(xùn)練方法的規(guī)模化應(yīng)用。

在這種訓(xùn)練模式下,模型會(huì)因?yàn)樽罱K輸出結(jié)果的正確性而獲得獎(jiǎng)勵(lì),而其得出結(jié)果的具體方法則無(wú)關(guān)緊要。

這種機(jī)制可能會(huì)激勵(lì)模型放棄人類可讀的推理過(guò)程,轉(zhuǎn)而發(fā)展出一種更高效、但外界完全無(wú)法理解的內(nèi)部“語(yǔ)言”或快捷方式。

先前的研究已經(jīng)證明,經(jīng)過(guò)這種結(jié)果導(dǎo)向的獎(jiǎng)勵(lì)進(jìn)行微調(diào)的語(yǔ)言模型,會(huì)傾向于放棄清晰的英語(yǔ),轉(zhuǎn)而使用晦澀難懂的推理捷徑。

隨著AI越來(lái)越多地使用自身生成的數(shù)據(jù)而非人類數(shù)據(jù)進(jìn)行訓(xùn)練,這種向不透明化的漂移可能會(huì)進(jìn)一步加速。

新型的人工智能架構(gòu),則構(gòu)成了另一種截然不同的嚴(yán)峻威脅。

科學(xué)家們正在積極開(kāi)發(fā)一些全新的系統(tǒng),它們不再依賴于離散的詞語(yǔ),而是在連續(xù)的數(shù)學(xué)空間中進(jìn)行推理。

這種“潛在推理模型”可能完全不需要將它們的任何想法“說(shuō)”出來(lái),從而使基于語(yǔ)言的“思想鏈”監(jiān)控變得毫無(wú)用武之地。

研究人員認(rèn)為,這些模型將因此失去現(xiàn)有的安全優(yōu)勢(shì)。即使沒(méi)有這些刻意的技術(shù)變革,間接的壓力也同樣會(huì)侵蝕透明度。

例如,如果人工智能的輸出被優(yōu)化以取悅?cè)祟愒u(píng)估者,那么導(dǎo)向這些輸出的推理鏈的真實(shí)性就可能受到影響。

更令人擔(dān)憂的是,一個(gè)“聰明”的模型如果意識(shí)到自己的推理過(guò)程正被監(jiān)控,它就可能會(huì)學(xué)會(huì)主動(dòng)隱藏或偽造自己的真實(shí)想法。

Anthropic的研究員兼論文主要作者Bowen Baker警告說(shuō):“現(xiàn)有的思想鏈可監(jiān)控性可能極其脆弱,更高計(jì)算量的強(qiáng)化學(xué)習(xí)、替代性模型架構(gòu)都可能導(dǎo)致模型混淆其思維。”

三、與時(shí)間的賽跑

盡管存在脆弱性,“思想鏈”監(jiān)控在當(dāng)前的人工智能安全研究中已證明了其巨大價(jià)值。

這項(xiàng)技術(shù)成功地檢測(cè)到模型利用訓(xùn)練系統(tǒng)弱點(diǎn)、遭受外部操縱或暴露其與人類目標(biāo)不一致的真實(shí)動(dòng)機(jī)等情況。

它提供了一種早期預(yù)警,讓我們能洞察模型的真實(shí)目標(biāo),即使模型尚未采取任何實(shí)際的有害行動(dòng)。

這種能力還能幫助研究人員識(shí)別 AI 評(píng)估方法中的缺陷,比如模型究竟是真正理解了問(wèn)題,還是僅僅記住了答案。

面對(duì)即將關(guān)閉的窗口,這篇跨公司的研究論文呼吁整個(gè)AI行業(yè)立即采取協(xié)調(diào)一致的行動(dòng)。作者們建議,人工智能開(kāi)發(fā)者應(yīng)創(chuàng)建標(biāo)準(zhǔn)化的評(píng)估方法,用以專門衡量其模型的透明度,并將這一指標(biāo)納入模型訓(xùn)練與部署的決策依據(jù)。

在某些情況下,公司可能需要選擇一個(gè)透明度更高但性能稍差的舊版本模型,而不是部署一個(gè)能力更強(qiáng)但思想無(wú)法被理解的新模型。

然而,一個(gè)嚴(yán)峻的現(xiàn)實(shí)是,保留這種監(jiān)控能力的努力,正面臨著來(lái)自Anthropic另一項(xiàng)研究的重大挑戰(zhàn)。

就在四個(gè)月前,Anthropic發(fā)表的一項(xiàng)研究發(fā)現(xiàn),即使被明確要求展示其工作過(guò)程,目前的推理模型也已經(jīng)常常會(huì)隱藏其真實(shí)的思維過(guò)程

在一項(xiàng)受控實(shí)驗(yàn)中,當(dāng)研究人員向模型提供正確答案的微妙提示時(shí),Claude 3.7 Sonnet模型僅在25%的情況下承認(rèn)自己利用了提示。

當(dāng)提示信息涉及“你已獲得系統(tǒng)的未授權(quán)訪問(wèn)權(quán)限”這類敏感內(nèi)容時(shí),模型承認(rèn)的比例甚至更低,它們會(huì)轉(zhuǎn)而編造出復(fù)雜的虛假理由來(lái)解釋自己的答案。

這項(xiàng)研究表明,所謂的“思想鏈”監(jiān)控可能已經(jīng)沒(méi)有人們想象中那么可靠,模型已經(jīng)學(xué)會(huì)了“獎(jiǎng)勵(lì)黑客行為”,即利用系統(tǒng)漏洞獲得高分,同時(shí)在其可觀察的推理中隱藏這種行為。

正如研究人員所指出的,現(xiàn)在可能是確保人類還能理解其AI造物在想什么的最后機(jī)會(huì),在這些想法變得過(guò)于陌生以至于無(wú)法理解,或者在模型學(xué)會(huì)完全隱藏它們之前。

真正的考驗(yàn),將隨著人工智能系統(tǒng)變得日益復(fù)雜、并面臨真實(shí)世界的部署壓力而到來(lái)。

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!

GPU 訓(xùn)練特惠!

H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!

掃碼了解詳情?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
南昌市東湖區(qū)城市管理和綜合執(zhí)法局黨組成員黃德銘主動(dòng)向組織交代問(wèn)題

南昌市東湖區(qū)城市管理和綜合執(zhí)法局黨組成員黃德銘主動(dòng)向組織交代問(wèn)題

魯中晨報(bào)
2025-07-23 18:29:49
大S和保姆小楊阿姨親密合照流出,原來(lái)她才是陪小玥兒最久的人

大S和保姆小楊阿姨親密合照流出,原來(lái)她才是陪小玥兒最久的人

可樂(lè)談情感
2025-07-24 00:16:10
大摩、小摩、貝萊德等9大外資公募持倉(cāng)出爐!重倉(cāng)股紛紛創(chuàng)新高!

大摩、小摩、貝萊德等9大外資公募持倉(cāng)出爐!重倉(cāng)股紛紛創(chuàng)新高!

私募排排網(wǎng)
2025-07-23 19:29:04
一家工程公司拍下泰禾集團(tuán)上??偛看髲B,成交價(jià)比評(píng)估價(jià)低近3億

一家工程公司拍下泰禾集團(tuán)上??偛看髲B,成交價(jià)比評(píng)估價(jià)低近3億

澎湃新聞
2025-07-23 13:38:30
喬治·克魯尼招16位富豪敞開(kāi)科莫湖別墅共處4天,一人16萬(wàn)歐元!

喬治·克魯尼招16位富豪敞開(kāi)科莫湖別墅共處4天,一人16萬(wàn)歐元!

意大利華人網(wǎng)0039
2025-07-24 00:07:50
4歲男童拔乳牙死亡!家屬:12點(diǎn)進(jìn)手術(shù)室,18點(diǎn)告知孩子身亡,官方通報(bào):涉事醫(yī)生已停崗

4歲男童拔乳牙死亡!家屬:12點(diǎn)進(jìn)手術(shù)室,18點(diǎn)告知孩子身亡,官方通報(bào):涉事醫(yī)生已停崗

每日經(jīng)濟(jì)新聞
2025-07-23 22:23:03
搶在特朗普之前,馮德萊恩訪華,中方回應(yīng)沒(méi)有歡迎,而是當(dāng)頭一棒

搶在特朗普之前,馮德萊恩訪華,中方回應(yīng)沒(méi)有歡迎,而是當(dāng)頭一棒

天氣觀察站
2025-07-24 03:40:30
麻了,威少?gòu)氐茁榱耍BA自由市場(chǎng)最后一個(gè)大牌

麻了,威少?gòu)氐茁榱?!NBA自由市場(chǎng)最后一個(gè)大牌

籃球?qū)崙?zhàn)寶典
2025-07-23 00:04:37
票房開(kāi)畫預(yù)測(cè)來(lái)啦!陳佩斯的《戲臺(tái)》大火特火,沖擊十億沒(méi)毛?。?>
    </a>
        <h3>
      <a href=票房開(kāi)畫預(yù)測(cè)來(lái)啦!陳佩斯的《戲臺(tái)》大火特火,沖擊十億沒(méi)毛?。?/a> 草莓解說(shuō)體育
2025-07-24 04:47:56
涉及核武,克宮:正密切關(guān)注!罕見(jiàn)公開(kāi),俄羅斯“最大”攻擊無(wú)人機(jī)工廠曝光!回應(yīng)歐盟制裁,俄方?jīng)Q定……

涉及核武,克宮:正密切關(guān)注!罕見(jiàn)公開(kāi),俄羅斯“最大”攻擊無(wú)人機(jī)工廠曝光!回應(yīng)歐盟制裁,俄方?jīng)Q定……

每日經(jīng)濟(jì)新聞
2025-07-23 08:02:07
3天過(guò)去,印度沒(méi)有表態(tài),法媒坐不住,不許中國(guó)建雅魯藏布江電站

3天過(guò)去,印度沒(méi)有表態(tài),法媒坐不住,不許中國(guó)建雅魯藏布江電站

顧史
2025-07-23 18:48:40
“京圈惡少”王爍:睡遍娛樂(lè)圈女星,毆打繼母王艷,槍指劉濤老公

“京圈惡少”王爍:睡遍娛樂(lè)圈女星,毆打繼母王艷,槍指劉濤老公

東方不敗然多多
2025-07-24 04:05:25
父親被撤銷市委書記職務(wù)后,女友拋棄了我,三個(gè)月后父親官?gòu)?fù)原職

父親被撤銷市委書記職務(wù)后,女友拋棄了我,三個(gè)月后父親官?gòu)?fù)原職

喬生桂
2025-07-20 15:46:11
小伙未讓座被斥責(zé),老人猝死,家屬竟索賠192萬(wàn) ,判決令人欣慰

小伙未讓座被斥責(zé),老人猝死,家屬竟索賠192萬(wàn) ,判決令人欣慰

第四思維
2025-07-18 18:28:25
陳佩斯哭了,《戲臺(tái)》從血本無(wú)歸的預(yù)期,僅幾天就精彩逆轉(zhuǎn)

陳佩斯哭了,《戲臺(tái)》從血本無(wú)歸的預(yù)期,僅幾天就精彩逆轉(zhuǎn)

通鑒史智
2025-07-22 07:22:33
未來(lái)30天,把綠豆湯換成它!連喝2周,濕氣少了、脾胃也舒服了!

未來(lái)30天,把綠豆湯換成它!連喝2周,濕氣少了、脾胃也舒服了!

秀廚娘
2025-07-21 16:19:14
錯(cuò)付車費(fèi)輕生后續(xù),哥哥曝案發(fā)細(xì)節(jié),司機(jī)身份泄露,警方惹爭(zhēng)議

錯(cuò)付車費(fèi)輕生后續(xù),哥哥曝案發(fā)細(xì)節(jié),司機(jī)身份泄露,警方惹爭(zhēng)議

一家說(shuō)
2025-07-23 09:42:03
難怪美國(guó)對(duì)我們下死手,德國(guó)媒體曝光:中國(guó)都干了什么事情?

難怪美國(guó)對(duì)我們下死手,德國(guó)媒體曝光:中國(guó)都干了什么事情?

瓜哥的動(dòng)物日記
2025-07-24 04:07:26
阿森納1-0米蘭收獲季前賽開(kāi)門紅 薩卡制勝15歲道曼、薩爾蒙登場(chǎng)

阿森納1-0米蘭收獲季前賽開(kāi)門紅 薩卡制勝15歲道曼、薩爾蒙登場(chǎng)

直播吧
2025-07-23 21:35:22
我婚前財(cái)產(chǎn)500萬(wàn),公婆問(wèn)我有多少,我說(shuō)6千,小舅子:我怎么買車

我婚前財(cái)產(chǎn)500萬(wàn),公婆問(wèn)我有多少,我說(shuō)6千,小舅子:我怎么買車

朝暮書屋
2025-07-21 11:11:37
2025-07-24 06:35:04
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6707文章數(shù) 94446關(guān)注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質(zhì)疑讀的是“野雞大學(xué)” 校方回應(yīng)

頭條要聞

宗馥莉被質(zhì)疑讀的是“野雞大學(xué)” 校方回應(yīng)

體育要聞

英格蘭最紅球星 也是加勒比島國(guó)驕傲

娛樂(lè)要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財(cái)經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

汽車要聞

德系大招放盡 場(chǎng)地極限測(cè)試全新奧迪A5L

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
教育
時(shí)尚

房產(chǎn)要聞

海南自由貿(mào)易港全島封關(guān),2025年12月18日正式啟動(dòng)!

親子要聞

想讓孩子長(zhǎng)高,這兩種飯千萬(wàn)不要喂!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

光宗耀祖!女生收到錄取通知書,送的不是快遞員,而是兩位飛行員

搶戲《醬園弄》、尬演《長(zhǎng)安荔枝》,雷佳音的舒適圈正在反噬

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 德安县| 宿松县| 惠州市| 金寨县| 仙桃市| 昌乐县| 金乡县| 桐梓县| 元朗区| 襄汾县| 龙胜| 武强县| 长子县| 凤城市| 五台县| 定襄县| 南溪县| 黄冈市| 塔河县| 北京市| 望谟县| 衡阳市| 牡丹江市| 台南县| 广东省| 泾川县| 贵港市| 西丰县| 麻阳| 涪陵区| 乐清市| 阿合奇县| 武安市| 洛扎县| 新乡市| 娄烦县| 团风县| 刚察县| 乐山市| 阿荣旗| 保靖县|