99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI教父聯(lián)名OpenAI、DeepMind、Anthropic:警惕CoT!

0
分享至

就在今天,小扎的 Meta 公司「挖角」了一個(gè)大的,將思維鏈(CoT)論文的第一作者 Jason Wei 招至他們的超級(jí)智能團(tuán)隊(duì)。作為參與 OpenAI o1 和 deep research 模型的知名研究員,Jason Wei 的離開,或讓 OpenAI 損失巨大。

同時(shí),今天另一件與 CoT 相關(guān)的新聞是,OpenAIGoogle DeepMindAnthropic公司“罕見同臺(tái)”,與來自其他高校、知名企業(yè)和非營利性組織的AI研究員們共同發(fā)表了一份立場文件,呼吁“有必要對(duì)監(jiān)控 AI 推理模型‘思維’的技術(shù)(即 CoT)進(jìn)行更深入的研究”。

值得一提的是,AI 教父、圖靈獎(jiǎng)得主、蒙特利爾大學(xué)教授Yoshua Bengio的名字也出現(xiàn)在了名單中。


文件鏈接:

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

眾所周知,推理模型是驅(qū)動(dòng) AI agent 的核心技術(shù),作者認(rèn)為,隨著 AI agent 的普及和能力提升,CoT monitoring 可能成為控制其行為的核心方法。

然而,目前這種可見性程度能否持續(xù)尚無保證。我們鼓勵(lì)研究界和前沿AI開發(fā)者充分利用CoT可監(jiān)測性,并研究如何保持其透明度。”

在立場文件中,作者要求領(lǐng)先的 AI 模型開發(fā)者研究使 CoT 可監(jiān)測的因素——換言之,哪些因素會(huì)增加或減少對(duì)AI模型實(shí)際得出答案過程的透明度

此外,他們還呼吁 AI 模型開發(fā)人員跟蹤 CoT 可監(jiān)測性,并研究該方法未來如何作為安全措施加以實(shí)施。

為何 CoT 需要且可被監(jiān)控?

Tomek Korbak、Mikita Balesni 等作者在立場文件中寫道,AI 系統(tǒng)以人類語言進(jìn)行“思考”為 AI 安全提供了獨(dú)特機(jī)會(huì):我們可以通過監(jiān)控它們的 CoT 來察覺其不良意圖。和其他監(jiān)管方法一樣,CoT monitoring 并不完美,某些不當(dāng)行為仍會(huì)被忽略。然而,它展現(xiàn)出希望,我們建議進(jìn)一步研究 CoT 的可監(jiān)控性,并在現(xiàn)有安全方法之上增加對(duì) CoT monitoring 的應(yīng)用。

由于大語言模型(LLM)以人類語言進(jìn)行處理和行動(dòng),人們希望它們比其它類型 AI 更容易理解。CoT 的發(fā)現(xiàn)進(jìn)一步提高了這種可能性:通過提示模型“大聲思考”(即在產(chǎn)生最終輸出前生成中間推理步驟),不僅提升了模型能力,還使更多相關(guān)計(jì)算以自然語言形式呈現(xiàn)。

然而,對(duì)于未經(jīng)專門訓(xùn)練進(jìn)行推理的語言模型,僅靠提示產(chǎn)生的 CoT 依然受限于迎合表面有用和無害性的傾向,其內(nèi)容不一定真實(shí)可靠。因此,單純通過提示生成的 CoT 輸出存在信任問題。

對(duì)于推理模型,CoT 與模型內(nèi)部激活狀態(tài)類似,可能包含一些不會(huì)直接體現(xiàn)在輸出中的信息,例如模型蓄意不當(dāng)行為的意圖。

他們?cè)谖募隽艘粋€(gè)關(guān)鍵觀點(diǎn):如果我們能夠讀取模型的CoT,就有機(jī)會(huì)發(fā)現(xiàn)模型意圖中的危險(xiǎn)信號(hào)

CoT monitoring,即由自動(dòng)系統(tǒng)讀取推理模型的 CoT 以及其他相關(guān)信息,標(biāo)記可疑或潛在有害的決策,從而攔截不良行為、替換為更安全的動(dòng)作或進(jìn)行更深入的人工審查。廣泛得說,研究 CoT 可以幫助我們了解 agent “如何思考”以及“有哪些目標(biāo)”。

他們?cè)谖闹?/strong>解釋了為何CoT 可以被監(jiān)控,包括以下兩點(diǎn):

  • 必要性:模型為完成困難任務(wù)必須“出聲”進(jìn)行推理。如果某些任務(wù)難度足夠大,模型無法在不使用 CoT 的情況下完成任務(wù),則它勢必需要將部分推理過程外化為自然語言。若模型始終以自然語言展開推理,而最嚴(yán)重的風(fēng)險(xiǎn)行為又需要這種擴(kuò)展推理,那么我們就有機(jī)會(huì)可靠地檢測到明顯的不當(dāng)意圖。

  • 傾向性:即使模型并非嚴(yán)格必須依賴 CoT 完成任務(wù),它也可能傾向于將推理過程外顯。雖然這種傾向并不魯棒、可靠,但基于傾向的監(jiān)控仍可能發(fā)現(xiàn)某些本來難以覺察的違規(guī)意圖。

導(dǎo)致CoT可監(jiān)控性降低的可能因素

他們還指出,當(dāng)前推理模型的 CoT 之所以可監(jiān)控,可能很大程度上取決于當(dāng)今模型的訓(xùn)練方式。而隨著訓(xùn)練范式和模型設(shè)計(jì)的演變,這種可監(jiān)控性可能被削弱或喪失。

首先,大規(guī)模強(qiáng)化學(xué)習(xí)導(dǎo)致 CoT 可讀性下降。在早期的預(yù)訓(xùn)練和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)范式下,大部分優(yōu)化壓力來自人類生成或評(píng)價(jià)的數(shù)據(jù),訓(xùn)練高度依賴基于結(jié)果的強(qiáng)化學(xué)習(xí),缺乏此屬性,模型未必再有動(dòng)力保持 CoT 的可讀性。

其次,當(dāng)模型使用純基于結(jié)果的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),它們只會(huì)因?yàn)檎_的輸出而得到獎(jiǎng)勵(lì),它們的推理過程除了幫助得出正確的答案之外,不會(huì)受到任何優(yōu)化壓力的影響。過程監(jiān)督有希望讓模型以更安全的方式進(jìn)行推理并有利于監(jiān)督困難任務(wù),但這樣的優(yōu)化可能會(huì)使 CoT 無法忠實(shí)地反映模型作出決策的過程。

除此之外,即使沒有直接把獎(jiǎng)勵(lì)建立在 CoT 上,訓(xùn)練過程也會(huì)對(duì) CoT 施加間接的優(yōu)化壓力。

LLM 只有在使用顯式 CoT 時(shí)才能完成復(fù)雜的多步推理。研究者已經(jīng)開始探索提高模型連續(xù)潛在空間推理能力的新架構(gòu)。此類潛在推理模型可能不需要將任意想法語言化,因此會(huì)失去 CoT 賦予的安全優(yōu)勢。

CoT 監(jiān)控的研究方向

作者認(rèn)為,我們對(duì) CoT 可監(jiān)控性的理解仍處于起步階段,在把它作為可靠的安全措施之前,還有許多關(guān)鍵問題回答,為此,他們列出了一系列重要的研究問題和方向:

1.如何評(píng)估CoT的可監(jiān)控性?

當(dāng)前有學(xué)者提出用“忠實(shí)度”等指標(biāo)作為 CoT 可監(jiān)控性的替代指標(biāo)。但此類評(píng)估存在無法區(qū)分模型“傾向”與“必要”外化推理的因素,因此建議開發(fā)新的評(píng)估方案,包括直接測量 CoT 可監(jiān)控性的指標(biāo),以及針對(duì)支撐可監(jiān)控性的特定屬性進(jìn)行測試的指標(biāo)

2.CoT可監(jiān)控性達(dá)到何種程度才能作為主要安全依靠?

知道監(jiān)控器本身的準(zhǔn)確率仍不足以判斷其能否有效防止 AI 造成危害。許多嚴(yán)重風(fēng)險(xiǎn)可能出現(xiàn)在存在對(duì)抗者(人類攻擊者或不良 agent)試圖規(guī)避監(jiān)控的情境中。監(jiān)控有效性的評(píng)估可能需要考慮此類對(duì)抗者,例如通過紅隊(duì)測試安全措施。

3.哪些訓(xùn)練時(shí)優(yōu)化壓力會(huì)降低CoT可監(jiān)控性?

訓(xùn)練過程的屬性可能影響可監(jiān)測性,我們還缺乏清晰認(rèn)識(shí):究竟哪些類型和強(qiáng)度的直接或間接優(yōu)化壓力,在不明顯損害 CoT 可監(jiān)控性的前提下是“安全”的。

4.模型是否有意隱藏其推理過程?

當(dāng)使用 CoT monitoring 作為一種安全措施時(shí),一個(gè)明顯的問題是,如果模型知道他們的 CoT 受到監(jiān)控(從訓(xùn)練中或由于在提示中被告知),CoT 是否會(huì)變得不那么可監(jiān)控。研究人員可以對(duì)模型進(jìn)行壓力測試,即使不專門訓(xùn)練模型反監(jiān)控,也要看看它們是否已經(jīng)有能力通過改變 CoT 來掩蓋惡意意圖。

5.何種模型架構(gòu)會(huì)降低CoT的可監(jiān)控性?

在連續(xù)潛在空間中推理的模型自然限制了其思維過程的可見性。因此,可以研究各種非傳統(tǒng)架構(gòu)對(duì) CoT monitoring 的影響,探明在何種條件下仍能部分保留對(duì)推理過程的可見性。可以設(shè)計(jì)混合方案,在提升模型內(nèi)部推理效率的同時(shí),仍讓一部分推理外化供監(jiān)控。

6.如何構(gòu)建更好的CoT監(jiān)控器?

先前的工作側(cè)重于用零樣本提示讓較弱的語言模型充當(dāng)監(jiān)視器。未來的工作可以探索利用測試時(shí)計(jì)算資源提升監(jiān)控性能。例如,監(jiān)控器可以基于一個(gè)推理模型,或允許其通過提問來審問 agent。此外,還可考慮對(duì)抗式訓(xùn)練監(jiān)控器,對(duì)抗試圖隱藏不良行為的 agent。

即使 CoT monitoring 帶來了很多機(jī)會(huì),作者同時(shí)也作出強(qiáng)調(diào):“所有監(jiān)控和監(jiān)管方法都有局限,會(huì)讓一些不良行為漏網(wǎng)。”

如果模型在執(zhí)行某些任務(wù)時(shí)不需要外化 CoT,那么 CoT 監(jiān)控雖然可能偵測到部分不當(dāng)行為,但本身并不能提供強(qiáng)有力的安全保證。模型完全可以在內(nèi)部激活中進(jìn)行惡意推理,而 CoT 看上去仍然良好,必須注意不要基于此類監(jiān)控就產(chǎn)生虛假的安全感。

對(duì)需要推理的危險(xiǎn)任務(wù)的監(jiān)控可能無法捕捉到所有相關(guān)的危害。有些危險(xiǎn)任務(wù)也許并不需要太多推理,因此 CoT 監(jiān)控未必能捕獲所有相關(guān)危害。此外,隨著模型在內(nèi)部激活中完成越來越復(fù)雜的推理(無需外化),具備外化推理特征的任務(wù)將越來越少。

CoT 監(jiān)控可能也會(huì)在更先進(jìn)的情境感知模型中停止工作。更先進(jìn)、具有環(huán)境意識(shí)的未來模型也許能夠主動(dòng)規(guī)避CoT監(jiān)控。它們可能抑制自身“出聲思考”的傾向,必要時(shí)甚至故意將真實(shí)意圖藏匿或混淆在 CoT 中。

某些形式的過程監(jiān)督可以大大提高模型的一致性,有效地干預(yù)模型推理。但如果我們過于執(zhí)著于維持現(xiàn)有的 CoT 行為以方便監(jiān)控,可能會(huì)錯(cuò)失其它潛在更有效的安全干預(yù)。

保護(hù)和利用CoT可監(jiān)控性的具體建議

由于 CoT 可監(jiān)控性提供了一個(gè)獨(dú)特的安全窗口,面向 AI 模型開發(fā)者,作者提出了在模型開發(fā)與部署中保護(hù)和利用 CoT 可監(jiān)控性的具體建議,如下:

  • 應(yīng)對(duì) CoT 的可監(jiān)測性進(jìn)行有效評(píng)估。前沿模型開發(fā)人員以及更廣泛的研究社區(qū)應(yīng)該共同嘗試并統(tǒng)一標(biāo)準(zhǔn)化的評(píng)估方案,以判定模型的 CoT 何時(shí)足夠可監(jiān)控。

  • 應(yīng)在 System Card 中公布 CoT 監(jiān)控評(píng)估結(jié)果。一旦對(duì) CoT 可監(jiān)控性進(jìn)行了可靠的評(píng)估,開發(fā)人員應(yīng)定期在其模型上運(yùn)行這些評(píng)估,并在這些模型的系統(tǒng)卡中報(bào)告評(píng)估結(jié)果、方法和局限。

  • 應(yīng)在訓(xùn)練和部署決策中使用可監(jiān)控性分?jǐn)?shù):在決定訓(xùn)練或部署給定模型時(shí),開發(fā)人員應(yīng)將 CoT 可監(jiān)控性的測度與其他能力、安全評(píng)估一道考慮。最終的決策應(yīng)基于對(duì)風(fēng)險(xiǎn)的整體評(píng)估,包括模型的 CoT 監(jiān)控性、監(jiān)控系統(tǒng)本身的性能,以及模型發(fā)生不良行為的傾向。

最后,他們呼吁:“未來 AI agent 的安全措施可能需要采用多層監(jiān)控,CoT 監(jiān)控是這些安全措施的補(bǔ)充,提供了一個(gè)難得的視角來觀察 AI agent 如何決策。然而,無法保證當(dāng)前的可見性會(huì)持續(xù)。鼓勵(lì)研究社區(qū)和前沿開發(fā)者充分利用目前CoT 可監(jiān)控性,并研究如何保持它。”

整理:小羊

如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我根本不配拿諾貝爾獎(jiǎng)

我根本不配拿諾貝爾獎(jiǎng)

霹靂炮
2025-05-31 22:00:03
宮魯鳴:李緣是未來接過中國隊(duì)大旗的人 楊舒予未來會(huì)是主力前鋒

宮魯鳴:李緣是未來接過中國隊(duì)大旗的人 楊舒予未來會(huì)是主力前鋒

直播吧
2025-07-16 22:52:01
德轉(zhuǎn):彭欣力租借加盟長春亞泰,租借費(fèi)約165萬

德轉(zhuǎn):彭欣力租借加盟長春亞泰,租借費(fèi)約165萬

懂球帝
2025-07-17 14:23:16
凌晨4點(diǎn),50余人身穿白衣排隊(duì)夜行,村中老人:看了你也得加入

凌晨4點(diǎn),50余人身穿白衣排隊(duì)夜行,村中老人:看了你也得加入

古怪奇談錄
2025-07-12 17:31:32
四川一維修隊(duì)打開下水道,發(fā)現(xiàn)里面躺著3個(gè)女人,一查身份嚇一跳

四川一維修隊(duì)打開下水道,發(fā)現(xiàn)里面躺著3個(gè)女人,一查身份嚇一跳

清茶淺談
2025-03-30 15:06:25
iPhone 17 發(fā)布時(shí)間曝光,9月見!

iPhone 17 發(fā)布時(shí)間曝光,9月見!

哎咆
2025-07-16 15:53:39
準(zhǔn)備參加93大閱兵的人員,是從哪里選拔的?

準(zhǔn)備參加93大閱兵的人員,是從哪里選拔的?

肖走教授
2025-07-14 07:38:03
事情反轉(zhuǎn),越南打破沉默,沒打算接受美國關(guān)稅,是特朗普自說自話

事情反轉(zhuǎn),越南打破沉默,沒打算接受美國關(guān)稅,是特朗普自說自話

歷史有些冷
2025-07-16 16:35:03
宗慶后出軌再曝猛料:三房生娃后拿錢去國外,孩子過繼給51歲二房

宗慶后出軌再曝猛料:三房生娃后拿錢去國外,孩子過繼給51歲二房

滄海旅行家
2025-07-16 14:09:51
飆至40.1℃!寧波人摒牢了,今天起大反轉(zhuǎn)!臺(tái)風(fēng)也有新消息→

飆至40.1℃!寧波人摒牢了,今天起大反轉(zhuǎn)!臺(tái)風(fēng)也有新消息→

魯中晨報(bào)
2025-07-17 09:48:12
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

山河月明史
2025-07-08 14:24:38
太強(qiáng)了,王毅外長拿臺(tái)當(dāng)局實(shí)控島嶼舉例,一句話讓40國啞口無言

太強(qiáng)了,王毅外長拿臺(tái)當(dāng)局實(shí)控島嶼舉例,一句話讓40國啞口無言

古事尋蹤記
2025-07-16 10:01:58
男孩尿游客一身后續(xù)!家長不道歉還罵人,上萬網(wǎng)友圍攻賬號(hào)已私密

男孩尿游客一身后續(xù)!家長不道歉還罵人,上萬網(wǎng)友圍攻賬號(hào)已私密

逍遙史記
2025-07-16 14:17:46
輪到山姆為“中產(chǎn)”買單了

輪到山姆為“中產(chǎn)”買單了

藍(lán)鯨新聞
2025-07-17 11:19:08
克林頓自傳披露中國大使館被炸細(xì)節(jié):是誤炸,但命中的是預(yù)定目標(biāo)

克林頓自傳披露中國大使館被炸細(xì)節(jié):是誤炸,但命中的是預(yù)定目標(biāo)

健身狂人
2025-07-17 13:37:25
“臺(tái)獨(dú)”媒體人:若兩岸開戰(zhàn),只需炸掉一個(gè)港口,臺(tái)灣可封鎖大陸

“臺(tái)獨(dú)”媒體人:若兩岸開戰(zhàn),只需炸掉一個(gè)港口,臺(tái)灣可封鎖大陸

通文知史
2025-07-16 15:15:03
專注未來2個(gè)夏天!Shams:得到比爾前快船下賽季僅9600萬保障合同

專注未來2個(gè)夏天!Shams:得到比爾前快船下賽季僅9600萬保障合同

直播吧
2025-07-17 08:45:30
大媽每月電費(fèi)500不明原因,砸開墻面后,發(fā)現(xiàn)亡夫藏了20年的秘密

大媽每月電費(fèi)500不明原因,砸開墻面后,發(fā)現(xiàn)亡夫藏了20年的秘密

呆呆的籃球
2025-07-17 16:20:08
“山西午睡不分物種”火出圈!山西人:外地人不午睡,晃悠啥呢?

“山西午睡不分物種”火出圈!山西人:外地人不午睡,晃悠啥呢?

削桐作琴
2025-07-07 13:26:29
考慮了半個(gè)月,李在明決定不參加中國閱兵,韓方給出了2個(gè)理由

考慮了半個(gè)月,李在明決定不參加中國閱兵,韓方給出了2個(gè)理由

一個(gè)有靈魂的作者
2025-07-16 13:18:17
2025-07-17 17:08:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點(diǎn)關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1318文章數(shù) 5075關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

愛康國賓CEO曾揭行業(yè)造假黑幕:抽血后不檢測直接倒掉

頭條要聞

愛康國賓CEO曾揭行業(yè)造假黑幕:抽血后不檢測直接倒掉

體育要聞

過去一年的頭號(hào)贏家,他說偶像永遠(yuǎn)是媽媽

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財(cái)經(jīng)要聞

探究萬億市場的休閑零食

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報(bào)信息曝光

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
家居
時(shí)尚
軍事航空

手機(jī)要聞

華為新一代三折疊來了!Mate XT 2入網(wǎng):支持衛(wèi)星通信

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

空間分明 時(shí)尚風(fēng)格并存

夏天穿衣一點(diǎn)都不難!上衣選基礎(chǔ)色、裙子有露膚度,耐看舒適

軍事要聞

美考慮援烏射程1000公里的導(dǎo)彈 特朗普:莫斯科不能打

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 成安县| 丰顺县| 怀柔区| 揭西县| 庄河市| 涟源市| 新密市| 鲁甸县| 涟水县| 定日县| 集安市| 盐城市| 大埔区| 海南省| 股票| 石嘴山市| 垣曲县| 绥中县| 安溪县| 诸城市| 仁化县| 潮安县| 霍山县| 新乡县| 分宜县| 连城县| 崇仁县| 呼玛县| 巴林右旗| 铁力市| 商都县| 奈曼旗| 武威市| 贞丰县| 广东省| 土默特左旗| 峨眉山市| 米易县| 蒙阴县| 东丰县| 大新县|