就在今天,小扎的 Meta 公司「挖角」了一個(gè)大的,將思維鏈(CoT)論文的第一作者 Jason Wei 招至他們的超級(jí)智能團(tuán)隊(duì)。作為參與 OpenAI o1 和 deep research 模型的知名研究員,Jason Wei 的離開,或讓 OpenAI 損失巨大。
同時(shí),今天另一件與 CoT 相關(guān)的新聞是,OpenAI、Google DeepMind、Anthropic公司“罕見同臺(tái)”,與來自其他高校、知名企業(yè)和非營利性組織的AI研究員們共同發(fā)表了一份立場文件,呼吁“有必要對(duì)監(jiān)控 AI 推理模型‘思維’的技術(shù)(即 CoT)進(jìn)行更深入的研究”。
值得一提的是,AI 教父、圖靈獎(jiǎng)得主、蒙特利爾大學(xué)教授Yoshua Bengio的名字也出現(xiàn)在了名單中。
文件鏈接:
https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf
眾所周知,推理模型是驅(qū)動(dòng) AI agent 的核心技術(shù),作者認(rèn)為,隨著 AI agent 的普及和能力提升,CoT monitoring 可能成為控制其行為的核心方法。
“然而,目前這種可見性程度能否持續(xù)尚無保證。我們鼓勵(lì)研究界和前沿AI開發(fā)者充分利用CoT可監(jiān)測性,并研究如何保持其透明度。”
在立場文件中,作者要求領(lǐng)先的 AI 模型開發(fā)者研究使 CoT 可監(jiān)測的因素——換言之,哪些因素會(huì)增加或減少對(duì)AI模型實(shí)際得出答案過程的透明度。
此外,他們還呼吁 AI 模型開發(fā)人員跟蹤 CoT 可監(jiān)測性,并研究該方法未來如何作為安全措施加以實(shí)施。
為何 CoT 需要且可被監(jiān)控?
Tomek Korbak、Mikita Balesni 等作者在立場文件中寫道,AI 系統(tǒng)以人類語言進(jìn)行“思考”為 AI 安全提供了獨(dú)特機(jī)會(huì):我們可以通過監(jiān)控它們的 CoT 來察覺其不良意圖。和其他監(jiān)管方法一樣,CoT monitoring 并不完美,某些不當(dāng)行為仍會(huì)被忽略。然而,它展現(xiàn)出希望,我們建議進(jìn)一步研究 CoT 的可監(jiān)控性,并在現(xiàn)有安全方法之上增加對(duì) CoT monitoring 的應(yīng)用。
由于大語言模型(LLM)以人類語言進(jìn)行處理和行動(dòng),人們希望它們比其它類型 AI 更容易理解。CoT 的發(fā)現(xiàn)進(jìn)一步提高了這種可能性:通過提示模型“大聲思考”(即在產(chǎn)生最終輸出前生成中間推理步驟),不僅提升了模型能力,還使更多相關(guān)計(jì)算以自然語言形式呈現(xiàn)。
然而,對(duì)于未經(jīng)專門訓(xùn)練進(jìn)行推理的語言模型,僅靠提示產(chǎn)生的 CoT 依然受限于迎合表面有用和無害性的傾向,其內(nèi)容不一定真實(shí)可靠。因此,單純通過提示生成的 CoT 輸出存在信任問題。
對(duì)于推理模型,CoT 與模型內(nèi)部激活狀態(tài)類似,可能包含一些不會(huì)直接體現(xiàn)在輸出中的信息,例如模型蓄意不當(dāng)行為的意圖。
他們?cè)谖募隽艘粋€(gè)關(guān)鍵觀點(diǎn):如果我們能夠讀取模型的CoT,就有機(jī)會(huì)發(fā)現(xiàn)模型意圖中的危險(xiǎn)信號(hào)。
CoT monitoring,即由自動(dòng)系統(tǒng)讀取推理模型的 CoT 以及其他相關(guān)信息,標(biāo)記可疑或潛在有害的決策,從而攔截不良行為、替換為更安全的動(dòng)作或進(jìn)行更深入的人工審查。廣泛得說,研究 CoT 可以幫助我們了解 agent “如何思考”以及“有哪些目標(biāo)”。
他們?cè)谖闹?/strong>解釋了為何CoT 可以被監(jiān)控,包括以下兩點(diǎn):
必要性:模型為完成困難任務(wù)必須“出聲”進(jìn)行推理。如果某些任務(wù)難度足夠大,模型無法在不使用 CoT 的情況下完成任務(wù),則它勢必需要將部分推理過程外化為自然語言。若模型始終以自然語言展開推理,而最嚴(yán)重的風(fēng)險(xiǎn)行為又需要這種擴(kuò)展推理,那么我們就有機(jī)會(huì)可靠地檢測到明顯的不當(dāng)意圖。
傾向性:即使模型并非嚴(yán)格必須依賴 CoT 完成任務(wù),它也可能傾向于將推理過程外顯。雖然這種傾向并不魯棒、可靠,但基于傾向的監(jiān)控仍可能發(fā)現(xiàn)某些本來難以覺察的違規(guī)意圖。
導(dǎo)致CoT可監(jiān)控性降低的可能因素
他們還指出,當(dāng)前推理模型的 CoT 之所以可監(jiān)控,可能很大程度上取決于當(dāng)今模型的訓(xùn)練方式。而隨著訓(xùn)練范式和模型設(shè)計(jì)的演變,這種可監(jiān)控性可能被削弱或喪失。
首先,大規(guī)模強(qiáng)化學(xué)習(xí)導(dǎo)致 CoT 可讀性下降。在早期的預(yù)訓(xùn)練和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)范式下,大部分優(yōu)化壓力來自人類生成或評(píng)價(jià)的數(shù)據(jù),訓(xùn)練高度依賴基于結(jié)果的強(qiáng)化學(xué)習(xí),缺乏此屬性,模型未必再有動(dòng)力保持 CoT 的可讀性。
其次,當(dāng)模型使用純基于結(jié)果的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練時(shí),它們只會(huì)因?yàn)檎_的輸出而得到獎(jiǎng)勵(lì),它們的推理過程除了幫助得出正確的答案之外,不會(huì)受到任何優(yōu)化壓力的影響。過程監(jiān)督有希望讓模型以更安全的方式進(jìn)行推理并有利于監(jiān)督困難任務(wù),但這樣的優(yōu)化可能會(huì)使 CoT 無法忠實(shí)地反映模型作出決策的過程。
除此之外,即使沒有直接把獎(jiǎng)勵(lì)建立在 CoT 上,訓(xùn)練過程也會(huì)對(duì) CoT 施加間接的優(yōu)化壓力。
LLM 只有在使用顯式 CoT 時(shí)才能完成復(fù)雜的多步推理。研究者已經(jīng)開始探索提高模型連續(xù)潛在空間推理能力的新架構(gòu)。此類潛在推理模型可能不需要將任意想法語言化,因此會(huì)失去 CoT 賦予的安全優(yōu)勢。
CoT 監(jiān)控的研究方向
作者認(rèn)為,我們對(duì) CoT 可監(jiān)控性的理解仍處于起步階段,在把它作為可靠的安全措施之前,還有許多關(guān)鍵問題回答,為此,他們列出了一系列重要的研究問題和方向:
1.如何評(píng)估CoT的可監(jiān)控性?
當(dāng)前有學(xué)者提出用“忠實(shí)度”等指標(biāo)作為 CoT 可監(jiān)控性的替代指標(biāo)。但此類評(píng)估存在無法區(qū)分模型“傾向”與“必要”外化推理的因素,因此建議開發(fā)新的評(píng)估方案,包括直接測量 CoT 可監(jiān)控性的指標(biāo),以及針對(duì)支撐可監(jiān)控性的特定屬性進(jìn)行測試的指標(biāo)
2.CoT可監(jiān)控性達(dá)到何種程度才能作為主要安全依靠?
知道監(jiān)控器本身的準(zhǔn)確率仍不足以判斷其能否有效防止 AI 造成危害。許多嚴(yán)重風(fēng)險(xiǎn)可能出現(xiàn)在存在對(duì)抗者(人類攻擊者或不良 agent)試圖規(guī)避監(jiān)控的情境中。監(jiān)控有效性的評(píng)估可能需要考慮此類對(duì)抗者,例如通過紅隊(duì)測試安全措施。
3.哪些訓(xùn)練時(shí)優(yōu)化壓力會(huì)降低CoT可監(jiān)控性?
訓(xùn)練過程的屬性可能影響可監(jiān)測性,我們還缺乏清晰認(rèn)識(shí):究竟哪些類型和強(qiáng)度的直接或間接優(yōu)化壓力,在不明顯損害 CoT 可監(jiān)控性的前提下是“安全”的。
4.模型是否有意隱藏其推理過程?
當(dāng)使用 CoT monitoring 作為一種安全措施時(shí),一個(gè)明顯的問題是,如果模型知道他們的 CoT 受到監(jiān)控(從訓(xùn)練中或由于在提示中被告知),CoT 是否會(huì)變得不那么可監(jiān)控。研究人員可以對(duì)模型進(jìn)行壓力測試,即使不專門訓(xùn)練模型反監(jiān)控,也要看看它們是否已經(jīng)有能力通過改變 CoT 來掩蓋惡意意圖。
5.何種模型架構(gòu)會(huì)降低CoT的可監(jiān)控性?
在連續(xù)潛在空間中推理的模型自然限制了其思維過程的可見性。因此,可以研究各種非傳統(tǒng)架構(gòu)對(duì) CoT monitoring 的影響,探明在何種條件下仍能部分保留對(duì)推理過程的可見性。可以設(shè)計(jì)混合方案,在提升模型內(nèi)部推理效率的同時(shí),仍讓一部分推理外化供監(jiān)控。
6.如何構(gòu)建更好的CoT監(jiān)控器?
先前的工作側(cè)重于用零樣本提示讓較弱的語言模型充當(dāng)監(jiān)視器。未來的工作可以探索利用測試時(shí)計(jì)算資源提升監(jiān)控性能。例如,監(jiān)控器可以基于一個(gè)推理模型,或允許其通過提問來審問 agent。此外,還可考慮對(duì)抗式訓(xùn)練監(jiān)控器,對(duì)抗試圖隱藏不良行為的 agent。
即使 CoT monitoring 帶來了很多機(jī)會(huì),作者同時(shí)也作出強(qiáng)調(diào):“所有監(jiān)控和監(jiān)管方法都有局限,會(huì)讓一些不良行為漏網(wǎng)。”
如果模型在執(zhí)行某些任務(wù)時(shí)不需要外化 CoT,那么 CoT 監(jiān)控雖然可能偵測到部分不當(dāng)行為,但本身并不能提供強(qiáng)有力的安全保證。模型完全可以在內(nèi)部激活中進(jìn)行惡意推理,而 CoT 看上去仍然良好,必須注意不要基于此類監(jiān)控就產(chǎn)生虛假的安全感。
對(duì)需要推理的危險(xiǎn)任務(wù)的監(jiān)控可能無法捕捉到所有相關(guān)的危害。有些危險(xiǎn)任務(wù)也許并不需要太多推理,因此 CoT 監(jiān)控未必能捕獲所有相關(guān)危害。此外,隨著模型在內(nèi)部激活中完成越來越復(fù)雜的推理(無需外化),具備外化推理特征的任務(wù)將越來越少。
CoT 監(jiān)控可能也會(huì)在更先進(jìn)的情境感知模型中停止工作。更先進(jìn)、具有環(huán)境意識(shí)的未來模型也許能夠主動(dòng)規(guī)避CoT監(jiān)控。它們可能抑制自身“出聲思考”的傾向,必要時(shí)甚至故意將真實(shí)意圖藏匿或混淆在 CoT 中。
某些形式的過程監(jiān)督可以大大提高模型的一致性,有效地干預(yù)模型推理。但如果我們過于執(zhí)著于維持現(xiàn)有的 CoT 行為以方便監(jiān)控,可能會(huì)錯(cuò)失其它潛在更有效的安全干預(yù)。
保護(hù)和利用CoT可監(jiān)控性的具體建議
由于 CoT 可監(jiān)控性提供了一個(gè)獨(dú)特的安全窗口,面向 AI 模型開發(fā)者,作者提出了在模型開發(fā)與部署中保護(hù)和利用 CoT 可監(jiān)控性的具體建議,如下:
應(yīng)對(duì) CoT 的可監(jiān)測性進(jìn)行有效評(píng)估。前沿模型開發(fā)人員以及更廣泛的研究社區(qū)應(yīng)該共同嘗試并統(tǒng)一標(biāo)準(zhǔn)化的評(píng)估方案,以判定模型的 CoT 何時(shí)足夠可監(jiān)控。
應(yīng)在 System Card 中公布 CoT 監(jiān)控評(píng)估結(jié)果。一旦對(duì) CoT 可監(jiān)控性進(jìn)行了可靠的評(píng)估,開發(fā)人員應(yīng)定期在其模型上運(yùn)行這些評(píng)估,并在這些模型的系統(tǒng)卡中報(bào)告評(píng)估結(jié)果、方法和局限。
應(yīng)在訓(xùn)練和部署決策中使用可監(jiān)控性分?jǐn)?shù):在決定訓(xùn)練或部署給定模型時(shí),開發(fā)人員應(yīng)將 CoT 可監(jiān)控性的測度與其他能力、安全評(píng)估一道考慮。最終的決策應(yīng)基于對(duì)風(fēng)險(xiǎn)的整體評(píng)估,包括模型的 CoT 監(jiān)控性、監(jiān)控系統(tǒng)本身的性能,以及模型發(fā)生不良行為的傾向。
最后,他們呼吁:“未來 AI agent 的安全措施可能需要采用多層監(jiān)控,CoT 監(jiān)控是這些安全措施的補(bǔ)充,提供了一個(gè)難得的視角來觀察 AI agent 如何決策。然而,無法保證當(dāng)前的可見性會(huì)持續(xù)。鼓勵(lì)研究社區(qū)和前沿開發(fā)者充分利用目前CoT 可監(jiān)控性,并研究如何保持它。”
整理:小羊
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.