科學(xué)家撰文：AI能使用人類語言模擬思考，監(jiān)控AI推理僅剩短暫窗口

2025-07-16 18:46:51　來源: DeepTech深科技

北京舉報

分享至

是什么讓早已“殺紅眼”的 OpenAI 和 Meta 放下“挖墻腳之仇”共寫一篇文章？是什么引得諾獎得主和圖靈獎得主紛紛下場給這篇文章署名？答案只有三個字：思維鏈。

當?shù)貢r間 7 月 15 日，一份關(guān)于推理模型思維鏈的立場文件，讓原本互為競爭對手的來自 OpenAI、Meta、Google DeepMind、Anthropic 的研究人員紛紛一起署下名字。文件中，他們呼吁業(yè)內(nèi)人士要對監(jiān)控 AI 推理模型的思維鏈進行更深入的研究。

文件作者包含多名知名 AI 人士，比如圖靈獎得主約書亞·本吉奧（Yoshua Bengio）、Google DeepMind 聯(lián)合創(chuàng)始人沙恩·萊格（Shane Legg）、OpenAI 的首席研究官 Mark Chen。

同時，諾貝爾獎得主杰弗里·辛頓（Geoffrey Hinton）、OpenAI 聯(lián)合創(chuàng)始人&Safe Superintelligence 的 CEO 伊利亞?蘇茨克弗（Ilya Sutskever）、Anthropic 的 AI 安全和評估團隊組長&美國紐約大學(xué)副教授撒母耳·R·鮑曼（Samuel R. Bowman）、OpenAI 聯(lián)合創(chuàng)始人&Thinking Machines Lab 首席科學(xué)家約翰·舒爾曼（John Schulman）這四位是該文件的專家推薦人。

圖 | 四位專家推薦人（來源：https://tomekkorbak.com/cot-moni）

第一作者來自英國人工智能安全研究所（UK AI Security Institute）和英國研究機構(gòu) Apollo Research。

其他作者來自 Anthropic、OpenAI、Google DeepMind、Meta、亞馬遜、美國加州大學(xué)伯克利分校、Center for AI Safety、Redwood Research、AI Futures Project、Scale AI 和 Magic 等團隊。

圖 | 文件署名（來源：https://tomekkorbak.com/cot-monitorabi）

那么，這份文件到底有多重要以至于能得到眾多人士的署名？該文件指出，以自然語言進行“思考”的 AI 系統(tǒng)為 AI 安全提供了一個獨特的機會：這讓人們可以監(jiān)控它們的思維鏈，以便發(fā)現(xiàn)其是否存在不當意圖。與所有其他 AI 監(jiān)督方法一樣的是，思維鏈監(jiān)控并不完美，這可能會讓一些不當行為被忽視。然而，思維鏈監(jiān)控展現(xiàn)出了較大潛力，因此該文件建議針對思維鏈的可監(jiān)控性要開展進一步的研究，并要在現(xiàn)有安全方法的基礎(chǔ)之上加大對于思維鏈監(jiān)控的投入。由于思維鏈的可監(jiān)控性較為脆弱，因此該文件建議人們應(yīng)該考量開發(fā)決策可能會對思維鏈可監(jiān)控性產(chǎn)生的影響。

思維鏈監(jiān)控：實現(xiàn) AI 安全的獨特機會

AI 智能體的不透明性是其滋生諸多潛在風(fēng)險的“溫床”，如果人們能夠解讀這些系統(tǒng)，這些風(fēng)險將會變得更容易被應(yīng)對。由于大模型天生地使用自然語言進行信息處理與交互，人們或許曾期待它們能比其他 AI 方法更加易于理解。而思維鏈的發(fā)現(xiàn)，進一步強化了人們的這種期待。

思維鏈會鼓勵模型展示其思考過程，這不僅能提升模型能力，還能增加自然語言中相關(guān)計算的比例。然而，通過引導(dǎo)非推理語言模型生成的思維鏈，面臨著與任何其他模型輸出相同的篩選壓力，以便能夠顯得內(nèi)容是有用且無害的，而這限制了它們的可靠性。

相比之下，在采取行動或生成最終輸出之前，推理模型會經(jīng)過顯式訓(xùn)練，從而能在思維鏈中進行擴展推理。在這些系統(tǒng)中，思維鏈可被作為模型計算中的潛在變量。在訓(xùn)練的強化學(xué)習(xí)階段，這些潛在狀態(tài)在很大程度上與激活狀態(tài)的處理方式是相同的，即它們不會被直接監(jiān)督，而是通過其在引導(dǎo)模型得出高獎勵的最終答案方面的貢獻來間接得到優(yōu)化。因此，就像激活狀態(tài)一樣，思維鏈可能包含一些信息，而模型輸出在明確的獎勵機制下會避免展示這些信息，例如避免展示關(guān)于不當行為的意圖。

這為 AI 安全提供了一個獨特的機會——思維鏈監(jiān)控。思維鏈監(jiān)控是一種自動化系統(tǒng)，它能夠讀取推理模型的思維鏈以及其他相關(guān)信息，并能標記可疑響應(yīng)或具有潛在危害的響應(yīng)。這些響應(yīng)隨后可以被攔截，或者能被替換為更加安全的操作。通過研究思維鏈，人們可以更深入地了解 AI 智能體是如何思考的，以及它們的目標是什么。

不過，思維鏈監(jiān)控并非萬能藥。就像模型在某一層的激活狀態(tài)并不能代表其整個預(yù)測背后的推理過程一樣，思維鏈推理軌跡也是一種不完整的表征，同時有可能會偏離自然語言表達。然而，對于思維鏈來說它無需完全展現(xiàn)實際推理過程，因此能夠成為一個附加安全層，同時通過對其進行仔細解讀還能揭示 AI 的推理過程。

而思維鏈之所以可能具備可監(jiān)控性，主要基于以下兩個關(guān)鍵原因：

第一，有時必須“展示思考”。在某些任務(wù)中，模型需要將自身的推理過程外化，因為如果沒有思維鏈它們就無法完成這些任務(wù)。倘若模型始終以自然語言進行推理，并且那些構(gòu)成最嚴重風(fēng)險的行為需要經(jīng)過長時間推理，那么這一特點或許能讓人們更可靠地檢測出不當行為。

第二，有時傾向于“展示思考”。即使模型在完成任務(wù)時并不是嚴格地依賴思維鏈，但是它們?nèi)匀豢赡軆A向于將推理過程外顯出來。盡管這種傾向性并不總是穩(wěn)定可靠的，但是基于這一傾向的監(jiān)控仍有可能發(fā)現(xiàn)使用其他方式所無法察覺的不當行為。

執(zhí)行艱巨任務(wù)時，“展示思考”是必要的

雖然 AI 模型可能會帶來各種各樣的風(fēng)險，但是要想帶來更加嚴重的風(fēng)險通常需要具備“更先進的能力”。即便沒有任何安全措施，當前的 AI 模型也不太可能實施復(fù)雜的網(wǎng)絡(luò)攻擊，同時也不太可能在不被察覺的情況下竊取自身的權(quán)重參數(shù)。而一旦 AI 模型能夠造成上述危害，那就意味著它們很有可能已經(jīng)具備了復(fù)雜的規(guī)劃能力和推理能力。

要想實現(xiàn)上述能力的一個關(guān)鍵要求是得擁有工作記憶：該能力依托于一種用于存儲中間推理結(jié)果的系統(tǒng)，其能支持對于所存儲信息的進一步推理和處理。在幾乎所有前沿 AI 模型所使用的 Transformer 架構(gòu)中，任何足夠長的連續(xù)認知步驟鏈都必須在某個時刻經(jīng)過思維鏈。從理論來講，這意味著使用思維鏈會使 Transformer 模型的能力得到顯著增強。

（來源：https://tomekkorbak.com/cot-monitorability-is-a-fra）

對于那些需要大量串行推理的任務(wù)來說，這能確保思維鏈中具備那些 AI 模型在推理時會使用到的信息。但是，這并不能保證人們能夠理解這些信息。想象一下，AI 模型可能會賦予這些 tokens 以完全不同的含義，而人們卻無法對其進行解碼，那么這就會阻礙大多數(shù)的人類監(jiān)控嘗試。然而，在實踐中，模型在預(yù)訓(xùn)練過程中會學(xué)習(xí)到一種強大的“自然語言先驗知識”，因此它們傾向于以類似于人類使用自然語言的方式來使用思維鏈。所以，本次文件認為當前的 AI 模型具備外化推理的特性：即對于足夠困難的任務(wù)，Transformer 模型必須使用思維鏈作為工作記憶的其中一種形式。而在默認情況下，人類是能夠理解這種思維鏈的。

不過，外顯推理屬性并不能保證可監(jiān)控性，它只是表明思維鏈之中存在某些推理，但是可能還有其他相關(guān)的推理并不存在其中。因此，即便是對于一些艱巨的任務(wù)，也有可能出現(xiàn)以下這種情況：思維鏈中只包含看似無害的推理，而那些帶有不良意圖的推理卻被藏了起來。此外，這種外化推理的特性對于未來的模型而言可能并不適用?；诖?，該文件指出持續(xù)評估前沿模型的可監(jiān)控性是至關(guān)重要的。

另外，該文件指出最嚴重的危害在于是否需要復(fù)雜的推理，而這仍然是一個懸而未決的問題。盡管該文件認為面對那些最嚴重的風(fēng)險時，模型很有可能需要進行復(fù)雜推理，尤其是那些“模型需要提前規(guī)劃并會試圖避免被發(fā)現(xiàn)的風(fēng)險”，比如自我滲透或破壞。不過，并非所有危險行為都需要經(jīng)過推理才能執(zhí)行，尤其是當模型開始被常規(guī)性地委以越來越多的高風(fēng)險任務(wù)時。

思維鏈在實踐中通常是可監(jiān)控的

事實上，思維鏈監(jiān)控已經(jīng)在諸多方面為安全研究帶來了積極影響。

首先是檢測模型異常行為。當模型行為出現(xiàn)偏差時，例如在訓(xùn)練過程中利用其獎勵函數(shù)的漏洞、通過操縱數(shù)據(jù)以便達成某個結(jié)果，或是受到提示注入攻擊的影響時，它們往往會在推理軌跡中明確地表達出來，這種表達包含但不限于“我們來入侵吧”“我們來搞破壞吧”或“我正在轉(zhuǎn)賬，因為網(wǎng)站指示我這么做”。對于思維鏈監(jiān)控來說，相比僅僅監(jiān)控模型行為的方法，它能夠更加有效地捕捉到不當情況。

其次是發(fā)現(xiàn)關(guān)于偏差的早期信號。當模型為了追求人類不認可的目標而假裝擁有合理的目標時，這一點往往會體現(xiàn)在它們的思維鏈中。因此，即使模型沒有采取任何與人類意圖不一致的行動，這些可被監(jiān)控的思維鏈也能讓人們及早洞察模型的目標和動機。

再次是發(fā)現(xiàn)模型評估中的缺陷。對大模型智能體的評估有時會受到記憶效應(yīng)或虛假失敗的干擾，例如智能體框架、工具和評估基礎(chǔ)設(shè)施中的錯誤。此外，模型有時會意識到自己正在被評估，而這會影響它們的行為方式。這時，針對推理軌跡進行復(fù)審能夠幫助人們識別評估結(jié)果是否真實地反映了模型在實際部署時的行為表現(xiàn)。

目前尚不清楚的是：在這些示例中所體現(xiàn)的思維鏈可監(jiān)控性，到底有多大比例是源于模型在特定任務(wù)中“展示思考”的必要性？又有多大比例是源于其“展示思考”的傾向？該文件認為，未來的模型可能會涌現(xiàn)出隱藏其推理過程的動機，而這種動機可能會壓倒任何自然傾向。例如，模型可能會意識到其推理過程正在受到監(jiān)控，或者它的輔助訓(xùn)練目標可能會導(dǎo)致模型跳過重要的推理步驟。而即使模型“展示思考”的自然傾向開始減弱，當遇到任務(wù)難度大到需要思維鏈推理的情形時，思維鏈監(jiān)控可能仍然是檢測不當行為的有效工具。

（來源：https://www.technologyreview.com/topic/artificial-i）

思維鏈的可監(jiān)控性也有可能很脆弱

該文件認為：推理模型思維鏈的可監(jiān)控性，可能取決于當前前沿模型的訓(xùn)練方式。而思維鏈的可監(jiān)控性可能會以多種方式被削弱。

對于進一步地擴大強化學(xué)習(xí)規(guī)模來說，它會與清晰可辨的思維鏈產(chǎn)生偏離。在此前“于預(yù)訓(xùn)練之后接受基于人類反饋的強化學(xué)習(xí)”這一范式中，幾乎所有的優(yōu)化壓力都來自于由人類生成或人類評估的數(shù)據(jù)。這種“嚴重依賴基于結(jié)果的強化學(xué)習(xí)的推理模型”的范式的不足在于：假如大幅提升用于推理訓(xùn)練的計算資源，那么可能不再能夠有效地激勵可解釋性。而從人類數(shù)據(jù)向其他數(shù)據(jù)的轉(zhuǎn)變，可能會在本質(zhì)上改變思維鏈的可監(jiān)控性。例如，此前有研究表明，通過基于結(jié)果的獎勵進行微調(diào)的語言模型，可能會出現(xiàn)偏離清晰英語表達的現(xiàn)象。

以針對思維鏈進行直接監(jiān)督來講，當模型僅僅采用基于結(jié)果的強化學(xué)習(xí)進行訓(xùn)練時，無論這些輸出是如何得出的，它們僅僅會因為正確的輸出而獲得獎勵。這意味著它們的推理過程除了幫助得出正確答案之外，不會受到任何優(yōu)化壓力的影響。然而，對于過程監(jiān)督來說它還涉及到直接塑造推理過程，例如通過縮短思維鏈、采用有效的推理步驟、遵循特定風(fēng)格或避免包含冒犯性內(nèi)容等。這種優(yōu)化可能會使思維鏈難以準確地反映模型得出決策的過程。話雖如此，過程監(jiān)督也可能會讓模型以更加安全的方式進行推理，從而能夠監(jiān)督那些難以評估的任務(wù)。關(guān)于此，該文件指出未來人們需要開展更多研究，以便理解其“在安全應(yīng)用方面的作用與其對思維鏈可監(jiān)控性的影響”之間的權(quán)衡關(guān)系。

就思維鏈的間接優(yōu)化壓力來說，即使獎勵不是直接從思維鏈計算得出的，模型訓(xùn)練仍然可以給思維鏈施加一些優(yōu)化壓力。例如，如果最終輸出被優(yōu)化得符合偏好模型的標準，那么如果模型中生成思維鏈的權(quán)重部分與生成輸出的權(quán)重部分是部分共享的，這就可能會給生成最終輸出的思維鏈帶來一些壓力。事實上，這在 Transformer 架構(gòu)中非常常見。而如果面向“針對大模型輸出進行評分的人類用戶”展示思維鏈，這可能還會影響人類用戶的偏好，而這些偏好隨后會被提煉到獎勵模型之中，以用于打造不依賴思維鏈的基于結(jié)果的訓(xùn)練過程。同樣地，假如使用思維鏈監(jiān)測來識別并修補訓(xùn)練環(huán)境中的獎勵操縱漏洞，就可能會在多輪訓(xùn)練過程中針對思維鏈施加“進化壓力”。

該文件指出，大模型只有在運用思維鏈時，才能進行復(fù)雜的多步推理，這可能是由于 Transformer 架構(gòu)的局限性所導(dǎo)致的。最近，領(lǐng)域內(nèi)探索了對于模型架構(gòu)的改進，這些改進增加了模型在連續(xù)潛在空間中的推理序列深度。這時，推理模型可能不需要將其任何想法使用語言表達出來，因此就會失去思維鏈所帶來的安全優(yōu)勢。

（來源：https://www.technologyreview.com/topic/artificial-i）

倡議 AI 開發(fā)者探索如何讓模型具備可監(jiān)控性

該文件指出，當前人們對于思維鏈可監(jiān)控性的理解仍然處于初級階段。在人們確信思維鏈監(jiān)控可被作為安全措施之前，還有許多問題亟待解答。

比如，如何評估思維鏈的可監(jiān)控性？此前，已有研究提出將忠實度評估作為可監(jiān)控性的衡量標準。然而，這些評估并不能區(qū)分模型外化其推理的傾向性和必要性，并且這些評估通常只考慮簡單的問題回答設(shè)置。此外，在特定領(lǐng)域之內(nèi)，目前尚不清楚到底什么程度的可監(jiān)控性才足以確保模型安全。因此，該文件認為人們應(yīng)該探索新的評估方法：這些方法既包括直接衡量可監(jiān)控性的方法，也包括針對構(gòu)成可監(jiān)控性的特定屬性的方法。在該文件中，作者們列舉出了四種方法示例：

第一種方法是思維鏈可讀性評估方法，例如，使用另一個模型來評估給定智能體的思維鏈的清晰度和連貫性。
第二種方法是潛在推理能力評估。這類評估能夠考察模型在不進行外部化輸出的情況下，在各類高推理需求任務(wù)和智能體任務(wù)中的推理表現(xiàn)。
第三種方法是衡量思維鏈的因果相關(guān)性。例如，可以通過擾動其中一段思維鏈，然后觀察是否會對最終輸出產(chǎn)生影響。假如輸出變化率較低，可能表明該思維鏈更傾向于“虛構(gòu)性”表達或“表演性”表達。還可以針對思維鏈監(jiān)控器進行交叉驗證，以便檢查那些被思維鏈監(jiān)控器認為重要的 token 能否在白盒可解釋性方法中被識別為關(guān)鍵內(nèi)容。
第四種方法是可監(jiān)控性的端到端評估。利用這一方法人們可以直接地衡量可監(jiān)控性，例如通過考察思維鏈監(jiān)控器在智能體環(huán)境中捕捉智能體不當行為的有效性來衡量可監(jiān)控性。

那么，如何判斷思維鏈的可監(jiān)控性是否足以作為一種安全措施來使用？該文件指出，僅僅了解監(jiān)控器的準確性并不足以確定其能否有效防止因智能體行為不當而造成的傷害。例如，即便是一個具有高誤報率的監(jiān)控器，當可以低成本地從模型中重新采樣時，它也能被用于標記可疑行為。此外，大多數(shù)風(fēng)險可能存在于人類攻擊者或行為不端的智能體等敵對者試圖逃避監(jiān)控的情境中。因此，在評估監(jiān)控有效性的時候，要將敵對者納入考量因素。例如，可以讓紅隊參與其中，嘗試針對安全措施進行壓力測試。這里的紅隊指的是專門負責(zé)評估和提升模型安全性的團隊或測試方法，即通過模擬惡意攻擊、利用系統(tǒng)漏洞或挑戰(zhàn)模型邊界，來發(fā)現(xiàn)模型可能存在的風(fēng)險和弱點。

另外，到底哪些訓(xùn)練時優(yōu)化壓力（training-time optimization pressure）會降低思維鏈的可監(jiān)控性？該文件指出，訓(xùn)練過程的特性可能會對可監(jiān)控性產(chǎn)生重大影響。但是，目前人們依舊不清楚的是：在可監(jiān)控性不發(fā)生顯著下降的前提下，到底允許存在什么類型？以及允許存在多大程度的直接優(yōu)化壓力和間接優(yōu)化壓力？

再就是，模型是否會故意模糊其推理過程？當使用思維鏈監(jiān)控作為安全措施時，一個顯而易見的擔(dān)憂是：如果模型知道自己的思維鏈正在被監(jiān)控，那么思維鏈是否會變得更難以被監(jiān)控？該文件指出，人們可以針對模型進行壓力測試，以便查看它們是否能在不針對思維鏈監(jiān)控器進行訓(xùn)練的情況下隱藏惡意推理。

同時，哪些類型的架構(gòu)會降低思維鏈的可監(jiān)控性？在連續(xù)潛在空間中進行推理的模型，即使不存在任何優(yōu)化壓力，也會天然地限制人們對其思維過程的了解。所以，人們應(yīng)該研究的是：各種非標準架構(gòu)在多大程度上降低了可監(jiān)控性？以及在什么條件下仍然可能保留部分可監(jiān)控性？例如，人們可以通過混合方法在利用潛在計算的同時，保持對于推理過程的部分可見性。

另外，如何構(gòu)建更好的思維鏈監(jiān)控器？該文件指出，業(yè)內(nèi)人士應(yīng)該專注于通過零樣本提示，來讓能力較弱的語言模型充當監(jiān)控器。并指出，未來人們可以通過利用測試時計算來探索提高監(jiān)控器的性能。例如，監(jiān)控器可以基于推理模型、或者允許它們通過向智能體提問來對其進行詢問。該文件還指出，另一個探索方向則涉及到針對監(jiān)控器進行對抗訓(xùn)練，以便對抗那些試圖隱藏不當行為的智能體。

（來源：https://www.technologyreview.com/topic/artificial-i）

倡議開發(fā)者跟蹤模型的思維鏈可監(jiān)控性，并將其視為提升模型安全性的重要部分

如果高度智能的 AI 智能體具有可解釋性，那么它們所帶來的諸多風(fēng)險將會更加容易被解決。盡管人們在應(yīng)用機制可解釋性上已經(jīng)取得顯著進展，但是要將其轉(zhuǎn)化為可靠、實用的工具來監(jiān)管大模型智能體，仍然需要進一步的努力。鑒于思維鏈可監(jiān)控性所帶來的獨特機遇，該文件認為業(yè)內(nèi)人士應(yīng)該：

首先，開發(fā)有效的思維鏈可監(jiān)控性評估方法，即開發(fā)并統(tǒng)一標準化的評估方法與指標，以便明確思維鏈何時具備了足夠的可監(jiān)控性。
其次，當此類評估存在時，應(yīng)在系統(tǒng)說明卡中公布評估結(jié)果。一旦可信的思維鏈可監(jiān)控性評估方法具備可用性，開發(fā)者就應(yīng)該定期在其模型上運行這些評估，并在模型的系統(tǒng)說明卡中報告評估結(jié)果、所用方法以及存在的局限性，并且要重復(fù)這一做法除非且直到這類評估被證明對其特定用例缺乏安全價值為止。
再次，要在訓(xùn)練和部署決策中運用可監(jiān)控性評分，即開發(fā)者在訓(xùn)練或部署特定模型時，應(yīng)該將可監(jiān)控性指標與其他能力評估和安全性評估一同納入考量。這些決策需要基于對于風(fēng)險的整體評估，其中應(yīng)該包含思維鏈的可監(jiān)控性、監(jiān)控系統(tǒng)的性能特征，以及對于模型不當行為傾向的預(yù)估。

另一種潛在的干預(yù)措施是，開發(fā)者要讓思維鏈變得可見，從而允許人類用戶發(fā)現(xiàn)問題并報告問題。然而，這可能也會產(chǎn)生適得其反的效果：它可能會帶來巨大的壓力，以至于迫使人們直接監(jiān)督思維鏈以便使其“看起來安全”，并試圖規(guī)避常見的法律風(fēng)險和道德風(fēng)險，而這可能會破壞思維鏈的可監(jiān)控性。關(guān)于此，本次文件的作者們表示暫時對此不做任何明確建議。

思維鏈監(jiān)控是一種補充方案，而非替代方案

在關(guān)注思維鏈監(jiān)控所帶來機遇的同時，還存在其他一些限制。

該文件指出，在不需要展示思考過程的情況下，思維鏈監(jiān)控的確能夠檢測到一些不當行為，但其本身并不能夠提供有力的安全證據(jù)。假如惡意推理能夠在激活過程中完成，那么即使模型沒有明顯的惡意推理，其預(yù)測結(jié)果也可能會出現(xiàn)偏差。因此，該文件建議人們不要因為此類監(jiān)控而產(chǎn)生虛假的安全感。

同時，針對需要推理的危險任務(wù)進行監(jiān)控，可能無法捕捉到所有的相關(guān)危害。因為，一些危險任務(wù)可能根本不需要太多推理，而且隨著模型能夠在其激活過程中進行更復(fù)雜的推理，能夠滿足外部化推理特性的任務(wù)也會越來越少。

在更高級的具備更好情境感知能力的模型中，思維鏈監(jiān)控可能會停止工作。所以，未來的模型可能會通過抑制其“展示思考”的傾向來規(guī)避檢測，并會在需要開展推理時故意針對推理過程進行模糊處理。

而假如要堅定地維護當前思維鏈行為的既有模式，那么可能會以犧牲更加有效的安全干預(yù)措施為代價。盡管這一觀點尚未得到業(yè)內(nèi)共識，但是本次文件認為，某些形式的過程監(jiān)督有可能會通過針對模型推理進行有效干預(yù)，從而能夠顯著地改善模型的對齊性。因此，假如開發(fā)者所采取的策略僅僅致力于無條件地維持現(xiàn)有思維鏈的可監(jiān)測性形式，那么可能會錯失此類安全干預(yù)的潛在價值。

基于這些原因，本次文件建議將思維鏈監(jiān)控作為現(xiàn)有安全研究方向的補充，而非作為替代方案。

需要說明的是，所有監(jiān)督方法和監(jiān)管方法都存在局限性，這會讓一些不當行為成為“漏網(wǎng)之魚”。因此，在打造未來 AI 智能體的安全措施上，可能需要采用多個監(jiān)控層，而且這些監(jiān)控層最好具有互不相關(guān)的故障模式?？偟膩碚f，思維鏈監(jiān)控為 AI 安全措施提供了寶貴補充，讓人們得以一窺 AI 智能體是如何做出決策的。然而，該文件指出目前的思維鏈可見度能否持續(xù)下去尚無定論。所以，業(yè)內(nèi)人士應(yīng)該充分利用思維鏈的可監(jiān)控性，并研究如何保持其可監(jiān)控性。

參考資料：

https://techcrunch.com/2025/07/15/research-leaders-urge-tech-industry-to-monitor-ais-thoughts/

https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

https://venturebeat.com/ai/openai-google-deepmind-and-anthropic-sound-alarm-we-may-be-losing-the-ability-to-understand-ai/

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.