網易首頁 > 網易號 > 正文申請入駐

主動推理與認知控制

2025-05-28 19:48:20　來源: CreateAMind

上海舉報

分享至

Active Inference and Cognitive Control: Balancing Deliberation and Habits through Precision Optimization

主動推理與認知控制：通過精度優化平衡深思熟慮與習慣

https://osf.io/preprints/psyarxiv/m87wk_v5

摘要

我們在主動推理（active inference）框架內提出了一種關于認知控制的新穎理論。該理論認為，認知控制等同于優化一個精度參數（precision parameter），這個參數作為控制信號，平衡了在行動選擇中深思熟慮（deliberative）和習慣性（habitual）成分之間的貢獻。為了說明這一理論，我們模擬了一個駕駛場景：司機沿著一條熟悉的路線行駛，但遇到了意外的挑戰。我們的模擬顯示，標準的主動推理模型可以形成適應性的習慣；也就是說，在情境穩定時可以從深思熟慮的控制過渡到習慣性控制，但在情境發生變化時通常無法恢復到深思熟慮的控制。

為了解決這種情境敏感性的缺失，我們引入了一種新穎的分層主動推理模型，其中較低層級負責行為控制，而較高層級（或稱為元認知層級）觀察較低層級的信念更新過程，并負責認知控制。關鍵在于，元認知層級既可以形成習慣，也可以通過控制那個優先考慮行為層級上深思熟慮選擇的（精度）參數來暫停這些習慣。

此外，我們展示了與認知控制相關的若干過程——如驚奇檢測（surprise detection）、認知沖突監測（cognitive conflict monitoring）、控制信號的調節與設定、未來結果的模擬以及對控制與心理努力代價的評估——都可以一致地從支撐主動推理的自由能最小化機制中自然衍生出來。

最后，我們通過模擬多巴胺系統中的邊緣通路（mesolimbic）和皮質通路（mesocortical）、背側前扣帶皮層（dorsal anterior cingulate cortex）以及藍斑核（locus coeruleus）中的腦動力學，探討了認知控制可能的神經生物學基礎。

關鍵詞：認知控制；動作注意；主動推理；心理努力；多巴胺。

引言

人們普遍認為“熟能生巧”。從認知的角度來看，練習也意味著一個從費力的或受控的模式——在執行新任務或困難任務時的表現——逐漸過渡到在執行熟悉且簡單的任務時更為自動化的信息處理過程（Anderson, 1982; Shiffrin 和 Schneider, 1977）。例如，新手司機必須將大量的認知資源投入到駕駛的每一個方面，而經驗豐富的司機則往往可以輕松地駕駛，幾乎不需要“對動作本身加以注意”。

對這一現象的一個常見解釋是：熟練行為與新穎行為的控制關聯著兩種根本不同的大腦過程或控制器，它們被稱為自動 vs. 受控（或意向性）、習慣性 vs. 深思熟慮性、程序性 vs. 目標導向性的過程，或者系統1與系統2（Balleine 和 Dickinson, 1998; Daw 等, 2005; Kahneman, 2011; Norman 和 Shallice, 1986; Stanovich 和 West, 2000）。這種不同行動選擇機制（或控制器）之間的二分法，在低層次的運動控制過程和高層次的決策過程中都會反復出現（Milli 等, 2021）。因此，為了概括起見，下文中我們使用“動作”一詞來指代這兩個控制器所產生的行為結果，無論這些結果是身體運動、決策還是心理操作。

在習慣性或程序性控制中，任務的啟動和執行都不需要深思熟慮的注意力，而是基于聯想學習自動進行的，無需占用有限的認知資源，也不一定伴隨意識覺知（Kahneman 等, 1983; Posner, 1978; Shiffrin 和 Schneider, 1977）。這類控制適用于相對簡單或已經熟練掌握的認知和運動任務。習慣-程序性控制的兩個顯著特征是：動作的啟動可以直接由環境線索觸發，而動作的執行則可以調用預設的行為計劃，例如一系列動作序列（Anderson, 1982; Taatgen 和 Lee, 2003）或動作模塊（Dezfouli 和 Balleine, 2012; Rumiati 和 Tessari, 2002; Tessari 等, 2021, 2006）。這兩個因素的結合確保了任務通常能夠更快地完成（因為動作是自動回憶的），并且消耗較少的認知資源（因為主體只需監控預設計劃的最終結果，而不是每個具體的動作單元）。這正好對應于通常定義下的“習慣”——一種只需極少認知資源即可執行的熟練動作（Miller 等, 2018）。

然而，這些優勢是以靈活性為代價的：習慣性控制僅在情境可預測時適用，而在新的或意料之外的情況下可能會失?。∕oors 和 De Houwer, 2006; Schneider 和 Chein, 2003）。

另一方面，深思熟慮性或目標導向性控制涉及新動作計劃的形成、對其結果的在線監控，以及對抗不適應的習慣性反應和傾向的能力。所有這些都被認為是認知上具有挑戰性的任務，因此深思熟慮性控制通常與心理努力和注意力資源的調動（有時也包括意識加工）相關聯。與習慣性控制相反，深思熟慮性控制具有更高的靈活性，使人能夠更有效地應對復雜和不可預見的情況、新的依存關系（contingencies）以及波動性環境（Balleine 和 Dickinson, 1998）。

鑒于習慣-程序性與受控-深思熟慮性過程各有其優勢與局限，一個關鍵問題是：在行動選擇過程中，它們是如何被選擇和/或結合使用的？一些觀點假設這兩個獨立的行為控制器之間存在一種“競爭”或“仲裁”機制，其依據是它們各自的相對精度（precision）（Daw 等, 2005）。而較新的觀點則認為，不同的控制器也可以協同工作并共同作用，從而提供一系列連續的解決方案（Dorfman 和 Gershman, 2019；Lee 等, 2014；Pezzulo 等, 2013；Schw?bel 等, 2021），甚至可能是以層級方式組織的（Badre, 2008；Bénon 等, 2024；Dezfouli 等, 2014；Pezzulo 等, 2015）。

此外，人們越來越認識到，對習慣-程序性和受控-深思熟慮性過程的選擇或組合依賴于一種成本-收益計算機制，該機制決定是否以及在多大程度上啟用代價較高的（受控-深思熟慮性）過程，通過權衡使用這類過程的實際效益與其相關的認知努力來做出決策（Daw 等, 2011；Dolan 和 Dayan, 2013；Maisto 等, 2019；Pezzulo 等, 2013）。對這一成本-收益機制的早期嘗試性描述是由 Norman 和 Shallice（1986）提出的“動作注意”模型所提供的。

根據該模型，有兩種過程互補地運作以選擇和控制行為（盡管在某些條件下它們的協同作用可能會被打斷）。第一種是競爭調度機制（contention scheduling），它在可能的動作圖式（action schemas）之間進行選擇——用現代術語來說，這可以被稱為一種策略選擇機制（policy selection mechanism），即在不同策略或動作序列之間進行選擇（Friston 等, 2017；McClelland & Rumelhart, 1981；Parr 等, 2022；Rumelhart & Norman, 1982；Sutton & Barto, 1998）。

第二種是監督性注意系統（supervisory attentional system），它通過對某個動作圖式的額外激活（或抑制），在動作圖式的選擇中施加控制，從而影響競爭調度機制中的選擇。因此，第二種機制通過調用注意力來提供一定的認知控制，而這種注意力需要認知努力，尤其是在要選擇的圖式較為陌生的情況下（Cooper 和 Shallice, 2000；Shallice 和 Burgess, 1993）。

一種更為近期、具有神經生物學基礎的認知控制與認知努力分配理論，是 Shenhav 等人（2013）提出的控制預期價值（Expected Value of Control, EVC）。該理論提出，控制資源的分配基于對通過啟用受控過程所獲得的收益與為實現該收益所需付出的認知努力成本之間的成本-收益評估。

該理論識別了認知控制的三個關鍵過程：

第一，調節過程（regulation process），描述了一個控制系統影響低層級信息處理機制的能力。調節是通過一個控制信號來實現的，這個信號會改變低層級機制的參數和運作方式，并具有兩個基本特征：身份（identity）和強度（intensity）。

身份
指定了目標是哪些低層級參數，或哪些行為被增強、哪些被抑制；
強度
則表示信號的強弱，例如低層級參數偏離其默認值的程度。

第二，設定過程（specification process），負責決定是否執行一個受控過程，并在需要時實際選擇最合適的控制信號，即指定應啟動哪個可能的動作計劃以及應以多大的強度（例如準確度）去執行它。

第三，監控過程（monitoring process），確保認知系統擁有進行信號設定所需的必要信息，包括關于當前情境的信息，以及當前行為是否正在朝著目標推進。

大量研究表明，監控過程可以考慮多種信息來源，例如反應沖突、反應延遲、錯誤、貝葉斯驚奇（Bayesian surprise）和負面反饋等，這些都可能表明需要啟動認知控制（Badre 和 Wagner, 2004；Botvinick, 2007；Botvinick 等, 2001；Koechlin 等, 2003；Koechlin 和 Summerfield, 2007；Laming, 1968；Rabbitt, 1966；Shenhav 等, 2013）。

在神經層面，EVC 理論認為背側前扣帶皮層（dorsal anterior cingulate cortex, dACC）參與了監控與設定過程，而外側前額葉皮層（lateral prefrontal cortex, lPFC）參與調節過程。其他多種理論也將 dACC 視為執行監控的關鍵腦區，通過計算預期結果與實際行為結果之間比較所產生的預測誤差信號來發揮作用（Alexander 和 Brown, 2011；Silvetti 等, 2011；Vassena 等, 2020）。

在本文中，我們提出了一種新穎的認知控制理論表述，這一理論在概念上與之前的“動作注意”模型（Norman 和 Shallice, 1986）、“控制預期價值”理論（Shenhav 等, 2013）以及“績效監控”理論（Alexander 和 Brown, 2011）相關聯，但我們將其底層的成本-收益優化問題重新表述為貝葉斯最優（Bayes optimal）的主動推理（active inference）和自由能最小化（free energy minimization）問題。

我們借鑒了 Parr 等人（2023）先前將認知努力定義為“執行一個偏離先驗習慣的行為所帶來的主觀體驗”的主動推理框架，并將其擴展到一個多主體分層——或稱為元認知控制——的情境中。在這一新表述中，一個更高層級的控制（即元認知層級）優化低層級（即行為層級）的參數，從而為認知控制的核心問題提供了一個最優解：在最低的計算成本下確保準確的動作選擇（Botvinick 等, 2019；Doya, 2002；Kool 等, 2010；Pezzulo 等, 2015, 2018a；Silvetti 等, 2018）。

除了具有規范性優勢外，我們的提議還調和了兩個原本各自獨立的研究方向：一個關注認知控制中的獎賞相關因素（Shenhav 等, 2013），另一個則聚焦于其認識論層面（epistemic aspects），例如環境的不確定性與模糊性（Behrens 等, 2007）以及貝葉斯驚奇（Bayesian surprise）（Vassena 等, 2020）。正如我們將在后文討論的那樣，主動推理中用于動作選擇的預期自由能（expected free energy）同時考慮了實用性的需求（目標或獎勵的實現）與認識論的需求（不確定性的最小化），從而解釋了認知控制的兩個方面。

最后，將自由能最小化表述為梯度下降過程，使我們能夠在多個層面上模擬神經元動力學。在本文中，我們重點關注背側前扣帶皮層（dACC）、藍斑核（locus coeruleus）以及多巴胺系統中的神經元反應，并展示了它們與已知的認知控制神經生理學特征之間的顯著對應關系。

接下來，我們將簡要介紹主動推理（active inference）的基本框架。隨后，我們描述了三個駕駛任務的模擬實驗，分別展示了：沒有認知控制的主動推理智能體的行為表現（模擬 1），具有僅考慮控制信號設定的簡單認知控制的智能體（模擬 2），以及更復雜的（元）認知控制模型，它還包括是否啟用深思熟慮和認知控制的決策機制（模擬 3）。

最后，我們將討論我們的理論如何解釋認知控制豐富的現象學特征及其背后的神經生物學機制。

主動推理簡要概述

主動推理（Active inference）是一種規范性框架，它通過變分自由能最小化（variational free energy minimization）這一總體原則來描述認知與大腦功能（Friston, 2010；Parr 等, 2022；Pezzulo 等, 2024）。其基本前提是：任何有機體都具備一個關于其所處環境統計規律的（生成性）模型，并利用這個“世界模型”來推斷其感覺輸入的原因（即感知），以及實現偏好結果的最佳行為路徑（即行動規劃）。

感知與規劃都源于對一個函數——變分自由能（variational free energy）——的最小化過程。該函數限制了有機體所經歷的感覺驚奇（sensory surprise），或者從統計學角度來看，是其世界模型的證據（亦稱邊緣似然，marginal likelihood）（Friston, 2010）。在計算層面，自由能最小化對應于一種近似（變分）貝葉斯推斷過程；而在神經元層面，它可以與編碼預測和預測誤差的神經元群體的動力學相關聯。

在模擬主動推理時，可以為每一個允許的策略（policy）或動作序列（π）計算其變分自由能（F），該自由能由兩個部分組成：

在公式1中，右邊的第一個量是一個復雜度項（complexity term），它衡量的是一個后驗信念（關于狀態的輔助分布，稱為變分密度 Q(s∣π)）與關于世界（隱藏或潛在）狀態的先驗信念（稱為先驗密度 P(s∣π)）之間的Kullback-Leibler 散度（KL 散度）。
第二個量是準確性項（accuracy），它衡量的是在給定對不可觀測狀態的信念下，觀察結果的概率的期望值（即 lnP(o∣s)）。

在主動推理中，輔助分布 Q 對應于大腦根據感官證據對隱藏狀態所形成的內部概率信念。這個分布不是任意的，而是通過貝葉斯更新產生的，其目的是最小化自由能，從而在準確性（使信念與感官數據一致）和復雜性（保持先驗預期）之間取得平衡。

這兩個部分共同確保智能體持續進行行動-感知循環：一方面通過更新其（后驗）信念以更好地擬合觀察數據，另一方面選擇能夠實現這些后驗信念所預測的行為路徑。這意味著感知與行動都服從同一個目標——自由能最小化。

主動推理還將規劃（planning）——即策略或動作序列（π）的選擇——視為一種推理形式（即“作為推理的規劃”，planning as inference）。然而，規劃需要引入一個額外的過程，即預期自由能（expected free energy）的最小化。這個過程不僅考慮當前和過去的信息（如變分自由能最小化那樣），還要考慮未來可能的觀察結果。智能體可以通過其生成模型進行“假設性”模擬（what-if simulations）來預測這些未來的觀察結果。

因此，規劃對應于生成各種可能的未來（每個策略 π 對應一個未來），然后根據預期自由能對每個策略進行評分，并選擇那個預計能最小化未來自由能的策略。

與每個策略 π 相關聯的預期自由能（G）考慮了智能體的先驗偏好（即外在或實用價值）以及關于世界狀態的預期信息增益（即內在或認識論價值）。這兩個項可以重新表述為風險（risk）和模糊性（ambiguity）：

風險
是指在某個策略下預期結果的分布 Q(o∣π) 與理想結果分布 P(o) 之間的 KL 散度；
模糊性
是指在給定模型似然 P(o∣s) 的情況下，關于結果的預期不確定性（即條件熵 H ）。

預期自由能的這兩個組成部分確保了計劃能夠在利用（exploitation，即追求偏好）與探索（exploration，即尋求信息）之間進行適應性的平衡。

總之，在主動推理框架中，行動-感知循環和規劃過程分別通過變分自由能和預期自由能的最小化來實現（Parr 等, 2022）。這些計算具有通用性，也就是說它們適用于任何主動推理智能體。然而，每一個主動推理智能體都可以配備一個（任務特定的）生成模型，因此可以表現出不同的行為。

在下文中，我們介紹了三個面對駕駛任務的主動推理智能體：

第一個使用的是沒有認知控制機制的生成模型（模擬1），
第二個使用的是簡單元認知控制模型（模擬2），
第三個使用的是完整的元認知控制模型（模擬3）。

模擬 1：在沒有認知控制的情況下，主動推理在駕駛任務中的表現模擬場景：駕駛任務

我們模擬了一位司機，她的目標是安全地從家駕車前往辦公室。該駕駛任務包含32 個試次（見圖1A）。在每一次試次中，智能體會從環境中接收到一個感官線索，并從中選擇兩個可能的策略之一：她可以選擇在道路的右側車道行駛，也可以選擇在左側車道行駛。

在我們的模擬初期，并沒有危險存在，因此司機可以安全地按照“靠右行駛”的策略在通常（右側）車道行駛，這一行為會逐漸變得習慣化。

然而，在某個時刻，司機會檢測到危險（例如，右側車道發生落石或有石塊堆積），為了避免碰撞，司機需要選擇另一個策略——切換到左側車道行駛，以進入不常見的（左側）車道。

這個任務以簡單的方式展示了在經典的認知控制任務（如 Stroop 任務、Posner 任務和 Eriksen 任務）以及切換任務（switching tasks）中所要求的認知靈活性（MacLeod, 1991；Nee 等, 2007；Kiesel 等, 2010；Monsell, 2003；Rubinstein 等, 2001）。

該駕駛場景展示了在動作選擇中習慣性與深思熟慮性成分之間權衡的兩種情境：

在穩定和安全的情境下，從深思熟慮控制過渡到習慣性控制（即習慣形成）；
在新的和危險的情境下，從習慣性控制重新回到深思熟慮控制（即習慣抑制）。

正如我們將看到的那樣，標準的主動推理方法能夠很好地處理第一種情況，但對于第二種情況則往往無法勝任，或至少并不總是有效。

駕駛任務的生成模型

用于解決駕駛任務的生成模型如圖 1B 所示。它采用了部分可觀測馬爾可夫決策過程（Partially Observable Markov Decision Process, POMDP）的形式：

節點S表示隱藏狀態（即信念，或對不可觀測任務變量的概率分布；這些變量智能體無法直接看到，但可以根據觀察結果進行推斷，例如司機的位置和是否存在危險）；
節點O表示觀察結果（可觀測的刺激，智能體通過它們來推斷隱藏狀態）；
節點π表示關于策略（或動作序列）的信念；
邊表示狀態變量之間的概率關系（邊上的字母 A、B、C、D、E 表示變量之間的概率映射）。

為了簡化起見，我們假設智能體的生成模型（如圖 1B 所示）忠實地代表了駕駛任務中的“真實”變量及其統計關系。

A 矩陣
表示狀態與觀察結果之間的（似然）映射；
B 矩陣
（轉移先驗）表示從一個狀態轉移到另一個狀態的概率；
C 矩陣
編碼關于觀察結果的先驗信念，在主動推理中反映了先驗偏好；
D 向量
編碼關于初始隱藏狀態的先驗；
E 向量
編碼關于策略的先驗；
G
表示預期自由能；
最后，γ（及其先驗值 β?）是一個與預期自由能相關的精度參數，它在這個設定中起著重要作用，因為它代表了認知控制信號（以及多巴胺活動）。

請注意，變分自由能 F是隱含的——它在推理過程中支撐狀態估計；而預期自由能 G則明確地支撐動作選擇。

有關模型變量的更詳細描述，請參見表 1。

如圖1所示，該生成模型包含2個隱藏狀態因子（S）和3種觀察模態（O）。

隱藏狀態因子包括智能體無法控制的情境因素——“安全”與“危險”，分別對應道路上是否存在危險物（例如石塊）；以及一個可控因子——所謂可控因子，是指智能體在每次試次中可以決定轉移到哪個狀態：“靠右行駛”是當智能體選擇在右側車道行駛時所處的狀態，“靠左行駛”是當智能體選擇在左側車道行駛時所處的狀態。

此外，可控的隱藏狀態還包括1個輔助性的初始狀態（start），表示智能體在做出決策之前的起始狀態。

觀察結果包含3種視覺觀察模態：

第一種模態表示右側車道是否暢通或有石塊堆積，分別表示當前情境為“安全”或“危險”；
第二種模態表示三個選項：“開始”、“靠左行駛”和“靠右行駛”，分別表示智能體處于“起始狀態”、“靠左行駛”或“靠右行駛”的狀態；
第三種觀察模態包括兩種行為結果：“OK”（正向結果）和“KO”（負向結果），它們取決于具體的情境與可控狀態的組合。

智能體會在以下兩種情況下觀察到“OK”結果：

當情境是“安全”且智能體處于“靠右行駛”狀態；
當情境是“危險”且智能體處于“靠左行駛”狀態。

而在另外兩種情況下會觀察到“KO”結果：

當情境是“安全”但智能體處于“靠左行駛”狀態；
當情境是“危險”但智能體仍處于“靠右行駛”狀態。

這反映了這樣一個事實：在沒有危險的情況下，靠右行駛是最優選擇；而當右側車道出現危險（如落石）時，切換到左側車道才是更優的選擇。更正式地說，這意味著在 C 矩陣中，智能體對“OK”觀察結果的先驗偏好高于“KO”。

最后，為了簡化起見，該生成模型僅包含兩個策略（π）：靠右行駛和靠左行駛，每個策略只包含一個動作（而不是像主動推理中常見的那樣由一系列動作組成）。因此，在本文中我們將“策略”和“動作”這兩個術語視為可互換使用。

每一次試次被劃分為兩個時間步（timesteps）：

在第一個時間步，司機從“起始狀態”出發，并根據接收到的感官線索（右側車道是否有石塊或暢通）來推斷當前情境（危險或安全）；
在這個時間點，司機選擇其中一個策略（靠右或靠左行駛），并轉移到相應的可控狀態（靠右或靠左行駛）；
在第二個時間步，司機接收感官觀察結果（靠右或靠左行駛；OK 或 KO），這些結果取決于她當前所處的情境與可控狀態；
然后進入下一個試次。

策略選擇的過程將在下文詳細描述。你可以將這一過程想象為一種周期性重復的決策過程：在固定的時間間隔內決定繼續留在右側還是切換到左側，或者決定切換到左側還是繼續留在右側。

駕駛任務中的策略選擇

在每一次試次中，司機在兩個策略之間做出選擇——“靠右行駛”和“靠左行駛”——這一決策取決于：

動作的深思熟慮成分
（G），
動作的習慣性成分
（E），
以及由參數γ所決定的這兩部分之間的平衡。

動作的深思熟慮成分（G）對應于對兩個策略“靠右行駛”和“靠左行駛”的在線質量評估，這種評估是通過它們的預期自由能（expected free energy）來實現的。如公式2所示，預期自由能（G）考慮了這兩個策略在多大程度上實現了理想的結果（這些結果以結果上的先驗概率編碼，即矩陣 C），以及它們在多大程度上解決了關于隱藏狀態的不確定性。

動作的習慣性成分（E）則對應于一個關于策略的先驗信念。這個先驗是隨著時間推移，通過積累策略出現的統計數據（通過底層的 Dirichlet 參數 e）而逐漸學習得到的。換句話說，智能體會根據自身過去的行為方式逐步形成習慣性的先驗信念。關鍵在于，在模擬開始時，先驗 E 會偏向于那個最常見的策略——“靠右行駛”。

γ 參數是對預期自由能（G）信念的精度估計。它代表了對動作選擇中“深思熟慮成分”（G）的信任程度，并決定了其在動作選擇過程中的權重：G 的精度 γ 越高，意味著深思熟慮控制在與習慣性控制（E）的競爭中所占的比重越大。

這些成分的相對貢獻，通過一個歸一化指數函數（softmax 函數）被轉化為一個關于策略的（先驗）概率分布，如公式3所示：

接著，通過對變分自由能 F=F(π) 進行評分，來收集關于當前觀察結果的證據。由于自由能是基于策略的，這實際上是在評估智能體正在執行某一特定策略的證據強弱。這一證據隨后被納入方程中，用于計算策略的后驗概率分布：

然后，精度參數 γ會被優化，以最小化自由能。所需的信念更新可以通過一個預測誤差來表示；具體來說，就是G 的先驗期望與后驗期望之間的差異。

最后，根據計算出的γ 參數來計算關于策略 π 的后驗分布。從這個分布中選擇最有可能的策略（“靠右行駛”或“靠左行駛”）并執行，智能體隨之轉移到兩個可控狀態之一（“靠右行駛”或“靠左行駛”），并觀察到動作結果（“OK”或“KO”）。

接著，基于新的觀察結果，重新計算關于策略的新先驗 π?、策略的后驗 π 以及 γ 參數，隨后開始新的試次。

重要的是，在任意一次試次 t 中通過公式5計算出的β_updated項，會被用作下一個試次 t+1 中的新的 β? 值。

此處的精度更新與其他主動推理方案相比略有不同，在其他方案中，這種更新通常只用于多步驟策略——即隨著我們持續執行某一策略，對其的信心會逐步增強。然而，這一更新也可以簡單地被解釋為：這里的精度代表了我們對“有能力選擇一個好的策略”的信心，而不是對我們“具體選擇了哪一個策略”的信心。因此，這種信心可以在多個試次之間延續，即使在這些試次中可能對相同的動作選擇做出非常不同的推理。

如公式5所示，γ 的優化依賴于策略的先驗與后驗之間的差異，而這一差異又取決于自由能 F 的值，從而反映了智能體當前對世界狀態的信念。

總體而言，精度 γ 反映了智能體對自己所選策略是否能夠實現理想結果（OK）的信心。因此，當觀察結果是 OK 時，γ 增加；而當觀察結果是 KO 時，γ 減少。

這種更新的一個后果是：在一次不良結果（KO）之后，γ 精度下降，隨著時間推移，動作中的習慣性成分相較于深思熟慮性成分變得更加突出，正如下文模擬中所展示的那樣。

模擬 1 的結果

在此部分，我們基于上述生成模型對駕駛場景進行了模擬。模擬結果如圖2所示。

在前18個試次中，司機選擇了“靠右行駛”的策略，并在每次試次中都實現了理想的結果“OK”（見圖2A）。在這段時間內，深思熟慮控制器 G 和習慣性控制器 E 都賦予“靠右行駛”非常高的概率（參見圖2F中表示高概率的深色區域），兩者之間沒有沖突（見圖2D）。

隨著時間推移，習慣性成分 E 變得越來越強、越來越自動化——即形成了習慣（habitisation）（見圖2F）。值得注意的是，由于我們為了圖示目的使用了較強的先驗信念和較高的學習率，因此習慣形成的模式顯得相當迅速。然而，在現實情境中可以設想每個試次可能對應（例如）半小時的駕駛時間，這樣習慣形成就會是一個緩慢的過程，正如實證研究所觀察到的那樣（MacLeod 和 Dunbar, 1988）。

在第19個試次中，司機檢測到了危險：右側車道出現了石塊。通過觀察到“右側車道有石塊”的信息，智能體正確地推斷出情境已從“安全”轉變為“危險”。因此，深思熟慮控制器 G 將更高的概率賦予“靠左行駛”的策略。然而，習慣性控制器 E 仍賦予“靠右行駛”最高的概率，因為這是之前執行次數最多的策略。

由于習慣性成分的影響力更強（即 pγG(π)

如后文所述，這一結果進一步降低了精度參數 γ（見圖2C），從而形成了一個惡性循環，使行為變得更加習慣化。這正說明了一種情況：即使目標導向的行為已經識別出了正確的任務反應，它也無法覆蓋強大的習慣。

圖2B顯示了智能體在駕駛任務中所記錄到的貝葉斯驚奇（Bayesian surprise）。貝葉斯驚奇衡量的是在觀察結果前后，關于狀態的概率信念所發生的變化。形式上，它被定義為在同一個試次內連續兩個時間步之間，關于隱藏狀態的概率分布之間的Kullback-Leibler 散度（KL 散度）：

圖2C展示了精度（precision）的變化情況。隨著智能體對實現預期結果（OK）的信心不斷增強，精度也隨之上升；而當當前觀察結果與預期不符時（即預測為 OK 但實際觀察到 KO），精度則會下降。

圖2D展示了主動推理智能體在駕駛任務中所經歷的認知沖突程度。在這里，認知沖突被定義為在深思熟慮控制下與習慣性控制下關于應采取策略的信念之間的KL 散度（Kullback-Leibler divergence）：

在這個表述中，當深思熟慮控制器和習慣性控制器優先選擇相同的策略時，就不存在認知沖突；而當它們優先選擇不同的策略時，認知沖突可能很高。在我們的模擬中，在第18個試次之后我們觀察到了高度的認知沖突：此時深思熟慮控制器傾向于“靠左行駛”，而習慣性控制器仍傾向于“靠右行駛”。

請注意，認知沖突與認知成本這兩個概念之間存在嚴格的關聯。直觀上，習慣可以被視為一種“默認策略”或關于如何行動的初始偏向。這意味著，認知沖突項反映了智能體的深思熟慮模型與其初始偏向之間的偏離程度，或者可視為一種復雜度成本（Rubin 等, 2012；Todorov, 2009；Zénon 等, 2019）。相反，如果所選擇的深思熟慮策略與習慣性策略一致，則不會產生沖突，這反映了這樣一個假設：決策者本質上傾向于低努力的選項（Botvinick 等, 2009；Jimura 等, 2010；Kool 等, 2010；Kool & Botvinick, 2014）。

圖2E展示了模擬的多巴胺能活動，它來自中腦邊緣通路（mesolimbic pathway），起源于腹側被蓋區（VTA），投射到邊緣系統，特別是伏隔核（nucleus accumbens）、杏仁核（amygdala）和海馬（hippocampus），這些區域與獎賞刺激的加工以及愉悅體驗相關。在此框架下，模擬的多巴胺能活動與每次觀察后對精度 γ 的正向（或負向）更新相關聯，這一更新指標反映了每一次觀察結果在多大程度上增強了（或削弱了）智能體對其所執行策略的信心（Friston 等, 2014；Langdon 等, 2018；Schwartenbeck, FitzGerald, Mathys, Dolan, & Friston, 2015）。

根據主動推理的神經實現方式（Friston 等, 2017），我們通過考慮在每個試次第二時間步更新過程中（此處為16次迭代）精度的變化率來模擬神經元的脈沖發放（spikes）。

在此模型中，Δδ 表示由精度更新所調節的多巴胺信號變化。具體來說：

δ 表示多巴胺信號；
是精度 γ 隨更新迭代次數的變化率（導數）。

因此，階段性多巴胺反應反映了策略精度的變化率，而這一變化取決于預測或期望結果與實際觀察結果之間的一致性。

在我們的模擬中，第18個試次之后出現的負向脈沖反映了這樣一個事實：在觀察到負向結果 KO 后，精度參數 γ 的值下降，智能體對其“靠左行駛”這一行為路徑的信心也隨之喪失。

圖2F展示了在整個任務過程中，深思熟慮控制器 pG(π)、習慣性控制器 pE(π) 以及綜合控制器（結合了精度權重）分別賦予兩個策略——“靠右行駛”（第一行）和“靠左行駛”（第二行）——的概率。顏色越深表示概率越高。

該圖顯示，在第19個試次情境從“安全”轉變為“危險”時，深思熟慮控制器的偏好從“靠右行駛”轉移到了“靠左行駛”；而隨著試次推進，當智能體形成習慣后，其偏好保持不變。

在這個模擬中，我們假設習慣性成分更強（即 pγG(π)適應不良的選擇（maladaptive choice）。

請注意，這個模擬展示的是一個強習慣的情況，如果習慣性成分較弱（即 pγG(π)>pE(π)），模擬結果將會不同。

模擬 1 的總結

總之，這個模擬展示了一個主動推理智能體如何正確地強化習慣（靠右行駛），但在必要時卻無法覆蓋根深蒂固的習慣。在這種被稱為“默認反應抑制”（default override）的條件下（Botvinick 等, 2001, 2004），深思熟慮成分（G）能夠正確識別任務需要抑制一個與任務不相符的反應（Silton 等, 2010），但由于習慣性反應過于強烈并“贏得”了競爭，最終未能實現抑制。

換句話說，智能體陷入了習慣性行為模式中。這種情況在許多情境下都很常見，例如在運動控制任務中。例如，對一名飛行員來說，駕駛汽車是一個高度熟練的程序性任務，主要依賴強烈的習慣性控制。當任務中引入干擾（例如方向盤轉向方向被反轉：向右轉方向盤時車輛卻向左轉），習慣性控制會強烈主導行為，即使已經理解了新的任務規則，也可能導致錯誤反應（Izawa 等, 2008；Wei 和 K?rding, 2009）。

然而，在大多數日常情境中，個體可以通過啟用認知控制來覆蓋習慣，即使這些習慣已經非常牢固（Cavanagh 等, 2013；De Martino 等, 2006；Paus 等, 1993；Shenhav 等, 2013）。相比之下，模擬1中使用的模型只能覆蓋較弱的習慣。

模擬1中的模型陷入習慣行為的關鍵原因在于——在表現不佳之后——精度參數 γ 下降，從而減少了受控加工（controlled processing）。從計算角度來說，這種現象是在優化 γ 的過程中出現的，如公式5所述。由于我們為習慣 E 設置了一個較強的先驗信念，自由能最小化過程導致了深思熟慮控制的減少。

這一機制可以解釋這樣一些情況：環境反饋不足以削弱某個習慣的價值。在諸如情緒調節和自我控制等領域的實證研究中，也可以發現這種“惡性循環”動態的例子。例如在人類身上，面對壓力情境（如負面結果）時產生的自動或習慣性焦慮反應可能會阻礙深思熟慮，形成一種自我強化的循環，正如焦慮障礙患者所表現出的那樣。類似的情況也出現在成癮行為中，試圖抵抗成癮行為的失敗往往會導致復發，從而進一步強化習慣（Heatherton 和 Wagner, 2011；Hofmann 等, 2012；Smith 等, 2020）。

這些內部沖突、惡性循環以及自我控制的失效，都可以通過貝葉斯視角很好地解釋，因為它們可能是有限最優性（bounded optimality）的結果（Hayden, 2018）。然而，在許多認知控制的情境中，實證研究表明（Gratton 等, 1992；Laming, 1968），以及理論模型也指出（Botvinick 等, 2001；Shenhav 等, 2013），錯誤通常會增強而非削弱認知控制。

在下一個模擬中，我們將擴展當前使用的模型，加入一個元認知控制機制，以解決上述問題，并在必要時自適應地調節精度參數 γ 來啟動認知控制。

模擬 2：具有簡單元認知控制的主動推理

在這里，我們在圖1B所示的主動推理生成模型基礎上，增加了一個用于（簡單）元認知控制層級的回路，見圖3。這一新增組件被稱為元認知控制，因為它調節了模擬1中所討論的行為層級控制器的一個參數：精度 γ 參數，通過設定其先驗值 β?，來平衡動作選擇中習慣性與深思熟慮成分之間的關系。

在元認知控制組件中，參數γ’（其先驗期望為 1/β?’）類似于參數γ（其先驗期望為 1/β?）：它構成了對目標導向控制器 G 的預期自由能信念的精度估計。這個新的預期（以粗體表示）精度參數γ’起到了控制信號的作用（Shenhav 等, 2013），也代表了注意力資源（Cooper 和 Shallice, 2000；Shallice 和 Burgess, 1993）。它的主要作用是在適當的時候優先考慮動作選擇中的深思熟慮成分。

如模擬1所示，當存在認知沖突時，只有當γ 的值或G 的值足夠大、能夠克服E時，才會啟用深思熟慮策略；即只有當 pγG(π)>pE(π) 時才發生。這意味著，通過提高深思熟慮策略 G 的精度 γ，就有可能克服一個強大的習慣。

然而，正如模擬1所展示的那樣，在出現不利觀察結果（KO）時，精度 γ 往往下降而非上升。這是因為 γ 的更新機制考慮了先驗 π0 與后驗 π 之間的差異，而這一差異又依賴于當前的觀察結果（通過自由能 F 來體現）。這種機制在潛在威脅存在時優先啟用（快速的）習慣反應（LeDoux 和 Daw, 2018），但它缺乏靈活性。

我們提出的認知控制模型克服了這一局限性。在我們的理論中，認知控制位于大腦控制層級中的一個較高（或稱為“元”）層級（Pezzulo 等, 2018b），其關鍵功能之一是在必要時指定一個控制信號，以優先啟用深思熟慮性控制。

具體而言，認知控制通過調用對未來情境的模擬（prospection），考慮在執行深思熟慮策略 G 后可能獲得的假設性未來觀察結果（即 OK 結果），從而提高精度 γ。已有大量證據表明，想象未來的事件可以使行為更具深思熟慮性，減輕在延遲折扣實驗中觀察到的獎勵折扣現象（Peters 和 Büchel, 2010），并減少沖動性（Daniel 等, 2013）。與此一致，我們假設：在深思熟慮策略 G 下模擬未來積極結果會產生一種樂觀偏差（optimism bias），從而增強對深思熟慮策略的信任。

控制信號的設定對應于引入一個新的精度項，稱為γ’，它設定了通常精度項γ的先驗值 β?，并根據公式4決定下一個試次中的策略選擇。

關鍵在于，當深思熟慮策略所預期的結果是理想結果（OK）時，γ 的先驗值將通過 γ’ 的更新而提高，從而優先選擇深思熟慮策略。

γ’ 的更新公式如下：

γ’ 參數的更新方程與公式5中的方程相似，但有兩個主要區別：

關于策略的先驗和后驗信念中不再包含習慣性控制項 E 的影響
F’ 不是通常意義上的變分自由能 F
（它是基于實際觀察結果計算的），而是基于通過“前瞻性模擬”（prospection）所獲得的假設性觀察結果來計算的自由能。

例如，在我們的駕駛任務中，每當一個試次結束且情境為“危險”時，司機可以通過調用 G 組件（即深思熟慮控制器）來生成一個假設性的“OK”觀察結果，就好像它選擇了“靠左行駛”的策略一樣。這種“前瞻性模擬”形式通過模擬當前試次的過程（從起始狀態轉移到“靠左行駛”或“靠右行駛”狀態），在不考慮習慣項 E 的前提下，引導出假設性觀察結果。

然后，認知控制信號是通過對 γ’ 進行四輪優化而獲得的，這些優化基于上述模擬結果。這種方法的效果是將 γ’ 提高到一個足以使行為更具深思熟慮性的水平。

請注意，標準的主動推理框架中設置精度的方式（見公式5）是回顧性的（retrospective）——即它依賴于 E 和 F（實際觀察）。而我們提出的新方法（見公式8）則是前瞻性的（prospective），它依賴于執行深思熟慮策略時預期會產生的未來（假設性）觀察結果（即它依賴于 G 和 F’）。

這種前瞻性的 γ 優化方式，與這樣一種（樂觀地）偏倚的信念有關：即一個主動推理智能體會選擇那些能夠最小化自由能的策略。為了促使未來的行動發生，必須在元認知控制層級上忽略當前事件的相關證據（E 和 F）。（關于主體性與精度之間的關系，參見 Friston, Samothrakis 等, 2012；Friston 等, 2013）

總之，這里提出的認知控制模型利用一系列在每次試次結束后從司機信念中采樣的假設性觀察結果，來想象：如果這些假設性樣本真的實現了，那么在沒有習慣信念的情況下，精度會是什么樣子。隨后，這個模擬得到的精度被用作下一個試次中精度的先驗值（即將假設性觀察下的預期精度的倒數作為下一個試次中精度先驗分布的 β 參數）。

其背后的邏輯是：如果我們對某個不包含習慣成分的策略具有高度信心（即具有高精度），那么就有理由在未來提高這一非習慣性策略的權重。在模擬中，我們同時使用了前瞻性和回顧性兩種方法，但前者用于設定后者的先驗值 ?。

模擬 2 的結果

在此部分，我們使用帶有（簡單）元認知控制的主動推理模型來模擬駕駛任務。模擬結果如圖4所示。

與模擬1類似，在前18個試次中，情境是“安全”的，司機在每次試次中都選擇“靠右行駛”的策略（見圖4A），因為這一策略得到了深思熟慮控制器 G和習慣性控制器 E的共同支持。

在第19個試次中，智能體觀察到右側車道有石塊，經歷了高貝葉斯驚奇（見圖4B），并正確地推斷出情境已從“安全”轉變為“危險”。

此時，如同模擬1一樣，習慣性控制器建議繼續“靠右行駛”，而深思熟慮控制器則建議切換為“靠左行駛”，從而引發了認知沖突（見圖4D）。

這種沖突激活了認知控制機制：對“OK”結果的假設性觀察驅動了 γ’ 的正向更新（見圖4F），而 γ’ 隨后作為 γ 的初始值（即 1/β?）（見圖4C）。到第22個試次時，這個值已經足夠大，能夠克服習慣性控制器 E 的影響，于是智能體開始執行深思熟慮的行動計劃（見圖4G），并成功完成了任務。

圖4E和圖4F展示了兩個精度參數（γ 和 γ’）的更新過程，我們分別將其與中腦邊緣通路（mesolimbic）和中腦皮質通路（mesocortical）中的多巴胺能活動相關聯。

精度參數γ 的更新可能與中腦邊緣通路的多巴胺活動有關。這一通路被認為參與了對激勵顯著性（incentive salience）的加工，以及個體對預期結果能否實現的確定性評估（Berridge, 2012；FitzGerald 等, 2015；Schwartenbeck 等, 2015a）。在我們的模擬中，第18個試次前后出現的負向脈沖反映了當觀察到意料之外的 KO 結果時，智能體對深思熟慮策略的信心下降；而隨后的正向脈沖則表示，在觀察到理想結果 OK 后，信心重新上升，這與深思熟慮控制器的變化一致（見圖4E）。

精度參數γ’ 的更新則可能與中腦皮質通路中的多巴胺反應有關。該通路起源于腹側被蓋區（VTA），將多巴胺投射至前額葉皮層，在認知控制中發揮關鍵作用（Brozoski 等, 1979；Cools 等, 2019；Sawaguchi 和 Goldman-Rakic, 1991）。在我們的模擬中，中腦皮質通路的多巴胺活動由元認知控制層級引發，并增強了深思熟慮控制的作用（見圖4F）。

這一觀點與以下理論相一致：多巴胺活動在認知控制過程中起到了動機調節的作用，作為動機調制因子（motivational modulator）（Cools, 2016），產生對行動的樂觀偏差（Sharot 等, 2012），并影響個體投入努力的意愿（Aarts 等, 2008；Botvinick 與 Braver, 2015；Padmala 與 Pessoa, 2011；Westbrook 與 Braver, 2016）。

模擬 2 的總結

總之，模擬2表明，在出現認知沖突時，通過啟用認知控制來提高精度 γ，是一種克服強習慣的有效策略。然而，這一模擬僅捕捉了認知控制的一個方面：即指定一個控制信號以優先啟用深思熟慮性控制（這也是我們稱之為“簡單元認知控制”的原因）。

這是通過讓更高層級（元認知層級）的生成模型調節低層級（行為層級）生成模型中的精度參數 γ 來實現的。

該模擬做了兩個簡化的假設：

當檢測到認知沖突時，認知控制是自動激活的，而不是在適當的生成模型下通過自由能最小化過程自然涌現的；
啟用認知控制不產生任何代價，智能體可以無限地提高精度 γ。

因此，模擬2中的模型有助于解釋認知控制是如何被啟用的，但無法說明何時以及在多大程度上啟用認知控制。

接下來，我們將引入一個更全面的元認知控制模型——一個完整的元認知控制模型——以克服這些局限，并對認知控制提供更具表現力和合理性的解釋。

模擬 3：具有完整元認知控制的主動推理

在本模擬中，我們將元認知控制實現為一個自由能最小化過程，使用一個包含兩個層級的分層生成模型：

一個是行為層級模型（behavioural-level model），
另一個是元認知層級模型（meta-cognitive-level model），它負責監控并調節行為層級模型的參數（見圖5）。

從概念上講，這與典型的主動推理中的分層模型有所不同。這里的設定可以被理解為用兩個（或多個）相互作用的“智能體”來代表大腦：

其中一個智能體（行為層級模型）與模擬1中的智能體相同；
另一個智能體（元認知層級模型）可以觀察第一個智能體的信念更新過程，并將這些更新作為它的“數據”。但它不能直接采取行動來改變外部世界，而是可以干預第一個智能體的先驗信念。

我們可以將它們理解為一個分層模型中的兩個層級——但需要注意的是，我們無法像前面模型那樣，通過標準的貝葉斯消息傳遞方案對這個圖形模型進行反演（inversion）。

行為層級的生成模型與前幾次模擬中的模型相同（即圖1所示的POMDP模型），只是新增了一個狀態因子及其相關的觀察結果（即“警告信號存在”或“無信號”）。這一狀態因子用于表示右側車道出現石塊的概率；詳見下文說明。

元認知層級的生成模型是一個獨立的 POMDP 模型，它擁有自己的 A、B、C、D 和 E 矩陣以及策略。
該元認知層級模型通過在每個試次中運行（對應于行為層級模型每個試次的第二個時間步），根據行為層級模型的當前信念做出決策。

為了“感知”行為層級模型的信念，元認知層級模型將行為層級計算中的某些方面視為一個具有隱藏狀態的生成過程，并據此進行推斷。

本質上，這種元認知特征表現為一種主動推理過程，其中的生成過程正是行為層級生成模型的一部分。

更具體地說，在元認知層級上被當作生成過程處理的行為層級模型特征，包括對貝葉斯驚奇（Bayesian surprise，見公式6）和認知沖突（cognitive conflict，見公式7）的計算。

這兩個 KL 散度是連續值變量，我們將其各自離散化為兩個離散的隱藏狀態。這一過程通過實施以下映射來完成：

我們做了簡化假設：KL 散度的取值范圍在以下區間內：

通過減小標準差 σ，并為prc（一個控制映射在適當離散狀態周圍概率集中程度的精度參數）設置一個較高的值，可以提高映射的精度，使其概率更集中于靠近 KL 值的區間附近。在本設置中，我們將prc設為 5。

因此，在元認知層級上，我們得到了兩個不可控的狀態因子，它們依賴于行為層級上的 KL 散度。

一個狀態因子包含兩種狀態：“高認知沖突”和“低認知沖突”；
另一個狀態因子也包含兩種狀態：“高驚奇”（high surprise）和“低驚奇”。

對應的觀察模態分別包括：“高認知沖突”與“低認知沖突”，以及“高驚奇”與“低驚奇”。通過這種方式，行為層級模型通過生成需要被推斷其原因的數據來影響元認知層級模型。

此外，元認知層級模型還包括兩個可控的狀態因子：

其中一個狀態因子是：“啟用深思熟慮”或“未啟用深思熟慮”；
另一個狀態因子是：“啟用認知控制”或“未啟用認知控制”。

對應的觀察結果模態包括：

“啟用了深思熟慮”或“未啟用深思熟慮”；
“啟用了認知控制”或“未啟用認知控制”。

進一步地，元認知層級模型可以在三種策略之間進行選擇（所有策略長度均為1）：

動作1
：同時啟用深思熟慮和認知控制；
動作2
：啟用深思熟慮但不啟用認知控制；
動作3
：既不啟用深思熟慮也不啟用認知控制。

此外，它還包含一個額外的結果模態，用于報告所選策略，該模態使用一個單位A矩陣（identity A matrix），將三種策略映射到三個觀察結果：“自身動作為1”、“自身動作為2”和“自身動作為3”。

這三種元認知層級的策略是根據它們的預期自由能（我們稱之為 G’）來選擇的，以此區別于行為層級策略的預期自由能 G。

元認知層級模型的先驗偏好編碼在其 C 矩陣中，其中包括對以下兩個觀察結果的負向偏好：

“啟用了深思熟慮”；
“啟用了認知控制”。

這些負向偏好反映了這樣一個假設：決策者本質上傾向于低努力選項——而啟用深思熟慮和認知控制會帶來相應的認知代價（Botvinick 等, 2009；Jimura 等, 2010；Kool 等, 2010；Kool & Botvinick, 2014）。

此外，元認知層級的 C 矩陣還包括對“OK-meta”觀察結果的正向偏好，以及對“KO-meta”觀察結果的負向偏好?！癘K-meta”和“KO-meta”觀察結果在功能上類似于行為層級模型中的“OK”和“KO”觀察結果，它們同樣對應著正向和負向偏好，但并非由外部感覺輸入產生，而是由內部監控過程生成，這些過程考慮當前情境（更準確地說，是元認知層級對情境的信念）是否適合啟用認知控制（詳見討論部分）。

當出現以下三種情況時，會觀察到“OK-meta”：

當元認知層級對情境的信念為“高認知沖突”和“高驚奇”，且對可控狀態的信念為“啟用了認知控制”和“啟用了深思熟慮”；
當元認知層級對情境的信念為“低認知沖突”和“高驚奇”，且對可控狀態的信念為“未啟用認知控制”和“啟用了深思熟慮”；
當元認知層級對情境的信念為“低認知沖突”和“低驚奇”，且對可控狀態的信念為“未啟用認知控制”和“未啟用深思熟慮”。

在其他情況下則會觀察到“KO-meta”。

“OK-meta”和“KO-meta”觀察結果的主要功能是在適當的情境下優先啟用深思熟慮和認知控制。為此，在策略選擇過程中，元認知層級會權衡理想結果（OK-meta）與伴隨“啟用了深思熟慮”和“啟用了認知控制”這兩個觀察結果的認知代價（負向偏好）。在數值設定上，“OK-meta”的偏好值被設為高于那兩個厭惡觀察結果（“啟用了深思熟慮”和“啟用了認知控制”）的代價值，以便元認知層級能夠有效解決這種權衡。

元認知層級模型通過執行一個貝葉斯模型選擇過程來影響行為層級模型，該過程在三種可能的行為層級模型之間進行選擇，這些模型具有不同的復雜程度。

第一個模型 M1：策略的先驗形式為
π0=σ(lnE+γG)，
而精度的先驗形式為
P(γ∣γ′)=Γ(1,γ′1)。
這意味著該模型同時包含了對 G 的計算和 γ’ 的更新，因此它既包含深思熟慮（deliberation）也包含認知控制（cognitive control）。
第二個模型 M2：策略的先驗形式同樣為
π0=σ(lnE+γG)，
但精度的先驗形式為
P(γ)=Γ(1,β0)。
這表明該模型包括對 G 的計算，但不包括對 γ’ 的更新，因此它啟用了深思熟慮，但不啟用認知控制。
第三個模型 M3：策略的先驗形式為
π0=σ(lnE)，
精度的先驗形式為
P(γ)=Γ(1,β0)。
因此，該模型既不包含對 G 的計算，也不包含對 γ’ 的更新，即它既不啟用深思熟慮，也不啟用認知控制。

貝葉斯模型選擇考慮兩個要素。第一個要素是對三個行為層級模型的先驗信念，為了簡化起見，我們將這一先驗設為均勻分布（flat）：

第二個要素是一個似然函數，它將元認知層級模型所選擇的動作（及其觀察結果）映射到三種可能的行為層級模型上。

為了簡化起見，我們在這里假設這是一個單位矩陣（identity matrix），即當元認知層級控制器所選擇的動作分別是“自身動作為1”、“自身動作為2”和“自身動作為3”時，對應的模型 M1、M2 和 M3 的概率被設為 1。

通過結合先驗和似然，使用標準的貝葉斯推斷方法，可以得到一個關于三個行為層級模型的后驗分布，并從中選擇具有最高概率的行為層級模型。

因此，元認知層級關于是否啟用深思熟慮與認知控制的決策，實際上被轉化為在不同的行為層級模型之間進行選擇，這些模型分別對應著是否啟用了深思熟慮與認知控制。

總之，在這個框架中，行為層級與元認知層級是相互影響的，就像在一個多智能體系統中的兩個“智能體”。元認知層級持續地對行為層級上的驚奇（surprise）和認知沖突（cognitive conflict）進行推斷與監控；同時，它還通過在不同模型之間進行選擇——這些模型決定了是否計算 G 和 γ’ 的更新——來決定行為層級應采用哪種模型。

模擬 3 的結果

在任務開始時，情境為“安全”，司機采用了“靠右行駛”的策略，并迅速形成了習慣（見圖6A和圖6H）。此時，深思熟慮成分并未被啟用，以節省認知資源（見圖6G和圖6H）。

然而，在第12個試次中，司機遇到了一個令人意外的警告信號（見圖6A），這一信號提示情境可能即將從“安全”轉變為“危險”。該警告信號促使元認知控制層級選擇一個策略，進入“啟用了深思熟慮”的狀態，從而在行為層級上激活了深思熟慮控制器 G（見圖6H），并伴隨著略微增加的心理努力和背側前扣帶皮層（dACC）活動（見圖6G）。

在第19個試次中，司機觀察到右側車道出現了石塊。此時，她不僅經歷了高貝葉斯驚奇（見圖6B），還經歷了高認知沖突（見圖6D），因為習慣性與深思熟慮性控制器分別建議了兩種不同的策略（見圖6H）。

貝葉斯驚奇與認知沖突的同時出現，促使元認知層級選擇了同時啟用深思熟慮與認知控制的策略。這進一步引發了一個控制信號（見圖6F），該信號優先考慮動作選擇中的深思熟慮成分（見圖6C），最終促使司機正確地變換車道以避開危險（見圖6A和圖6H）。

圖6E和圖6F分別展示了在任務過程中，模擬的中腦邊緣通路（mesolimbic）和中腦皮質通路（mesocortical）中的多巴胺能活動。

中腦皮質通路
的多巴胺活動反映了當元認知層級選擇啟用認知控制策略時，控制信號 γ’ 隨時間推移而增加的過程（見圖6F）。
中腦邊緣通路
的多巴胺活動呈現出更復雜的模式：在第19個試次中，當司機看到右側車道有石塊時，中腦邊緣通路的多巴胺活動出現了負向脈沖，這反映了司機對其行為路徑是否足以實現理想結果（OK）的信心下降（這一信心程度編碼在策略精度 γ 中）。然而，當認知控制被啟用后，這些負向峰值的先驗值逐漸上升，直到司機的信心足夠強，在第22個試次中將觀察結果從 KO 轉變為 OK。新的正向結果又引發了中腦邊緣通路中多巴胺活動的正向峰值，進一步增強了精度（見圖6E）。

圖6G繪制了在整個任務中心理努力（mental effort）的動態變化情況，這是執行認知控制所必需的。

在我們的模擬中，司機在第12個試次觀察到交通標志時，會投入少量的心理努力，以啟用深思熟慮控制器。隨后，從第19個試次開始，司機需要投入更多的心理努力，因為她必須生成一個控制信號 γ’ 來優先選擇深思熟慮策略。

與前一個模擬不同的是，在本模擬中這些更新并不是無限進行的，而是受到沖突存在與否的影響。

是否啟用認知控制的決策是由元認知層級做出的，它通過權衡啟用認知控制的收益（即提高實現理想結果“OK-meta”的概率）與認知代價來決定。

整體的心理努力是按照以下方式量化的：

前一項反映了偏離關于策略的習慣性先驗（E）所帶來的代價（Rubin 等, 2012；Todorov, 2009；Zénon 等, 2019），它被量化為優先選擇的深思熟慮模型 γG 與習慣 E 之間的 KL 散度；詳見 Parr 等 (2023)。

控制的代價反映了一個事實：司機對“未啟用深思熟慮”和“未啟用認知控制”這兩個低代價觀察結果具有先驗偏好，而對“啟用了深思熟慮”和“啟用了認知控制”這兩個高代價觀察結果則表現出負向偏好（見圖5）?？刂拼鷥r被量化為在是否啟用認知控制的情況下獲得這些結果（記作 ?,?）的概率之間的 KL 散度，并與預期自由能中的風險項相關聯（見公式2）。這一控制代價會降低智能體啟用深思熟慮控制器 G 和更新 γ’ 的概率（換句話說，使智能體對其行為的確定性降低）。

請注意，雖然（為了簡化）我們將控制代價設為固定值，在現實情境中，它們可能會隨著時間積累，例如由于疲勞效應（Botvinick 等, 2009；Green & Myerson, 2004；Sozou, 1998）。此外，我們暫時忽略了其他可能與任務要求相關的認知代價，例如進行前瞻性模擬、在工作記憶中維持一個風險情境表征、γ’ 更新的次數等，這些都可能帶來額外的認知與代謝負擔。最后，與更復雜的行為層級模型相關的認知代價也可以納入用于貝葉斯模型選擇（公式14）的先驗中。

在神經生理學層面，我們將心理努力與背側前扣帶皮層（dorsal Anterior Cingulate Cortex, dACC）中的神經元動力學聯系起來。一個有影響力的觀點認為，背側前扣帶皮層整合了有關代價與獎勵的信息，以計算分配控制資源給特定任務所帶來的凈價值，決定是否以及投入多少控制資源，最終發出優化后的控制信號（Shenhav 等, 2013；另見 Badre 和 Wagner, 2004；Botvinick 等, 2001；Callaway 等, 2022, 2021；Grahek 等, 2020；Musslick 等, 2015）。

與此一致的是，大量證據表明，dACC 在需要調整控制強度的情境下活躍，并影響負責調節功能的大腦結構。例如，各種神經影像學研究指出，dACC 在沖突發生時的活動與隨后注意力調控區域活動增加之間存在關聯（Cavanagh 和 Frank, 2014；Kerns, 2006；Kerns 等, 2004；King 等, 2010；MacDonald 等, 2000）。類似的證據也來自腦電圖（EEG）研究，在沖突或錯誤后注意調整過程中檢測到了 dACC 反應的電生理指標（Aarts 等, 2008；Carter 等, 1998；Crottaz-Herbette 和 Menon, 2006；Forster 等, 2011；Shenhav 等, 2013；Sohn 等, 2007）。

此處展示的模擬可以擴展至更長時間段，其中“安全”與“威脅”情境交替出現。關鍵在于，模型能否靈活適應新危險，取決于其狀態——特別是當新危險出現時，它的當前認知沖突水平和精度水平。如果新危險出現在先前危險之后、這些水平仍然較高的時期，模型將能夠更快地啟用深思熟慮過程。相反，如果新危險出現在模型已經建立了一個（新的或舊的）習慣之時，則模型不會具備優勢。

為了簡化起見，在我們的模擬中假設習慣可以迅速重建。這就是為什么一旦選擇了目標導向的動作，認知沖突幾乎立即恢復到基線水平（見圖6D）。然而，人們也可以設想：在“初始危險預示后續危險”的前提下，保持較低的新習慣學習率可能是適應性的。這將使即使第一個危險消失后，認知控制仍維持在一個相對較高的水平。或者，也可以考慮包含明確的（預期的）“安全”與“危險”情境之間轉換的生成模型。

模擬 3 的總結

本模擬展示了完整的元認知控制——在這里，它源自自由能最小化過程——如何使司機在不需要時節省認知資源（通過避免啟用深思熟慮控制器），在沒有驚奇事件時依賴習慣行為，并在需要適應新（危險）情境時，通過認知控制暫停這些習慣行為。

該模型解釋了智能體是否需要、何時需要以及在多大程度上需要施加認知控制。此外，這一模擬還說明了警告信號或提示線索在預防意外和負面結果方面的重要性（Gabriel 和 Orona, 1982）。

在認知控制中，提示線索為即將發生的策略變化提供了預測信息，從而增加了對受控加工的需求，并促進了行為切換（Kiesel 等, 2010；Monsell, 2003）。

在我們的模擬中，提示線索無法直接影響行為層級的動作選擇，因為其對決策概率的影響微乎其微，遠不及習慣性傾向的強度。相反，該線索代表了一個令人驚訝的事件，它在元認知層級上影響決策，觸發了深思熟慮規劃的啟用。

這一點可以通過觀察圖6H來理解：在第12個試次觀察到提示線索之前，深思熟慮加工并未被激活。重要的是，盡管該線索本身并不直接引發特定行為，但它使得隨后的深思熟慮動作選擇變得更快。

如果不存在這個提示線索，深思熟慮加工將在第19個試次觀察到右側車道石塊后才開始啟動，在危險情境下至少需要一個試次的時間才能啟用深思熟慮機制。而由于從習慣性加工向深思熟慮加工的轉變本身也需要時間，在缺乏提示的情況下，司機變換車道的速度將更慢。

這一例子突出了提示線索的前瞻性作用，以及它通過影響是否啟用深思熟慮的元認知決策，間接影響動作選擇的特點。

在神經生理學層面，決定是否（以及在多大程度上）啟用認知控制所需的成本-收益計算可以與背側前扣帶皮層（dACC）的功能聯系起來（Shenhav 等, 2013）。此外，控制信號的發出可以與中腦皮質通路中的多巴胺活動相關聯，這種活動又會影響中腦邊緣通路的多巴胺活動。一旦預期的結果被觀察到，后者就會發出增強個體對其行為路徑信心的信號。

具有與不具有元認知控制的主動推理模型比較

為了更系統地檢驗元認知控制的有效性，我們將完整的元認知控制模型（即模擬3中使用的模型）與沒有認知控制的主動推理模型（即模擬1中使用的模型）進行了比較，并使用了不同的參數設置。

為了確保公平比較，我們將元認知控制模型中使用的“警告信號”狀態設為“無信號”。我們未將模擬2中使用的模型納入比較，因為它可以被視為模擬3的一個特例：在特定條件下自動觸發認知控制，并且其努力代價被不現實地設為零。

我們進行了三組各40次模擬實驗，每次實驗都改變以下三個在認知控制過程中起關鍵作用的參數之一：

習慣的學習率
（η），決定習慣先驗隨試次增強的程度。參數范圍為 η = 1, 2, ..., 40；
精度的先驗值
（β），定義在第1個試次中習慣與深思熟慮之間的初始平衡。參數范圍為 β = 1.2, 1.18, ..., 0.1；
偏好的精度
（c），影響智能體追求“OK”結果的動力強弱。參數范圍為 c = 0.8, 0.84, ..., 2.4。

我們通過計算危險情境下獲得“OK”結果的比例來衡量模型性能——這一指標反映了智能體是否能夠有效地抑制不良習慣以避免危險（見圖7）。

圖7A展示了這三組模擬的結果，表明完整的元認知控制模型在所有情況下均優于無認知控制的模型。

圖7B則展示了在每組40個參數值變化下，具有完整元認知控制的模型與無認知控制模型的性能對比——顏色越深表示性能越好。

結果顯示：

具有完整元認知控制的模型
在參數空間的大部分區域表現良好，只有兩種情況例外：
- 當習慣學習率過高時（導致行為僵化）；
- 當偏好精度過低時（使模型對結果不敏感）。
相比之下，沒有認知控制的模型僅在參數空間的一小部分區域內有效。

總之，這些模擬結果表明，完整的元認知控制模型相比沒有認知控制的模型更加有效且更具魯棒性。

在認知科學中，我們通常將行為的選擇區分為習慣性與目標導向性兩類。通過反復執行某一行為，目標導向的行為可以逐漸變得習慣化。但在某些情況下，已獲得的習慣可能變得不適應環境。所謂認知控制，指的是監控績效、識別習慣性行為與目標導向行為之間的沖突，并在必要時抑制不良習慣、重新向目標導向行為傾斜的過程。

我們在主動推理（active inference）框架下提出了一個關于認知控制的新理論，它解釋了認知控制如何通過優化一個認知控制信號（位于元認知層級），從而在行為選擇中優先啟用深思熟慮成分而非習慣性成分，使個體能夠超越默認行為模式做出反應。而對這一認知控制信號的優化，又需要依賴對未來積極證據的前瞻性模擬（prospection），這使得認知控制既具有面向未來的特性，也伴隨著心理努力。

為了便于說明，我們首先引入了一個簡單的元認知控制模型，它僅捕捉認知控制的部分特征——即指定一個控制信號以優先啟用深思熟慮性控制；隨后我們又介紹了一個完整的元認知控制模型，其中認知控制源自自由能最小化過程，并伴隨認知代價。

我們的模擬表明，在執行重復性任務（如駕駛）時，智能體可以從更費力的（深思熟慮的）控制形式過渡到較省力的（習慣性的）控制形式，并在需要時再切換回深思熟慮控制。

從深思熟慮控制向習慣性控制的轉變（即習慣形成）在以往的主動推理實現中是自然出現的（Friston 等, 2016；Maisto 等, 2019）；
而從習慣性控制向深思熟慮控制的轉變，則需要多主體分層處理機制：即一個分層生成模型，其中較高層級（元認知層級）可以監控較低層級（行為層級）的信念并影響其參數（例如貝葉斯驚奇、認知沖突、精度等）。

這種分層處理機制體現了我們提出的理論與三個重要的認知控制理論之間的深刻聯系：

動作注意理論
（Norman 和 Shallice, 1986）：假設存在一個（高層級的）監督性注意力系統，通過它來施加認知控制，以偏向特定的動作選擇；
控制預期價值理論
（Shenhav 等, 2013）：認為認知控制基于一種成本-收益評估機制，在通過受控加工獲得的收益與所付出的認知代價之間進行權衡；
績效監控理論
（Alexander 和 Brown, 2011）：強調監測預測誤差信號的重要性，這些信號來源于預期結果與實際結果之間的比較。

我們的提議在概念上與上述理論相關聯，但將其計算過程置于主動推理的統一框架之下（Mittenbühler 等, 2024；Parr 等, 2022；Schw?bel 等, 2021）。

我們的模擬展示了多個被認定為認知控制關鍵變量和機制之間的相互作用，包括：

驚奇（surprise）與波動性（volatility），
情境監控，
對自身行為路徑的信心，
控制信號的設定，
行為調節，
心理努力，
認知沖突，
控制代價（Botvinick 等, 2001；Kool 等, 2010；Laming, 1968；Rabbitt, 1966；Sh...

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.