CreateAMind
2025年01月07日 08:55
https://direct.mit.edu/books/oa-monograph/5299/Active-InferenceThe-Free-Energy-Principle-in-Mind
10章:Active Inference as a Unified Theory of Sentient Behavior
In general we are least aware of what our minds do best.
—Marvin Minsky
本章是主動推理的深入總結及對大量不同理論進行了深入比較。(2萬字)
10.1 簡介
10.2 各章總結
10.3 連接點:主動推理的綜合視角
10.4 預測大腦、預測心智和預測處理(次優)
10.4.1 預測處理
10.5 感知
10.5.1 貝葉斯大腦假設(次優)
10.6 動作控制
10.6.1 意念運動理論
10.6.3 最優控制理論
10.7 效用和決策
10.7.1 貝葉斯決策理論(次優)
10.7.2 強化學習(次優)
10.7.3 Planning as Inference
10.8 行為和有限理性
10.8.1 有限理性自由能理論
10.9 Valence, Emotion, and Motivation
10.10 穩態 動態平衡和內感受處理 Homeostasis, Allostasis, and Interoceptive Processing
10.11 注意力、顯著性和認知動態 Attention, Salience, and Epistemic Dynamics
10.12 規則學習、因果推理和快速泛化 Rule Learning, Causal Inference, and Fast Generalization
10.13 主動推理和其他領域:開放方向
10.13.1 社會和文化動態
10.13.2 機器學習和機器人技術
10.14 總結
10.1 簡介
在本章中,我們總結了主動推理的主要理論要點(來自本書的第一部分)及其實際實現(來自第二部分)。然后,我們將這些點聯系起來:我們從前面章節中討論的特定主動推理模型中抽象出來,專注于框架的集成方面。主動推理的好處之一是它為有感知力的生物體必須解決的適應性問題提供了完整的解決方案。因此,它為感知、行動選擇、注意力和情緒調節等問題提供了統一的視角,這些問題通常在心理學和神經科學中被單獨處理,并在人工智能中使用不同的計算方法來解決。我們將在控制論、行動思想運動理論、強化學習和最優控制等既定理論的背景下討論這些問題(以及更多問題)。最后,我們簡要討論如何將主動推理的范圍擴展到涵蓋本書未深入討論的其他生物、社會和技術主題。
10.2 總結
本書系統地介紹了主動推理的理論基礎和實際實現。在這里,我們簡單總結一下前九章的討論。這提供了一個機會演練主動推理的關鍵結構,這將在本章的其余部分中發揮作用。
在第1章中,我們介紹了主動推理作為理解有感知力的生物的規范方法,這些生物其環境構成了的動作感知循環的一部分(Fuster 2004)。我們解釋說,規范性方法從第一原理開始,得出并測試有關感興趣現象的經驗預測 在這里,生物體在與生物體進行適應性(行動?感知的環境互動循環)時持續存在在他們的環境。
在第2章中,我們闡述了主動推理的低級之路。這條道路始于這樣的想法:大腦是一臺預測機器,具有生成模型:世界上隱藏的原因如何產生感覺的概率表示(例如,從蘋果反射的光如何刺激視網膜)。通過反轉這個模型,它可以推斷出其感覺的原因(例如,考慮到我的視網膜以某種方式受到刺激,我是否看到了一個蘋果)。這種感知觀點(又名感知即推理)的歷史根源在于亥姆霍茲的無意識推理概念,以及最近的貝葉斯大腦假說。主動推理通過將動作控制和規劃納入推理范圍內(也稱為控制即推理、規劃即推理)擴展了這一觀點。最重要的是,它表明感知和行動并不是典型的可分離過程,而是實現相同的目標。我們首先更非正式地描述這個目標,作為模型與世界之間差異的最小化(通常減少到意外或預測誤差最小化)。簡而言之,人們可以通過兩種方式最小化模型與世界之間的差異:改變自己的想法以適應世界(感知)或改變世界以適應模型(行動)。這些可以用貝葉斯推理來描述。然而,精確推理通常很棘手,因此主動推理使用(變分)近似(請注意,精確推理可能被視為近似推理的特殊情況)。這導致了對感知和行動的共同目標的第二個更正式的描述,即變分自由能最小化。這是主動推理中使用的核心量,并且可以根據其組成部分(例如,能量和熵、復雜性和準確性、或意外和發散)進行分解。最后,我們引入了第二種自由能:預期自由能。這在規劃時尤其重要,因為它提供了一種通過考慮替代政策預期產生的未來結果來對替代政策進行評分的方法。這也可以根據其組成部分(例如,信息增益和實用價值、預期的模糊性和風險)來分解。
在第 3 章中,我們闡述了主動推理的大道。這條替代道路始于生物有機體保持完整性和避免消散的的必要性,這可以被描述為避免令人驚奇的狀態。然后我們引入了馬爾可夫毯子的概念:有機體內部狀態和世界外部狀態之間統計分離的形式化。至關重要的是,內部和外部狀態只能通過中間(主動和感覺)變量(稱為毯子狀態)相互影響。這種統計上的分離由馬爾可夫毯介導的 對于賦予有機體一定程度的獨立于外部世界的自主權至關重要。要理解為什么這是一個有用的觀點,請考慮以下三個后果。
首先,具有馬爾可夫毯的有機體似乎在貝葉斯意義上模擬外部環境:其內部狀態平均對應于關于世界外部狀態的近似后驗信念approximate posterior belief。其次,自主性是由以下事實保證的:有機體的模型(其內部狀態)不是無偏的,而是規定了一些必須維持的存在先決條件(或先驗偏好),例如,對于魚來說,處于水中。第三,有了這種形式主義,就可以將最優行為(相對于先驗偏好)描述為感知和行動的(貝葉斯)模型證據的最大化。通過最大化模型證據(即不證自明),生物體確保它實現其先前的偏好(例如,魚留在水中)并避免令人驚訝的狀態。反過來,模型證據的最大化在數學上(大約)等價于變分自由能的最小化因此我們再次(以另一種方式)達到第 2 章中討論的主動推理的相同中心結構。最后,我們詳細介紹了最小化意外與漢密爾頓最少行動原則之間的關系。這證明了主動推理與統計物理學第一原理之間的正式關系。
在第4章中,我們概述了主動推理的形式方面。我們關注從貝葉斯推理到易于處理的近似的轉變變分推理 以及有機體通過感知和行動最小化變分自由能的最終目標。由此得到生物用來理解其世界的生成(世界)模型的重要性。我們引入了兩種生成(世界)模型,使用離散變量或連續變量來表達我們對數據如何生成的信念。我們解釋說,兩者都提供相同的主動推理,但它們分別適用于在離散時間(如部分觀察的馬爾可夫決策問題)或連續時間(如隨機微分方程)中表述事態的情況。
在第五章中,我們評論了自由能最小化的規范原理與大腦如何實現該原理的過程理論之間的差異,并解釋說后者會產生可測試的預測。然后,我們概述了伴隨主動推理的過程理論的各個方面,其中包括神經元消息傳遞等領域,包括神經解剖電路(例如,皮質?皮質下環路)和神經調節。例如,在解剖層面,消息傳遞很好地映射到典型的皮質微電路,其預測源于某一層的深層皮質層,并以下面一個層面的表層皮層為目標((Bastos et al. 2012)。在更系統的層面上,我們討論了貝葉斯推理、學習和精確加權如何分別對應于神經元動力學、突觸可塑性和神經調節,以及預測編碼的自上而下和自下而上的神經消息傳遞如何映射到較慢的(例如,α或β)和更快(例如,γ)的腦節律 At a more systemic level, we discussed how Bayesian inference, learning, and precision weighting correspond to neuronal dynamics, synaptic plasticity, andneuromodulation, respectively, and how the top- down and bottom-up neural message passing of predictive coding maps to slower (e.g., alpha or beta) and faster (e.g., gamma) brain rhythms。這些和其他示例表明,在設計特定的主動推理模型后,人們可以從其生成世界模型的形式中得出神經生物學含義。
在第6章中,我們提供了設計主動推理模型的秘訣。我們看到,雖然所有生物都會最大限度地減少其變分自由能,但它們的行為方式不同,有時甚至相反,因為它們被賦予了不同的生成模型。因此,區分不同(例如,更簡單和更復雜)生物的只是它們的生成模型不同。有豐富的可能的生成模型,它們對應于不同的生物(例如神經元)實現,并在不同的環境和生態位中產生不同的適應性或適應不良行為。這使得主動推理同樣適用于表征簡單的生物,如感知和尋求營養梯度的細菌,像我們這樣追求復雜目標并參與豐富文化實踐的復雜生物,甚至不同的個體 在某種程度上,人們適當地表征了各自的特征生成模型。進化似乎已經發現了越來越復雜的大腦和身體設計結構,使生物體能夠處理(和塑造)豐富的生態位。建模者可以對這一過程進行逆向工程,并根據感興趣的生物所占據的利基類型,以生成模型的形式指定其大腦和身體的設計。這對應于一系列的設計選擇(例如,使用離散或分類變量的模型、淺層或分層模型)我們在本章中對其進行了解包。
在第7章和第8章中,我們提供了離散和連續時間的主動推理模型的大量示例,這些示例解決了感知推理、目標導向導航、模型學習、動作控制等問題。這些示例旨在展示這些模型下的各種緊急行為,并詳細說明如何在實際中指定它們的原則。
在第9章中,我們討論了如何使用主動推理進行基于模型的數據分析,并恢復個體生成模型的參數,從而更好地解釋任務中主體的行為。這種計算表型分析使用了本書其余部分討論的相同形式的貝葉斯推理,但以不同的方式:它有助于設計和評估其他人(主觀)模型的(客觀)模型。
10.3連接點:主動推理的綜合視角
幾十年前,哲學家丹尼特感嘆認知科學家投入了太多精力來建模孤立的子系統(例如感知、語言理解),而這些子系統的邊界往往是任意的。他建議嘗試對“整個鬣蜥”進行建模:一種完整的認知生物(也許是一個簡單的生物)和它需要應對的環境生態位(Dennett 1978)。
主動推理的一個好處是,它提供了生物體解決其適應性問題的方式的首要原則。本書所追求的規范方法假設可以從變分自由能最小化原理出發,并得出有關特定認知過程的含義,例如感知、行動選擇、注意力和情緒調節及其神經元基礎。
想象一個簡單的生物,它必須解決諸如尋找食物或住所之類的問題。當施展為主動推理時,該生物的問題可以是用積極的術語描述,即采取行動來征求偏好的感覺(例如,與食物相關的感覺)。在某種程度上,這些偏好的感覺被包含在其生成模型中(作為先驗信念),有機體正在有效地收集其模型的證據,或者更寓言性地,為其存在收集證據(即最大化模型證據或不證自明的證據)。這個簡單的原理對傳統上孤立地考慮的心理功能產生了影響,例如感知、行動控制、記憶、注意力、意圖、情感等等。例如,感知和行動都是自我證明的,從某種意義上說,生物可以通過改變其信念(關于食物的存在)或通過改變世界,將其期望(給定其生成模型)與其感知的東西結合起來。(追求與食物相關的感覺)。記憶和注意力也可以被認為是優化同一目標。長期記憶是通過學習生成模型的參數來發展的。當信念是關于過去和未來的外部狀態時,工作記憶就是信念更新。注意力是對感官輸入精確度的信念的優化。規劃(和意圖)的形式可以通過吸引(某些)生物在替代未來中進行選擇的能力來概念化,這反過來又需要時間深度的生成模型。這些預測了一系列行動將產生的結果,并對這些結果持樂觀態度。這種樂觀主義表現為相信未來的結果將導致首選的結果。深度時間模型還可以幫助我們理解復雜形式的展望(其中對當前的信念用于推導對未來的信念)和回顧(其中對當前的信念用于更新對過去的信念)。內感受調節和情緒的形式可以通過訴諸內部生理學的生成模型來概念化,該模型預測未來事件的 allostatic后果。
正如上面的例子所示,從情感行為規范理論的角度研究認知和行為有一個重要的結果。這種理論并不是從組裝單獨的認知功能開始的,例如感知、決策和計劃。相反,它首先為生物體必須解決的問題提供完整的解決方案,然后分析該解決方案以得出有關認知功能的含義。例如,哪些機制允許生物體或人造生物(例如機器人)感知世界、記住世界或計劃(Verschure 等人,2003 年、2014 年;Verschure 2012 年;Pezzulo、Barsalou 等人,2013 年;Krakauer 等人)等2017)?這是一個重要的隨著心理學和神經科學教科書中使用的認知功能分類法在很大程度上繼承自早期哲學和心理學理論(有時稱為詹姆斯主義范疇),這一趨勢正在發生變化。盡管它們具有巨大的啟發價值,但它們可能相當任意,或者它們可能不對應于單獨的認知和神經過程(Pezzulo 和 Cisek 2016,Buzsaki 2019,Cisek 2019)。事實上,這些詹姆斯式的范疇可能是我們的生成模型如何解釋我們與感覺中樞的接觸的候選者 而不是解釋這種接觸。candidates for how our generative models explain our engagement with the sensorium—as opposed to explaining that engagement例如,“我正在感知”的唯我論假設只是我對當前事態的解釋,包括我的信念更新。
采用規范視角也可能有助于識別不同領域研究的認知現象之間的形式類比。
一個例子是勘探和開發exploration and exploitation之間的權衡,它以各種形式出現(Hills et al. 2015)。這種權衡經常在覓食過程中進行研究,此時生物必須在利用以前的成功計劃和探索新的(可能更好)的計劃之間做出選擇。然而,當生物可以在利用當前最佳計劃與投入更多時間和認知努力來探索其他可能性之間做出選擇時,在利用有限資源(例如,時間限制或搜索努力)進行記憶搜索和深思熟慮期間,也會發生同樣的權衡。用自由能來表征這些明顯不相關的現象可能會揭示深層的相似性(Friston, Rigoli et al. 2015;Pezzulo, Cartoni et al. 2016;Gottwald and Braun 2020)。最后,除了對心理現象的統一視角之外,主動推理還提供了一種理解相應神經計算的原則方法。換句話說,它提供了一種將認知處理與(預期的)神經元動力學聯系起來的過程理論。主動推理假設與大腦、思想和行為有關的一切行為可以用最小化自由變分來描述活力。反過來,這種最小化具有可以憑經驗驗證的特定神經特征(例如,在消息傳遞或大腦解剖學方面)。在本章的其余部分中,我們將探討主動推理對心理功能的一些影響 就像我們在繪制一本心理學教科書一樣。對于每個函數,我們還強調了主動推理與文獻中其他流行理論之間的一些聯系(或分歧)。
10.4預測大腦、預測心智和預測處理(次優)
I have this picture of pure joy
it’s of a child with a gun
he’s aiming straight in front of himself,
shooting at something that isn’t there.
—Afterhours, “Quello che non c’è” (Something that isn’t there)
傳統的大腦和認知理論強調從外部刺激到內部表征,然后是運動動作的前饋轉換。這被稱為“三明治模型”,因為刺激和反應之間的一切都被貼上“認知”標簽(Hurley 2008)。從這個角度來看,大腦的主要功能是將傳入的刺激轉化為適合情境的反應。主動推理與這種觀點有很大不同,它強調大腦和認知的預測和目標導向方面。用心理學術語來說,主動推理生物(或其大腦)是概率推理機器,它根據其生成模型不斷生成預測。不證自明的生物以兩種基本方式使用它們的預測。首先,他們將預測與傳入數據進行比較,以驗證他們的假設(預測編碼),并在較慢的時間尺度上修改他們的模型(學習)。其次,他們制定預測來指導他們收集數據的方式(主動推理)。通過這樣做,主動推理生物滿足了兩個必要條件:認知(例如,視覺探索存在顯著信息的地方,可以解決假設或模型的不確定性)和實用(例如,移動到可以進行首選觀察(例如獎勵)的位置。安全)。認知命令使感知和學習過程變得活躍,而實用命令使行為目標導向。
10.4.1 預測處理
這種以預測和目標為中心的大腦和認知觀點與預測處理(PP)密切相關(并為其提供了靈感) :這是心靈哲學和認識論中的一個新興框架,它將預測視為預測的核心。大腦和認知,并訴諸“預測性大腦”或“預測性思維”的概念(Clark 2013,2015;Hohwy 2013)。有時,PP 理論會吸引主動推理的特定功能及其一些結構,例如生成模型、預測編碼、自由能、精確控制和馬爾可夫毯子,但有時它們會吸引其他結構,例如耦合逆和耦合逆向推理。前向模型,不屬于主動推理的一部分。因此,與主動推理相比,術語“預測處理”的含義更廣泛(且限制更少)。
預測處理理論在哲學引起了人們的廣泛關注 ,因為它們在許多意義上具有統一的潛力:跨越多個認知領域,包括感知、行動、學習和心理病理學;從較低水平(例如,感覺運動)到較高水平的認知處理(例如,心理結構);從簡單的生物有機體到大腦、個體以及社會和文化結構。 PP 理論的另一個吸引力是它們使用概念術語,例如信念和驚訝,這涉及哲學家熟悉的心理分析水平(需要注意的是,有時這些術語可能具有與常見用法不同的技術含義)。然而,隨著對 PP 興趣的增長,哲學家們對其理論和認識論含義有不同的看法,這一點變得越來越明顯。例如,它被解釋為內在主義(Hohwy 2013)、體現或基于行動(Clark 2015)以及行動主義和非表征術語(Bruineberg et al. 2016,Ramstead et al. 2019)。圍繞這些概念解釋的爭論超出了本書的范圍。
10.5 感知
You can’t depend on your eyes when your imagination is out of focus.
—Mark Twain
主動推理將感知視為基于如何生成感官觀察的生成模型的推理過程。貝葉斯規則本質上是反轉模型,根據觀察結果來計算有關環境隱藏狀態的信念。這種“感知即推理”的想法可以追溯到亥姆霍茲(Helmholtz,1866),并且經常在心理學、計算神經科學和機器學習(例如綜合分析)中被重新提出。面臨具有挑戰性的感知問題,例如破壞基于文本的 CAPT?CHA (George et al. 2017)。
10.5.1 貝葉斯大腦假設(次優)
這一想法最突出的當代表達是貝葉斯大腦假說,該假說已應用于決策、感覺處理和學習等多個領域(Doya 2007)。主動推理通過將變分自由能最小化的要求推導出來,為這些推理思想提供了規范基礎。正如同樣的命令延伸到動作動力學,主動推理自然地模擬了主動感知以及有機體主動采樣觀察結果來測試其假設的方式(Gregory 1980)。相反,在貝葉斯大腦議程下,感知和行動根據不同的命令進行建模(其中行動需要貝葉斯決策理論;參見第 10.7.1 節)。更廣泛地說,貝葉斯大腦假說指的是一系列不一定是整合的方法,并且經常做出不同的經驗預測。例如,這些包括大腦執行貝葉斯最佳感覺運動和多感覺整合的計算級建議(Kording and Wolpert 2006),大腦實現貝葉斯推理的特定近似的算法級建議,例如決策?通過采樣(Stewart 等人,2006 年),以及關于神經群體執行概率計算或編碼概率分布的具體方式的神經級提案例如,作為樣本或概率群體代碼(Fiser 等人,2006 年)。 2010,Pouget 等人。2013)。在每個解釋層面上,該領域都有相互競爭的理論。例如,通常訴諸精確貝葉斯推理的近似值來解釋與最佳行為的偏差,但不同的工作考慮不同的(且并不總是兼容的)近似值,例如不同的采樣方法。更廣泛地說,不同級別的提案之間的關系并不總是直接的。這是因為貝葉斯計算可以通過多種算法方式實現(或近似),即使沒有明確表示概率分布(Aitchison 和 Lengyel 2017)。
主動推理提供了一個更綜合的視角,將規范原則和過程理論聯系起來。在規范層面,其核心假設所有過程都最小化變分自由能。相應的推理過程理論使用自由能梯度下降,這具有明確的神經生理學含義,在第 5 章中進行了探討(Friston、FitzGerald 等人,2016 年)。更廣泛地說,我們可以從自由能最小化原理出發,推導出對大腦的影響架構例如,感知推理的規范過程模型(在連續時間)是預測編碼。預測編碼最初由 Rao 和 Ballard (1999) 提出作為分層感知處理理論,用于解釋一系列記錄在案的自上而下效應,這些效應很難與前饋架構以及已知的生理事實相一致(例如,感覺層次中存在前向或自下而上和后向或自上而下的連接)。然而,在某些假設下,例如拉普拉斯近似(Friston 2005),預測編碼可以從自由能最小化原理導出。此外,連續時間內的主動推理可以被構建為預測編碼到動作領域的定向延伸 通過賦予預測編碼代理運動反射(Shipp et al. 2013)。這將我們引向下一點。
10.6 動作控制
If you can’t fly then run, if you can’t run then walk, if you can’t walk then crawl, but whatever you do you have to keep moving forward.
—Martin Luther King
在主動推理中,動作處理類似于感知處理,因為兩者都受到前向預測(分別是外感受和本體感受)的指導。正是“我的手抓住杯子”的(本體感受)預測引發了抓握動作。動作和知覺之間的等價性也存在于神經生物學層面:運動皮層的結構與感覺皮層的組織方式相同作為預測編碼結構,不同之處在于它可以影響腦干和大腦中的運動反射。脊柱(Shipp et al. 2013)并且它接收到的上升輸入相對較少。電機Motor反射允許通過沿著所需的方向設置“平衡點”來控制運動軌跡 對應于平衡點假設的想法(費爾德曼,2009)。重要的是,啟動一個動作(例如抓起一個杯子)需要適當調節先前信念和感覺流的精度(逆方差)。這是因為這些精度的相對值決定了生物處理其先前信念(它拿著杯子)和它的感官輸入(表明它沒有拿著杯子)之間的沖突的方式。根據相互矛盾的感官證據,先前關于抓杯子的不精確信念可以很容易地被修正 導致改變想法而不采取任何行動。相反,當先驗信念占主導地位(即具有更高的精確度)時,即使面對相互沖突的感官證據,它也會被維持,并且會引發解決沖突的抓住行動。為了確保這種情況,動作啟動會引起短暫的感覺衰減(或降低感覺預測錯誤的權重)。這種感覺衰減的失敗可能會產生適應不良的后果,例如無法啟動或控制運動(Brown et al. 2013)。
10.6.1 意念運動理論
在主動推理中,行動源于(本體感受)預測,而不是運動命令(Adams、Shipp 和 Friston 2013)。這個想法將主動推理與行動的意念ideomotor運動理論聯系起來:一個理解行動控制的框架,可以追溯到威廉·詹姆斯(1890)和后來的“事件編碼”和“預期行為控制”理論(Hommel et al. 2001,霍夫曼 2003)。意念運動理論表明,動作?效果聯系(類似于前向模型)是認知架構中的關鍵機制。重要的是,這些鏈接可以雙向使用。當它們用于作用?效果方向時,它們允許生成感官預測;當它們用于效果?動作方向時,它們允許選擇實現所需感知結果的動作 這意味著動作是根據其預測的結果來選擇和控制的(因此稱為“ideo + motor”)。這種行動控制的預期觀點得到了大量文獻的支持,這些文獻記錄了(預期的)行動后果對行動選擇和執行的影響(Kunde et al. 2004)。主動推理提供了這一想法的數學特征,其中還包括其他機制,例如精確控制和感覺衰減的重要性,這些機制在意念運動理論中尚未得到充分研究(但與意念運動理論兼容)。
10.6.2 控制論
主動推理與控制論思想密切相關,這些思想涉及行為的有目的的、目標導向的性質以及(基于反饋的)主體與環境交互的重要性,如 TOTE(測試、操作、測試、退出)和相關的例子所示。模型(Miller 等人,1960 年;Pezzulo、Baldassarre 等人,2006 年)。在 TOTE 和主動推理中,動作的選擇是由首選(目標)狀態和當前狀態之間的差異決定的。這些方法不同于簡單的刺激?反應關系,正如行為主義理論和強化學習等計算框架中更常見的假設(Sutton 和 Barto 1998)。
主動推理中的動作控制概念特別類似于感知控制理論(Powers 1973)。感知控制理論的核心概念是受控制的是感知狀態,而不是運動輸出或動作。在駕駛時,我們所控制的——并且在面對干擾時保持穩定——是我們的參考或期望速度(例如,90 英里/小時),如速度計所指示的,而我們為此選擇的動作(例如,加速或減速)更易變并且依賴于上下文。例如,根據干擾(例如,風、陡峭的道路或其他汽車),我們需要加速或減速來保持參考速度。這一觀點實現了威廉·詹姆斯(1890)的建議,即“人類通過靈活的手段實現穩定的目標
雖然在主動推理和感知控制理論中,控制動作的是感知(特別是本體感受)預測,但這兩種理論在控制的操作方式上有所不同。在主動推理(而不是感知控制理論)中,動作控制具有基于生成模型的預期或前饋方面。相反,感知控制理論假設反饋機制在很大程度上足以控制行為,而嘗試預測干擾或施加前饋(或開環)控制是毫無價值的。不過,這種反對意見主要是指在解決使用逆控制理論的局限性正向模型(參見下一節)。在主動推理下,生成或前向模型不用于預測干擾,而是用于預測未來(期望的)狀態和通過行動實現的軌跡,并推斷感知事件的潛在原因。
最后,主動推理和感知控制理論之間的另一個重要聯系點是它們概念化控制層次結構的方式。感知控制理論提出,更高層次的控制低層次是通過設置參考點或設定點(即他們必須實現的目標),讓他們自由選擇實現目標的手段,而不是通過設置或偏向較低級別必須執行的行動(即,如何操作)。這與大多數分層和自上而下控制理論形成鮮明對比,在這些理論中,較高級別要么直接選擇計劃(Botvinick 2008),要么偏向較低級別的行動或運動命令的選擇(Miller 和 Cohen 2001)。與感知控制理論類似,在主動推理中,人們可以根據目標和子目標的(自上而下)級聯分解層次控制,這些目標和子目標可以在適當的(較低)級別自主實現。此外,在主動推理中,控制層次的不同級別所表示的目標的貢獻可以通過激勵過程進行調節(精確加權),從而優先考慮更顯著或更緊急的目標(Pezzulo,Rigoli) ,和弗里斯頓 2015,2018)。
10.6.3 最優控制理論
主動推理解釋動作控制的方式與神經科學中的其他控制模型顯著不同,例如最優控制理論(Todorov 2004,Shadmehr et al. 2010)。該框架假設大腦的運動皮層使用將刺激映射到反應的(反應性)控制策略來選擇動作。相反,主動推理假設運動皮層傳達預測,而不是命令。此外,雖然最優控制理論和主動推理都吸引內部模型,但它們以不同的方式描述內部模型(Friston 2011)。在最優控制中,兩種內部模型之間存在區別:逆模型對刺激響應偶然事件進行編碼并選擇運動命令(根據某些成本函數),而正向模型對行動結果偶然事件進行編碼并為逆模型提供模擬結果。輸入來代替噪聲或延遲反饋,從而超越了純粹的反饋控制方案。逆向和正向模型還可以在與外部動作感知分離的循環中運行(即,當輸入和輸出被抑制時),以支持動作序列的內部“假設”模擬。這種對動作的內部模擬與各種認知功能有關,例如社會領域的計劃、動作感知和模仿(Jeannerod 2001,Wolpert 等人 2003)以及各種運動障礙和精神病理學(Frith 等人) .2000)。
與正向?逆向建模方案相反,在主動推理中,正向(生成)模型負責動作控制的繁重工作,而逆向模型則非常簡單,并且通常簡化為在外周水平(即在腦干或大腦中)解決的簡單反射。 當預期狀態和觀察到的狀態(例如,期望的、當前的手臂位置)之間存在差異時,即感官預測誤差,就會開始采取行動。這意味著電機命令相當于正向模型做出的預測,而不是最優控制中逆向模型計算的結果。感覺(更準確地說,本體感受)預測誤差通過動作(即手臂運動)來解決。通過行動填補的空白被認為非常小,以至于不需要復雜的逆模型,但需要簡單得多的運動反射(Adams、Shipp 和 Friston 20131).運動反射比逆模型更簡單的原因在于,它不編碼從推斷的世界狀態到動作的映射,而是編碼動作和感覺結果之間更簡單的映射。參見 Friston、Daunizeau 等人。 (2010)進一步討論。最佳電機控制和主動控制之間的另一個關鍵區別推論是,前者使用成本或價值函數的概念來激勵行動,而后者則用貝葉斯先驗概念(或先驗偏好,隱含在預期自由能中)取代它正如我們在下一節。
10.7 效用和決策
Action expresses priorities.
—Mahatma Gandhi
狀態成本或價值函數的概念是許多領域的核心,例如最優運動控制、效用最大化的經濟理論和強化學習。例如,在最優控制理論中,到達任務的最優控制策略通常被定義為最小化特定成本函數的策略(例如,更平滑或具有最小的加加速度)。在強化學習問題中,例如在包含一種或多種獎勵的迷宮中導航,最優策略是允許最大化(折扣)獎勵同時最小化移動成本的策略。這些問題通常使用貝爾曼方程(或連續時間的哈密爾頓?雅可比?貝爾曼方程)來求解,其一般思想是決策的問題可以分解為兩部分:立即獎勵和決策問題剩余部分的價值。這種分解提供了動態規劃的迭代過程,這是控制理論和強化學習(RL)的核心(Bellman 1954)。
主動推理與上述方法有兩個主要不同之處。首先, 主動推理不僅僅考慮效用最大化,而是考慮(預期)自由能最小化的更廣泛目標,其中還包括其他(認知)命令,例如消除當前狀態的歧義和尋求新穎性 (見圖2.5)。這些額外的目標有時會添加到經典獎勵中,例如作為“新奇獎勵”(Kakade 和 Dayan 2002)或“內在獎勵”(Schmidhuber 1991,Oudeyer 等人 2007,Baldassarre 和 Mirolli 2013,Gottlieb 等人 2013)但它們在主動推理中自動出現,使其能夠解決探索?利用平衡。原因是自由能是信念的函數,這意味著我們處于信念優化領域,而不是外部獎勵函數。這對于探索性問題至關重要,其中的成功取決于解決盡可能多的不確定性。
???
其次,在主動推理中,成本的概念被吸收到先驗中。先驗(或先驗偏好)指定了控制目標,例如要遵循的軌跡或要到達的終點。使用先驗來編碼首選觀察結果(或序列)可能比使用實用程序更具表現力(Friston、Daunizeau 和 Kiebel 2009)。使用這種方法,尋找最優策略被重新定義為一個推理問題(實現首選軌跡的一系列控制狀態),并且不需要價值函數或貝爾曼方程 盡管可以訴諸類似的方法如遞歸邏輯(Friston、Da Costa 等人,2020)。主動推理和強化學習中通常使用先驗函數和值函數的方式之間至少存在兩個根本區別。首先,強化學習方法使用狀態或狀態?動作對的值函數,而主動推理則使用觀測值的先驗。其次,價值函數是根據遵循特定策略的狀態(或在狀態中執行操作)的預期回報來定義的,即從該狀態開始然后獲得的未來(貼現)獎勵的總和執行政策。相比之下,在主動推理中,先驗通常不會對未來的獎勵進行求和,也不會對其進行折扣。相反,當預期自由能達到時,類似于預期回報的東西才會出現在主動推理中。這意味著預期自由能是最接近價值函數的模擬。然而,即使如此,預期自由能是關于state的信念的函數,而不是state的函數 a functional of beliefs about states, not a function of states,這一點也有所不同。話雖如此,構建類似于 RL 中狀態的價值函數的先驗是可能的,例如,通過緩存這些狀態中的預期自由能計算(Friston、FitzGerald 等人,2017)。2016年;邁斯托、弗里斯頓和佩祖洛 (2019)。
此外,將效用utility的概念吸收到先驗中有一個重要的理論結果:先驗扮演目標的角色,并使生成模型有偏見——或樂觀,在某種意義上,生物相信它會遇到更好的結果。正是這種樂觀使推斷的計劃在積極的推理中達到預期的結果;這種樂觀的失敗可能對應于冷漠(Hezemans et al. 2020)。這與其他正式的決策方法形成了鮮明的對比,例如貝葉斯決策理論,它將事件的概率與其效用分開。話雖如此,這種區分有些膚淺,因為效用函數總是可以被重寫為編碼先驗信念,這與最大化效用函數的行為是先驗的(通過設計)更有可能的事實是一致的。從通貨緊縮的角度來看(稍微有點偏離邏輯),這就是效用的定義。
10.7.1 貝葉斯決策理論(次優)
貝葉斯決策理論是一個數學框架,它將貝葉斯大腦的思想(如上所述)擴展到決策、感覺運動控制和學習領域(Kording and Wolpert 2006,Shadmehr et al. 2010,Wolpert and Landy 2012)。貝葉斯決策理論根據兩個不同的過程來描述決策。第一個過程使用貝葉斯計算來預測未來(行動或政策相關)結果的概率,第二個過程使用(固定或學習的)效用或成本函數定義對計劃的偏好。最終決策(或行動選擇)過程整合了兩個流,從而選擇(以更高的概率)具有更高概率產生更高獎勵的行動計劃。這與主動推理形成鮮明對比,在主動推理中,先驗分布直接表明什么對有機體有價值(或者在進化歷史中什么是有價值的)。然而,貝葉斯決策理論的兩個流派與變分自由能和預期自由能的優化之間可以分別進行相似之處。在下面主動推理,變分自由能的最小化提供了關于世界狀態及其可能演化的準確(且簡單)的信念。先前的信念是,通過政策選擇,預期的自由能將被最小化,這包含了偏好的概念。
在一些圈子里,人們對貝葉斯決策理論的地位感到擔憂。這是從完整的類定理(Wald 1947,Brown 1981)得出的,該定理說,對于任何給定的決策和成本函數對,存在一些使貝葉斯決策最優的先驗信念。這意味著在單獨處理先驗信念和成本函數時存在隱含的二元性或簡并性。從某種意義上說,主動推理通過將效用或成本函數吸收到偏好形式的先驗信念中來解決這種退化問題。
10.7.2 強化學習(次優)
強化學習(RL)是一種解決馬爾可夫決策問題的方法,在人工智能和認知科學中都很流行(Sutton 和 Barto 1998)。它側重于智能體如何通過反復試驗來學習策略(例如,桿平衡策略):通過嘗試行動(例如,向左移動)并根據行動成功(例如,桿平衡)或接收積極或消極的強化失敗(例如,桿子掉落)。
主動推理和強化學習解決了一系列重疊的問題,但在數學和概念上在許多方面有所不同。如上所述,主動推理省去了獎勵、價值函數和貝爾曼最優性的概念,而這些概念是強化學習方法的關鍵。此外,政策概念在兩個框架中的使用方式也不同。在強化學習中,策略表示一組需要學習的刺激?響應映射。在主動推理中,策略是生成模型的一部分:它表示需要推斷的一系列控制狀態。
強化學習方法有很多,但它們可以分為三個主要類別。前兩種方法嘗試學習良好的(狀態或狀態動作)價值函數,盡管以兩種不同的方式。
RL 的無模型方法直接從經驗中學習價值函數:它們執行操作、收集獎勵、更新其價值函數,并使用它們來更新其策略。它們被稱為無模型的原因是因為它們不使用允許預測未來狀態的(轉換)模型 類似于主動推理中使用的那種。相反,它們隱含地訴諸于更簡單的模型(例如,狀態?動作映射)。無模型強化學習中的學習價值函數通常涉及計算獎勵預測錯誤,如流行的時間差異規則。雖然主動推理經常引起預測錯誤,但這些都是狀態預測錯誤(因為主動推理中沒有獎勵的概念)。
基于模型的強化學習方法不會直接從經驗中學習價值函數或策略。相反,他們從經驗中學習任務模型,使用該模型進行計劃(模擬可能的經驗),并根據這些模擬經驗更新價值函數和策略。雖然主動推理和強化學習都適合基于模型的規劃,但它們的使用方式有所不同。在主動推理中,規劃是計算每個策略的預期自由能,而不是更新價值函數的手段。可以說,如果預期自由能被視為價值函數,則可以說使用生成模型得出的推論用于更新該函數,從而在這 些方法之間提供了一個類比點。
強化學習方法的第三個系列是策略梯度方法,它試圖直接優化策略,而不需要中間值函數,而中間值函數是基于模型和無模型強化學習的核心。這些方法從參數化策略開始,能夠生成(例如)運動軌跡,然后通過更改參數來優化它們,以在軌跡導致高(低)正獎勵時增加(減少)策略的可能性。 這種方法將策略梯度方法與主動推理聯系起來,這也省去了價值函數(Millidge 2019)。然而,政策梯度的總體目標(最大化長期累積獎勵)不同 來自主動推理。
除了主動推理和強化學習之間的形式差異之外,還存在一些重要的概念差異。一個區別在于這兩種方法如何解釋目標導向行為和習慣行為。在動物學習文獻中,目標導向的選擇是通過對行動與其結果之間的偶然性的(前瞻性)知識來調節的(Dickinson and Balleine 1990),而習慣性選擇不是前瞻性的,而是依賴于更簡單的選擇(例如,刺激?反應)機制。強化學習中的一個流行觀點是,目標導向和習慣性選擇分別對應于基于模型和無模型的強化學習,并且這些選擇是并行獲得的,并不斷競爭以控制行為(Daw et al. 2005)。
相反,主動推理將目標導向和習慣性選擇映射到不同的機制。在主動推理(離散時間)中,策略選擇本質上是基于模型的,因此符合目標導向的深思熟慮選擇的定義。這與基于模型的強化學習中發生的情況類似,但有所不同。在基于模型的強化學習中,行動是在預期中選擇的方式(使用模型)但以反應方式進行控制(使用刺激?反應政策);在主動推理中,可以通過實現本體感受預測以主動的方式控制動作(關于動作控制,請參閱第 10.6 節)。
在主動推理中,可以通過執行目標導向的策略,然后緩存有關哪些策略在哪些上下文中成功的信息來獲得習慣。緩存的信息可以合并為策略的先驗值(Friston、FitzGerald 等人,2016 年;Maisto、Friston 和 Pezzulo,2019 年)。該機制允許無需深思熟慮地執行具有較高先驗價值(在給定上下文中)的策略。這可以簡單地被認為是通過多次參與一項任務來觀察“我做了什么”并了解到“我是那種傾向于這樣做的生物”。與無模型強化學習不同,在無模型強化學習中,習慣是獨立于目標導向的策略選擇而獲得的,而在主動推理中,習慣是通過反復追求目標導向的策略(例如,通過緩存其結果)來獲得的。
在主動推理中,目標導向和習慣機制可以合作而不僅僅是競爭。這是因為對政策的先驗信念取決于習慣項(政策的先驗值)和深思熟慮的項(預期自由能)。主動推理的分層闡述表明,反應性和目標導向的機制可以按層次結構排列,而不是并行路徑(Pezzulo、Rigoli 和 Friston 2015)。
最后,值得注意的是主動推理和強化學習在以下方面有細微的區別:2012)。在這些方法中,規劃是通過推斷后驗進行的他們如何看待行為及其原因。強化學習源自行為主義理論,認為行為是由強化介導的試錯學習的結果。相反,主動推理假設行為是推理的結果。這將我們引向下一點。
10.7.3Planning as Inference
就像可以將感知問題轉化為推理問題一樣,也可以將控制問題轉化為(近似)貝葉斯推理(Todorov 2008)。與此相一致,在主動推理中,規劃被視為推理過程:對生成模型的一系列控制狀態進行推理。這個想法與其他方法密切相關,包括控制即推理(Rawlik et al. 2013,Levine 2018)、規劃即推理(Attias 2003,Botvinick 和 Toussaint 2012)以及風險敏感和KL 控制(卡彭等人。2012)。規劃通過使用動態生成模型推斷動作或動作序列的后驗分布來進行,該動態生成模型編碼狀態、動作和未來(預期)狀態之間的概率偶然性。最佳行動或計劃可以通過觀察未來回報(佩祖洛和里戈利2011年,索爾維和伯特溫尼克2012年)或最佳未來軌跡(萊文2018年)的條件生成模型來推斷。例如,可以將模型中的未來期望狀態固定(即,固定其值),然后推斷出更有可能填補從當前狀態到未來期望狀態的差距的動作序列
主動推理、推理規劃和其他相關方案使用前瞻性控制形式,該控制形式從未來待觀察狀態的明確表示開始,而不是從一組刺激響應規則或政策開始。更常見的是最優控制理論和強化學習。然而,控制和規劃作為推理的具體實現至少在三個維度上有所不同 即,它們使用什么形式的推理(例如,采樣或變分推理),它們推理什么(例如,后驗分布)動作或動作序列),以及推理的目標(例如,最大化最優條件的邊際可能性或獲得獎勵的概率)。
主動推理對每個維度都采取獨特的視角。
首先,它使用可擴展的近似方案(變分推理)來解決規劃即推理過程中出現的具有挑戰性的計算問題2。其次,它提供基于模型的規劃,或對控制狀態的后驗推斷 對應于行動序列或策略,而不是單個行動。第三,為了推斷行動序列,主動推理考慮了預期的自由能泛函,它在數學上包含了其他廣泛使用的規劃即推理方案(例如 KL 控制),并且可以處理不明確的情況(Friston、Rigoli 等人,2015 年)。
10.8 行為和有限理性
The wise are instructed by reason, average minds by experience, the stupid by necessity and the brute by instinct.
—Marcus Tullius Cicero
主動推理中的行為自動結合了多個組成部分:深思熟慮的、堅持不懈的和習慣性的(Parr 2020)。想象一下一個人正走向她家附近的一家商店。如果她預見到后果根據她的行為(例如,左轉或右轉),她可以制定一個到達商店的好計劃。這種深思熟慮的行為是由預期的自由能提供的,當一個人以某種方式采取行動以實現首選觀察時(例如,在商店里),預期的自由能會最小化。請注意,預期的自由能還包括減少不確定性的動力,這可以在深思熟慮中體現出來。例如,如果該人不確定最佳方向,她可以移動到適當的有利位置,從那里她可以輕松找到通往商店的路,即使這意味著更長的路線。簡而言之,她的計劃獲得了認知affordance可供性。
如果該人不太能夠進行思考(例如,因為她分心),她可能會在到達商店后繼續行走。行為的這種持久性是由變分自由能提供的,當人們收集與當前信念(包括關于當前行為過程的信念)相一致的觀察結果時,變分自由能就會最小化。人收集的感官和前本體感受觀察為“行走”提供了證據,因此可以在沒有深思熟慮的情況下決定堅持不懈。
最后,當這個人不太能夠深思熟慮時,他可以做的另一件事是選擇通常的回家計劃,而不需要考慮它。這種習慣成分是由策略的先驗值提供的。這可能會為回家的計劃分配很高的概率 她觀察到自己過去多次制定了這個計劃如果不經過深思熟慮的話,它可能會成為主導。
請注意,行為的深思熟慮、堅持不懈和習慣性方面是共存的,并且可以在主動推理中結合起來。換句話說,我們可以推斷,在這種情況下,一種習慣是最有可能的行動方案。這與“雙重理論”不同,“雙重理論”假設我們是由兩個獨立的系統驅動的,一個是理性的,一個是直覺的(Kahneman 2017)。行為的深思熟慮、堅持不懈和習慣性方面的混合似乎取決于情境條件,例如人們可以在可能具有高復雜性成本的深思熟慮過程中投入的經驗量和認知資源量3。
認知資源對決策的影響已在有限理性的框架下得到了廣泛的研究(Simon 1990)。其核心思想是,雖然理想的理性主體應該始終充分考慮其行為的結果,但有限理性主體必須平衡計算的成本、努力和及時性,例如,審議最佳計劃的信息處理成本(Todorov 2009,Gershman 等人 2015)。
10.8.1 有限理性自由能理論
有限理性是根據亥姆霍茲自由能最小化來表達的:一種與主動推理中使用的變分自由能概念嚴格相關的熱力學結構;有關詳細信息,請參閱 Gottwald 和 Braun (2020)。 “有限理性的自由能理論”根據自由能的兩個組成部分:能量和熵,闡述了行動選擇與有限信息處理能力的權衡(見第二章)。前者代表選擇的預期價值(準確度術語),后者代表深思熟慮的成本(復雜性術語)。在深思熟慮過程中,代價高昂的是在選擇使信念更加精確之前降低信念的熵(或復雜性)(Ortega and Braun 2013,Zénon et al. 2019)。直觀上,具有更精確的后驗信念的選擇會更準確(并且可能需要更高的效用),但由于提高信念的精確度是有成本的,因此有界決策者必須找到折衷方案 通過最小化自由能。同樣的權衡也出現在主動推理中,從而產生了有限理性的形式。有限理性的概念也與證據變分界限(或邊際可能性)的使用產生共鳴,這是主動推理的一個確定方面。總之,主動推理提供了(有限)理性和最優性的模型,其中給定問題的最佳解決方案來自互補目標之間的折衷:準確性和復雜性。這些目標源于規范(自由能最小化)的要求,它比經濟理論中通常考慮的經典目標(例如效用最大化)更豐富。
10.9 Valence, Emotion, and Motivation
Consider your origins: you were not made to live as brutes, but to follow virtue and knowledge.
—Dante Alighieri
主動推理側重于(負)自由能作為適應性和有機體實現其目標的能力的衡量標準。雖然主動推理提出生物會采取行動來最小化它們的自由能,但這并不意味著它們必須計算它。一般來說,處理自由能的梯度就足夠了。以此類推,我們不需要知道我們的海拔高度即可找到山頂,但只需沿著斜坡向上即可。然而,一些人建議生物可以模擬它們的自由能如何隨時間變化。這一假設的支持者認為,它可能允許對valence, emotion, and motivation.等現象進行表征。
根據這種觀點,有人提出 emotional valence, or thepositive or negative character of emotions,可以被視為自由能隨時間的變化率(一階導數)(Joffily 和 Coricelli 2013)。
具體來說,當一個生物的自由能隨著時間的推移而增加時,它可能會為這種情況分配一個負價;而當它的自由能隨著時間的推移而減少時,它可能會賦予它正價。將這一思路延伸到自由能(和二階導數)的長期動態,也許可以描述復雜的情緒狀態;例如,從低價態過渡到高價態的欣慰,或者從高價態過渡到低價態的失望。監測自由能動態(以及它們引發的情緒狀態)可能允許根據長期環境統計數據調整行為策略或學習率。
假設第二個生成模型的作用是監控第一個生成模型的自由能,這似乎有點跳躍。然而,這些想法還可以通過另一種方式來解釋。這些觀點的一個有趣的形式化在于思考是什么導致了自由能的快速變化。由于它是信念的函數,自由能的快速變化必定是由于信念的快速更新。該速度的關鍵決定因素是精度precision,它在預測編碼的動態中充當時間常數。有趣的是,這與自由能高階導數的概念相關,因為精度是二階導數的負數(即自由能的曲率curvature of a free energy landscape)。然而,這引出了一個問題:為什么我們應該將精度與效價聯系起來。答案來自于注意到精確性與模糊性成反比。事物越精確,其解釋就越不模糊。選擇最小化預期自由能的行動方案也意味著最小化模糊性,從而最大化精度。在這里,我們看到自由能的高階導數、其變化率和動機行為之間的直接關聯。
對自由能(增加或減少)的期望也可能發揮激勵作用并激勵行為。在主動推理中,代理對自由能變化(增加或減少)的預期是對政策信念的精確性。這再次凸顯了二階統計量的重要性。例如,高度精確的信念表明人們已經找到了一項好的政策,即一項可以自信地預期能夠最大限度地減少自由能的政策。有趣的是,政策(信念)的精確性與多巴胺信號傳導有關(FitzGerald、Dolan 和 Friston 2015)。從這個角度來看,提高政策信念精確度的刺激會引發多巴胺爆發 這可能表明它們的激勵顯著性(Berridge 2007)。這種觀點可能有助于闡明將目標或獎勵實現的期望與注意力的增加(Anderson et al. 2011)和動機(Berridge and Kringelbach 2011)聯系起來的神經生理學機制。
10.10 穩態、動態平衡和內感受處理 Homeostasis, Allostasis, and Interoceptive Pro cessing?
There ismore wisdom in your body than in your deepest philosophy.
—Friedrich Nietzsche
生物的生成模型不僅與外部世界有關,而且還也許更重要的是 關于內部環境。身體內部(或內感受圖式interoceptive schema)的生成模型具有雙重作用:解釋內感受(身體)感覺是如何產生的,并確保生理參數的正確調節(Iodice et al. 2019),例如體溫或血液中的糖含量。控制論理論(在第 10.6.2 節中提到)假設生物體的中心目標是維持體內平衡(Cannon 1929) 確保生理參數保持在可行的范圍內(例如,體溫永遠不會變得太高) 并且體內平衡只能通過對環境的成功控制來實現(Ashby 1952)。這種形式的穩態調節可以在主動推理中通過指定生理參數的可行范圍作為內感受觀察的先驗來實現。有趣的是,體內平衡調節可以通過多種嵌套方式實現。最簡單的調節回路是當某些參數(預計)超出范圍時(例如,當體溫過高時),自主反射(例如,血管舒張)的參與。這種自主控制可以構建為內感受推理:在內感受 interoceptive流上運行的主動推理過程而不是本體感受 proprioceptive流,如外部定向動作的情況(Seth et al. 2012、Seth and Friston 2016、Allen et al. 2019)。為此,大腦可以使用生成模型來預測內感受和生理流并觸發自主反射來糾正內感受預測錯誤(例如,令人驚訝的高體溫)。這類似于激活運動反射以糾正本體感覺預測錯誤和引導外部指導行動的方式。
主動推理超越了簡單的自主循環:它可以糾正以越來越復雜的方式產生相同的內感受預測錯誤(高體溫)(Pezzulo、Rigoli 和 Friston 2015)。它可以使用預測性的變穩態策略(Sterling 2012,Barrett and Simmons 2015,Corcoran et al. 2020),超越穩態,在觸發內感受預測錯誤之前以變穩態的方式先發制人地控制生理學 ,例如,在過熱之前尋找陰涼處。另一種預測策略需要在預期偏離生理設定點之前調動資源,例如,在長跑之前增加心輸出量,以預期氧氣需求增加。這需要動態地修改內感受觀察的先驗,超越穩態(Tschantz et al. 2021)。最終,預測大腦可以制定復雜的目標導向策略,例如確保將冷水帶到海灘,以更豐富、更有效的方式滿足同樣的要求(控制體溫)。
生物和內感受調節可能對于情感和情緒affect and emotional處理至關重要(Barrett 2017)。在情境交互過程中,大腦的生成模型不僅不斷預測接下來會發生什么,而且還預測內感受和動態平衡的后果。內感受流 在感知外部物體和事件期間引發給它們注入情感維度,這表明它們對于生物的動態平衡和生存有多好或多壞,從而使它們“有意義”。如果這種觀點是正確的,那么這種內感受和變穩態處理的障礙可能會導致情失調和各種精神病理狀況(Pezzulo 2013;Barrett et al. 2016;Barca et al. 2019;Pezzulo, Maisto et al. 2019)
內感受推理有一個新興的伙伴即情感推理。在主動推理的這種應用中,情緒被認為是生成模型的一部分:它們只是大腦用來在深度生成中部署精度的另一種構造或假設。從信念更新的角度來看,這意味著焦慮只是對貝葉斯信念“我很焦慮”的承諾,它最好地解釋了普遍的感覺和內感受隊列。從行動的角度來看,隨后的(內感受)預測增強或減弱了各種精確度(即隱蔽行動)或奴役自主反應(即公開行動)From the perspective of acting, the ensuing (interoceptive) predictions augment or attenuate vari ous precisions (i.e., covert action) or enslave autonomic responses (i.e., overt action)。
這可能看起來很像覺醒,證實了“我很焦慮”的假設。通常,情緒推理需要領域通用的信念更新,吸收來自內感受和外感受感覺流的信息,因此情緒、內感受和健康注意力之間存在密切關系(Seth 和 Friston 2016;Smith,Lane 等,2016) intimate relationship betweenemotion, interoception, and attention in health and disease
10.11 注意力、顯著性和認知動態 Attention, Salience, and Epistemic Dynamics
True ignorance is not the absence of knowledge, but the refusal to acquire it.
—Karl Popper
鑒于我們僅在本章中就多次提到精度和預期自由能,如果不花一點空間來關注和突出,那就太疏忽了。這些概念在整個心理學中反復出現,并經過多次重新定義和分類。有時,這些術語用于指代突觸增益控制機制synaptic gain control mechanisms(Hillyard et al. 1998),該機制優先選擇某種感覺模態或模態內的通道子集。有時它們指的是我們如何通過公開或秘密的行動來定位自己,以獲得更多關于世界的信息(Rizzolatti et al. 1987; Sheliga et al. 1994, 1995)。
盡管注意力的多種含義帶來了不確定性證明了該研究領域的一些認知吸引力,但解決隨之而來的歧義也具有價值。心理學的正式觀點提供的一件事是我們不需要擔心這種歧義。我們可以在操作上將注意力定義為與某些感官輸入相關的精確度。這巧妙地映射到增益控制的概念,因為我們推斷為更精確的感覺將比那些推斷為不精確的感覺對信念更新產生更大的影響。這種關聯的結構有效性已經通過心理學范式得到了證明,包括著名的波斯納范式(費爾德曼和弗里斯頓2010)。具體來說,對視覺空間中具有更高精度 afforded a higher precision的位置處的刺激做出響應比對其他位置的刺激做出響應要快。
這使得術語“顯著性”需要類似的正式定義。通常,在主動推理中,我們將顯著性與預期信息增益(或認知值)相關聯:預期自由能的組成部分。直覺上,當我們期望某件事能產生更多信息時,它就更顯著。然而,這定義了行動或政策的顯著性,而注意力是關于感官輸入的信念的一個屬性。這符合顯著性作為顯性或隱性定向的概念。我們在第七章中看到,我們可以將預期信息增益進一步細分為顯著性和新穎性。前者是推理的潛力,后者是學習的潛力。表達注意力和顯著性(或新穎性)之間差異的類比是科學實驗的設計和分析。注意力是從我們已經測量的數據中選擇最高質量的數據并使用這些數據為我們的假設檢驗提供信息的過程。顯著性是下一個實驗的設計,以確保最高質量的數據。
我們并不是為了簡單地在文獻中添加對注意力現象的另一種重新分類而詳細討論這個問題,而是為了強調致力于形式心理學的重要優勢。在主動推理下,其他人是否以不同的方式定義注意力(或任何其他構造)并不重要,因為我們可以簡單地引用所討論的數學構造并排除任何混淆。最后要考慮的一點是,這些定義為為什么注意力和顯著性經常被混為一談提供了簡單的解釋。高度精確的數據很少有歧義。這意味著他們應該受到關注,并且獲取這些數據的行動非常重要(Parr 和 Friston 2019a)。
10.12 規則學習、因果推理和快速泛化 Rule Learning, Causal Inference, and Fast Generalization
Yesterday I was clever, so I wanted to change the world. Today I am wise, so I am changing myself.
—Rumi
與當前的機器相比,人類和其他動物擅長做出復雜的因果推論,學習抽象概念和物體之間的因果關系,并從有限的經驗中進行概括學習范式,需要大量的例子才能獲得相似的性能。這種差異表明,當前的機器學習方法主要基于復雜的模式識別,可能無法完全捕捉人類學習和思考的方式(Lake et al. 2017)。
主動推理的學習范式基于生成模型的開發,該模型捕獲動作、事件和觀察之間的因果關系。在本書中,我們考慮了相對簡單的任務(例如,第 7 章的 T 迷宮示例),這些任務需要不復雜的生成模型。相比之下,對復雜情況的理解和推理需要深度生成模型來捕獲環境的潛在結構,例如允許在許多明顯不同的情況下進行泛化的隱藏規律(Tervo 等,2016年;弗里斯頓,林等人。 2017)。
管理復雜社交互動的隱藏規則的一個簡單例子是交通路口。想象一下,一個天真的人觀察了一個繁忙的十字路口,并且必須預測(或解釋)行人或汽車何時過馬路。人們可以積累有關同時發生的事件的統計數據(例如,一輛紅色汽車停下來,一個高個子男人過馬路;一個老婦人停下來,一輛大車經過),但大多數最終都是無用的。人們最終可以發現一些重復出現的統計模式,例如在所有汽車停在道路上的某個點后不久,行人就會過馬路。如果任務只是預測行人何時即將行走,那么在機器學習環境中,這種確定就足夠了,但不需要對情況有任何了解。事實上,這甚至可能導致錯誤的結論:汽車的停止解釋了行人的移動。這種錯誤在機器學習應用程序中很常見,這些應用程序不吸引(因果)模型,并且無法區分是下雨解釋了濕草還是濕草解釋了下雨(Pearl 和 Mackenzie 2018)。
另一方面,推斷正確的隱藏(例如,交通燈)規則可以更深入地理解情況的因果結構(例如,交通燈導致汽車停車和行人行走)。隱藏規則不僅提供了更好的預測能力,而且還使推理更加簡潔,因為它可以抽象出大多數感官細節(例如,汽車的顏色)。反過來,這允許推廣到其他情況,例如不同的十字路口或城市,其中大多數感官細節都存在顯著差異 ? 但需要注意的是,在某些情況下面臨十字路口像羅馬這樣的城市可能需要的不僅僅是看交通信號燈。最后,了解交通燈規則還可以在新情況下實現更有效的學習,或者發展心理學中所謂的“學習集”或機器學習中的學習能力(Harlow 1949)。當面對紅綠燈關閉的十字路口時,人們無法使用學到的規則,但可能會期望有另一個類似的隱藏規則在起作用,這可以幫助理解交警在做什么。
正如這個簡單的例子所示,學習豐富的環境潛在結構的生成模型(又名結構學習)可以提供復雜形式的因果推理和概括。擴大生成模型以解決這些復雜的情況是計算建模和認知科學的一個持續目標(Tenenbaum et al. 2006,Kemp and Tenenbaum 2008)。有趣的是,當前的機器學習趨勢(一般思想是“越大越好”)與主動推理的統計方法之間存在著緊張關系,這表明平衡模型的準確性與其復雜性和準確性的重要性。傾向于更簡單的模型。模型縮減(以及修剪不必要的參數)不僅僅是避免資源浪費的一種方法,它也是學習隱藏規則的有效方法,包括在睡眠等離線時段(Friston,Lin 等人,2017 年),也許表現在靜息狀態活動中(Pezzulo、Zorzi 和 Corbetta 2020)。
10.13 主動推理和其他領域:開放方向
It has to start somewhere, it has to start sometime,what better place than here? What better time than now?
—Rage Against the Machine, “Guerrilla Radio”
在本書中,我們主要關注解決生存和適應生物學問題的主動推理模型。然而主動推理可以應用于許多其他領域。在最后一節中,我們簡要討論兩個這樣的領域:社會和文化動態以及機器學習和機器人技術。
解決前者需要考慮多個主動推理代理交互的方式以及這種交互的新興影響。解決更復雜的問題 但以與理論的基本假設兼容的方式。兩者都是有趣的開放研究方向。
10.13.1 社會和文化動態
我們(人類)認知的許多有趣的方面都與社會和文化有關文化動態,而不是個人主義的看法,決定,和行動(Veissière等人,2020年)。根據定義,社會動力學需要multiple主動推理生物參與物理互動(例如,聯合行動,例如玩團隊運動)或更抽象的交互(例如,選舉或社交網絡)。互動的簡單演示相同生物之間的推論已經產生了有趣的emergent現象,例如簡單生命形式的自我組織抵制分散,參與形態發生過程的可能性獲取和恢復身體形態,以及相互協調的預測和話輪轉換(弗里斯頓2013;弗里斯頓和弗里斯2015a弗里斯頓,萊文等人。2015).其他模擬研究了生物可以將他們的認知擴展到物質人工制品,并塑造他們的認知生態位(Bruineberg等人2018年)。
這些模擬只捕捉到了我們社會復雜性的一小部分和文化動態,但它們說明了主動推理的潛力從個人科學擴展到社會科學——以及如何擴展認知超越了我們的頭腦(Nave et al. 2020)。
10.13.2 機器學習和機器人技術
本書討論的生成建模和變分推理方法廣泛應用于機器學習和機器人技術。在這些領域,重點通常是如何學習(聯結主義)生成模型而不是如何將它們用于主動推理,這是本書的重點。這很有趣,因為機器學習方法可能有助于擴大生成模型和本書中考慮的問題的復雜性,但需要注意的是,它們可能需要非常不同的主動推理過程理論。
雖然在這里不可能回顧有關機器學習生成模型的大量文獻,但我們簡要提及一些最流行的模型,并從中開發了許多變體。兩種早期的聯結主義生成模型,亥姆霍茲機和玻爾茲曼機(Ackley et al. 1985,Dayan et al. 1995)提供了范例如何以無監督方式學習神經網絡內部表示的示例。亥姆霍茲機與主動推理的變分方法尤其相關,因為它使用單獨的識別和生成網絡來推斷隱藏變量的分布,并從中采樣以獲得虛構數據。這些方法早期的實際成功是有限的。但之后,堆疊多個的可能性(受限)玻爾茲曼機能夠學習多層內部表示,是無監督深度神經網絡的早期成功之一(Hinton 2007)。
連接主義生成模型的兩個最新例子,變分自動編碼器或 VAE(Kingma 和 Welling,2014 年)和生成對抗網絡或 GAN(Goodfellow 等人,2014 年),廣泛用于機器學習應用,例如識別或生成圖片和視頻。 VAE 體現了變分方法在生成網絡學習中的優雅應用。他們的學習目標,即證據下界 (ELBO),在數學上等同于變分自由能。該目標使得能夠學習數據的準確描述(即,最大化準確性),但也有利于與先驗沒有太大差異的內部表示(即,最小化復雜性)。后一個目標充當所謂的正則化器,有助于泛化并避免過度擬合。
GAN 遵循不同的方法:它們結合了兩個網絡,一個生成網絡和一個判別網絡,這兩個網絡在學習過程中不斷競爭。判別網絡學習區分生成網絡生成的示例數據是真實的還是虛構的。生成網絡試圖生成欺騙判別網絡(即被錯誤分類)的虛構數據。這兩個網絡之間的競爭迫使生成網絡提高其生成能力并生成高保真度的虛構數據 這種能力已被廣泛用于生成逼真的圖像等。
上述生成模型(和其他模型)可用于控制任務。 例如,Ha 和 Eck(2017)使用(序列到序列)VAE 來學習預測鉛筆筆畫。通過從 VAE 的內部表示 中采樣,該模型可以構建新穎的基于筆劃的繪圖。玻爾茲曼機能夠學習多層內部表示,是無監督深度神經網絡的早期成功之一(Hinton 2007)。生成建模方法也已用于控制機器人運動。其中一些方法使用主動推理(Pio?Lopez 等人, 2016,桑卡塔爾等人 2020,西里亞等人 2021)或密切相關的想法,但在聯結主義背景下(Ahmadi 和 Tani 2019,Tani 和 White 2020)。
該領域的主要挑戰之一是機器人運動是高維的并且需要(學習)復雜的生成模型。主動推理和相關方法的一個有趣的方面是,要學習的最重要的事情是下一時間步驟的動作和感覺(例如,視覺和本體感覺)反饋之間的前向映射。這種前向映射可以通過多種方式學習:通過自主探索、通過演示,甚至通過與人類的直接交互例如,老師(實驗者)引導機器人的手沿著軌跡到達目標,從而構建有效的目標導向行動的獲取(Yamashita 和 Tani 2008)。以各種方式學習生成模型的可能性極大地擴展了機器人最終可以實現的技能范圍。反過來,使用主動推理開發更先進(神經)機器人的可能性不僅在技術上而且在理論上都很重要。事實上,主動推理的一些關鍵方面,例如自適應代理與環境交互、認知功能的集成以及體現的重要性,在機器人設置中自然得到解決。
10.14 總結
Home is behind, the world ahead,
and there are many paths to tread
through shadows to the edge of night,
until the stars are all alight.
—J. R. R. Tolkien,
The Lord of the Rings
我們在本書的開頭就提出了一個問題:是否有可能從第一原理來理解大腦和行為。然后,我們引入主動推理作為應對這一挑戰的候選理論。我們希望讀者相信我們最初問題的答案是肯定的。在本章中,我們考慮了主動推理為感知行為提供的統一視角,以及該理論對熟悉的心理結構(例如感知、行動選擇和情感)的影響。這使我們有機會重新審視整本書中介紹的概念,并提醒自己仍有待未來研究的有趣問題。我們希望本書為主動推理的相關著作提供有用的補充,一方面包括哲學(Hohwy 2013,Clark 2015),另一方面包括物理學(Friston 2019a)。
我們現在已經到了旅程的終點。我們的目標是提供向那些對使用這些方法感興趣的人進行介紹 無論是概念層面還是形式層面。然而,需要強調的是,主動推理并不是純粹在理論上可以學習的東西。我們鼓勵任何喜歡這本書的人考慮在實踐中追求它。理論神經生物學的重要階段是嘗試寫下生成模型,體驗模擬行為不當時的挫敗感,并在意外發生時從違反先前信念的行為中學習。無論您是否選擇在計算層面進行這種實踐,我們希望您在日常生活中進行主動推理時能夠進行反思。這可能表現為強迫你的眼睛去解決你周邊視覺中某些事物的不確定性。它可能是選擇在最喜歡的餐廳吃飯以滿足先前的(味覺)偏好。它可能是在淋浴太熱時減少熱量,以確保溫度符合您的世界應該如何的模型。最終,我們相信您將繼續以某種形式追求主動推理。
https://direct.mit.edu/books/oa-monograph/5299/Active-InferenceThe-Fre
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.