Flexible Learning and Re-ordering of Context-dependent Object Sequences in Nonhuman Primates2024.11.24.625056.full.pdf
非人靈長類動物中依賴上下文的物體序列的靈活學習與重新排序
https://www.biorxiv.org/content/10.1101/2024.11.24.625056.abstract
摘要
智能行為涉及以新穎的方式在心理上重新排列已學信息,這種能力在人類中尤為發達。雖然非人靈長類動物(NHP)能夠學會將新物品按復雜順序排列,并在該順序中重新排列相鄰的物品,但它們是否能夠更靈活地將物品重新分配到非相鄰位置仍存在爭議。這種心理上的重新索引是通過對經驗潛在時間結構的推斷實現的,而不是通過學習物品與物品之間的串行關聯。在此研究中,我們測試了恒河猴進行靈活心理重新索引的能力。受試者學會了按順序排列五個物體。背景環境的變化提示物體順序發生了變化,測試受試者是否能夠將物體重新排列到已學序列結構中的非相鄰位置。結果表明,受試者成功利用背景線索主動將物品重新索引到新的非相鄰位置。當初始順序在更高層次上被學習時,心理重新索引的可能性更大,并且隨著對重新索引規則的經驗增加而提高,同時與延遲匹配樣本任務中的工作記憶表現相關。這些發現表明,非人靈長類動物能夠推斷出超越物品間簡單鏈式關聯的潛在序列結構,并在該結構內重新排列物品。研究結果的模式表明,非人靈長類動物形成了其經驗的非空間認知地圖,這是許多序列化行為(包括交流、計數或覓食)中靈活心理操作的關鍵特征。
關鍵詞:序列學習;認知地圖;模式學習;認知靈活性;注意力;工作記憶
引言
心理靈活性指的是以新穎方式安排思想或行動的能力。許多序列化行為(包括交流、計數、問題解決和覓食)都需要靈活的心理操作(Davis 和 Pérusse,1988;McNamee 等,2021)。這些序列化行為的一個共同點是,當受試者能夠推斷出潛在的時間結構時,這種行為會變得更加復雜和靈活,從而可以在該結構上進行心理操作。推斷潛在時間結構并在該結構內重新排列表征的能力是智力測量的基礎,并且在人類中相較于非人靈長類動物(NHP)尤為發達(Dehaene,2021;Passingham,2021)。然而,非人靈長類動物在推斷抽象時間結構方面的能力如何,以及它們是否利用這種能力來靈活指導心理操作,仍然是一個有爭議的話題(Dehaene 等,2015;Whittington 等,2022;Passingham 和 Lau,2023)。
測試受試者如何從經驗中推斷潛在結構的強大范式涉及物品的序列化排列(Conway 和 Christiansen,2001;Terrace,2005)。使用序列學習范式的研究表明,非人靈長類動物能夠理解多物品序列中物體的相對序數位置(Damato 和 Colombo,1989,1990;Chen 等,1997;Orlov 等,2000;Jensen 等,2019;Mione 等,2020;Ferhat 等,2022;Jensen 等,2022),能夠在序列中交換相鄰物體的位置(Matsuzawa,1985;Scarf 等,2011),并能夠反向播放三物品序列(Xie 等,2022;Tian 等,2024)。盡管這些能力表明非人靈長類動物在操作排序項目時表現出心理靈活性,但它們也揭示了與人類相比的局限性,即非人靈長類動物難以從物品序列中提取超出串行鏈式關聯和秩序關聯的潛在時間結構(Dehaene 等,2015;Zhang 等,2022)。例如,將序列 A-B-C 反向播放為 C-B-A 的能力涉及將物品重新索引到新的位置(Tian 等,2024),但這種重新索引可以通過交換序列中相鄰物品的相對秩序實現,而無需表示抽象的時間結構或物品可以靈活分配的序數位置(Kao 等,2020)。
在此研究中,我們著手測試非人靈長類動物在 5 物體序列中對彼此非相鄰物品進行心理重新索引的能力。非人靈長類動物學習了 A-B-C-D-E 的物體序列,并被要求將非相鄰物品 B 和 D 重新排列為新的 A-D-C-B-E 序列。物品在不同時間位置上的重新排序可以通過獨立表示特定的物體項目及其潛在的序數結構來實現,物品可以被分配到該結構中(Tian 等,2024)。在計算模型中,經驗環境的潛在時間結構可以被推斷并表示為一種非空間的認知地圖,其中包含物品的位置,這使得物品可以靈活地重新索引到認知地圖的不同位置(Behrens 等,2018;Whittington 等,2022)。
我們使用 3D 渲染物體測試了四只恒河猴在觸摸屏亭站(位于其家庭籠中)上的物體序列學習和靈活重新排序能力(Womelsdorf 等,2021)。該范式要求非人靈長類動物在試驗中按照預定的順序選擇同時呈現的物體,每個試驗最多允許十五次選擇以完成序列并獲得液體獎勵(圖 1A)。當一個序列完成后,或達到十五次選擇的最大限制時,受試者會被呈現一個新的試驗,其中相同的物體被重新排列到新的位置,以防止使用空間策略。每個序列總共顯示十五次試驗。對于每次正確選擇物體,受試者會立即獲得視覺反饋(黃色光環;錯誤選擇:灰色光環)以及滑塊位置的增量(錯誤選擇:重置),這表明他們距離獲得液體獎勵還有多少步驟(見圖 1A 和補充視頻)。在完成十五次相同序列的試驗后,我們將背景(上下文 1)更改為新背景(上下文 2),其中顯示相同的物體,但需要一個新的預定順序,物體 B 和 D 交換位置。每對上下文 1/上下文 2 序列使用了一組獨特的物體。每個會話在早期區塊評估多個序列對,隨后進行延遲匹配樣本任務,接著在晚期區塊評估多個序列對(圖 1B)。
我們發現,受試者能夠快速學會完成 5 物體序列 A-B-C-D-E。當背景上下文發生變化以指示相同的物體被重新排序為 A-D-C-B-E 時,他們平均能夠預測物體 B 和 D 的交換位置,并在第二個序數位置選擇物體 D(圖 1C)。這種主動交換更可能發生在初始序列被更好掌握的情況下,并且與工作記憶表現呈會話級別的相關性。這些發現表明,非人靈長類動物能夠有效地利用上下文線索,將物體心理重新索引到潛在的時間結構中。
結果
快速學習物體序列
我們在 31.25 次實驗會話中測試了四只非人靈長類動物(NHP)的序列學習能力(受試者 B:13 次;J:40 次;K:59 次;S:13 次)。受試者在 5.34 ± 0.37 次試驗內學會了完成 5 物體序列,錯誤選擇次數不超過 10 次(受試者 B:9.55 ± 1.62;J:6.88 ± 0.68;K:3.61 ± 0.34;S:5.18 ± 0.93)(圖 1C)。在所有序列中,受試者成功學習了 88% 的序列,達到了 80% 的完成標準(受試者 B:80;J:87;K:93;S:92)(補充圖 S1A,B),在每個序數位置上都達到了高于隨機水平的準確率(補充圖 S1C,D)。學習逐漸通過序數位置推進,在平均 1.03 次試驗后達到第一個序數位置的 80% 完成率(± 0.03,95% 置信區間),在第 2 至第 5 序數位置分別在 1.30(± 0.11)、2.06(± 0.25)、2.98(± 0.39)和 4.24(± 0.53)次試驗后達到 80% 完成率(圖 1D, E)。學習是通過減少對物體的錯誤選擇實現的,而表現出固執傾向或違反任務規則的錯誤在整個過程中很少發生(補充圖 S1E,F)。反應時間隨著序數位置逐漸增加,這與之前的研究一致(補充圖 S2)(Colombo 等,1993)。
受試者主動重新排序已熟練掌握的物體序列中的非相鄰物體
接下來,我們測試了受試者是否能夠將已學序列 A-B-C-D-E 中的物體重新分配到不同的位置。當受試者完成了初始序列的 15 次試驗后,我們將背景上下文更改為新的上下文 2,并將相同的物體重新排列為新順序 A-D-C-B-E。在上下文 2 中,物體 B 和 D 的位置發生了交換(圖 2A,見補充視頻)。受試者成功利用上下文變化作為線索,并適應了上下文 2 中的交換,在平均 2.91 次試驗(± 0.61,均值 ± 95% 置信區間)后達到了 80% 的完成率,相比之下,在上下文 1 中學習初始序列需要 5.34 次試驗(± 0.73)(圖 2B)。在上下文 2 中更快的學習速度在每個受試者身上都很明顯(上下文 1/2 的序列完成率分別為:受試者 B:5.38(± 0.83)/ 3.85(± 0.73);J:4.71(± 0.53)/ 2.67(± 0.31);K:2.98(± 0.26)/ 1.97(± 0.17);S:5.38(± 0.87)/ 3.08(± 0.52))(圖 2C)。在上下文 1 和 2 中,反應時間在各個序數位置上相似(補充圖 S2)。
受試者如何適應上下文 2 中物體 B 和 D 的交換位置?
一種串行鏈式框架預測,受試者會在第二個序數位置錯誤地選擇物體 B,并通過在第三序數位置選擇下一個相鄰的物體 C 來調整這一錯誤,因為 C 的相對位置最接近第二個位置。與此串行推理不同,受試者也可能在第二個序數位置主動選擇物體 D。這將表明他們理解了 D 在上下文 1 中被索引到絕對第四位置,并且需要在上下文變化時重新排列為新的 A-D-C-B-E 序列。我們發現,總體上,受試者更可能將物體 D 從上下文 1 的第四序數位置重新索引到上下文 2 的第二序數位置,而不是選擇在上下文 1 中占據相鄰第三位置的物體 C。
首先,我們在達到完成率之前分析了上下文 2 中的選擇。當受試者在上下文 2 中錯誤地選擇物體 B 時,他們更有可能正確選擇物體 D,而不是物體 C(Welch's t 檢驗,p = 6.2 × 10^-9)(圖 2D)。這種在上下文 2 中對物體 D 的正確重新索引更可能發生在上下文 1 中的初始序列 A-B-C-D-E 達到 ≥80% 完成率的情況下(圖 2E)。當上下文 1 的完成率低于 80% 時,受試者同樣經常采用正確的重新索引策略(在第二位置選擇物體 D)和錯誤的串行推理策略(在第二位置選擇物體 C)(圖 2E)。
接下來,我們直接量化了受試者是否利用上下文線索主動交換物體,即——在正確選擇 A 后——他們是否在未達到 80% 完成率之前預計在上下文 2 的第二序數位置選擇物體 D,而不會錯誤地選擇物體 B。我們發現,與上下文 1 相比,在上下文 2 中,受試者更可能選擇物體 D 和物體 C,而不是物體 B(t 檢驗,p < 0.001;圖 2F)。直接比較上下文 1 和上下文 2 顯示,在達到 80% 完成率之前,選擇 D(表示交換)的可能性顯著高于選擇 C(表示串行推理)(t 檢驗,p = 0.05;圖 2F)。這一結果模式表明,在學習早期尚未達到 80% 完成率時,受試者同時考慮了物體 C 和物體 D 作為上下文 2 中可能的目標物體,但他們更傾向于預測物體 D 是在第二序數位置最可能正確的物體。
為了進一步測試受試者是否認為物體 D 是在上下文 2 中被交換到第二序數位置的正確物體,我們計算了他們在正確選擇 D 后選擇物體 C(正確)而非物體 E(錯誤)的可能性。受試者在上下文 2 中正確選擇 D 后更可能選擇物體 C,而不是物體 E,這表明他們將 D 交換到了更早的位置,而不是跳轉到他們在上下文 1 中學到的 D-E 序列的后半部分(圖 2H)(Welch’s t 檢驗,p < 1 × 10^-10;正確選擇物體 C:0.465 ± 0.014,錯誤選擇物體 E:0.206 ± 0.014,物體 B:0.261 ± 0.013)。
序列記憶和規則記憶提升交換能力
在序列中交換物體的位置依賴于從記憶中回憶原始序列以及對交換規則的理解。為了測試長期記憶如何影響交換表現,我們將每個實驗會話分為早期序列學習、隨后穿插的延遲匹配樣本任務以及晚期序列學習(圖 1B)。在晚期學習階段,我們重復了早期階段的一部分序列對,并測試了早期序列是否被記住,以及這種記憶是否可能促進晚期階段中重復序列的表現和交換可能性。我們發現,重復序列的學習速度比會話早期展示的初始序列或會話晚期穿插的新序列更快(達到 80% 完成率所需的試驗次數:早期新序列:4.12(± 0.63;均值 ± 95% 置信區間);晚期新序列:4.74(± 0.80);重復序列:1.81(± 0.37),圖 3A;補充圖 3)。主動交換的可能性在早期序列中已經高于隨機水平,并且在重復序列中沒有進一步增加(新早期 vs. 重復:p = 0.0818;新早期 vs. 新晚期:p = 0.0998;重復 vs. 新晚期:p = 0.6962;圖 3B)。然而,在重復序列中,受試者在上下文 2 中更有可能在錯誤選擇物體 B 后進行回溯性交換,將物體 D 放入第二位置(新早期 vs. 重復:p = 0.0008;新早期 vs. 新晚期:p = 0.0019;重復 vs. 新晚期:p = 0.3462;圖 3C)。因此,序列記憶提高了受試者在未能主動將物體 D 交換到第二序數位置時的錯誤糾正能力。
接下來,我們分析了會話早期對初始序列的記憶深度是否影響了該序列在會話后期的交換表現。我們發現,當序列在會話早期被更好地記住(即完成率更高)時,受試者在會話后期更可能在上下文 2 中主動將 D 交換到第二位置(R2:0.02,p = 9 × 10??)(圖 3D,E)。同樣,在上下文 2 的第二位置錯誤選擇 B 后,回溯性交換物體 D 的可能性在會話后期也更高,前提是初始序列在會話早期被更好地學習(R2:0.0082,p = 0.0013)(圖 3F,G)。
除了對序列的記憶外,受試者還可能改善對交換規則的記憶,該規則要求在背景變化后交換第二和第四序數位置。我們通過量化主動交換和回溯性交換在會話中的變化來分析規則記憶。主動交換在第一次實驗會話中就已經顯現,并隨著會話逐漸增加(R2:0.0089,p = 0.0007;圖 3F),而回溯性交換的可能性在會話中保持相似(R2:0.0138,p = 0.1917)(圖 3I)。
物體位置的主動交換與工作記憶相關
從較后和較前的序數位置交換物體可能涉及將原始物體的位置索引暫時存儲在臨時變量中,這類似于短期記憶緩沖區(Tian 等,2024)。因此,我們假設工作記憶能力可以預測主動交換的表現,我們通過評估同一行為會話中的延遲匹配樣本任務表現來測試這一點,這些會話也同時評估了交換能力(圖 4A,補充圖 S4)。我們發現,工作記憶表現與整體序列學習準確性無關(圖 4B),但工作記憶準確性與主動交換能力在會話級別上顯著相關(圖 4C)。這一結果表明,在上下文 2 中成功交換物體 D 和 B 不僅受到長期序列記憶和規則記憶的影響(圖 3),還受到在短期工作記憶中保持物體活躍的能力的影響。
接下來,我們測試了學習序列時的背景記憶是否會影響交換行為。當一個序列在工作記憶任務后重復出現時,它會呈現在與初始新序列相同或不同的背景上下文中。我們發現,當背景相同時,重復序列的學習表現優于早期(初始)序列(Welch's t 檢驗,p = 0.0079;圖 4D)。然而,這種整體的背景促進作用并未調節上下文 2 中的主動交換或回溯性交換(主動交換:Welch's t 檢驗:p = 0.1269;圖 4E;回溯性交換:Welch's t 檢驗:p = 0.3001;圖 4F)。
我們發現恒河猴在單次實驗會話中能夠學習多個 5 物體序列(圖 1,補充視頻)。當背景變化表明非相鄰物體 B 和 D 交換位置時,受試者更可能交換這些物體,而不是選擇序列中下一個排名的物體 C(圖 2D-G)。這種交換既發生在主動的情況下,即在犯錯之前(圖 3B,D,H),也發生在回溯性的情況下,即當受試者在上下文 2 的第二序數位置糾正對 B 的錯誤選擇時(圖 3C,E,I)。與更好的交換表現相關的有四個因素:當序列在緊接的前一個上下文 1 中以更高熟練度水平學習時,上下文 2 中的交換更可能發生(圖 2E);在上下文 2 的重復序列中,當上下文 1 在會話早期約 30-60 分鐘前以更高熟練度水平完成時,交換表現更好(圖 3D-G);當交換規則在實驗后期被更多會話執行時(圖 H);以及當受試者表現出更高的工作記憶表現時(圖 4C)。綜合來看,這些結果表明恒河猴在序列學習過程中推斷了物體的潛在時間順序,并能夠在新背景指示將物體重新分配到新的時間位置時,靈活地將物體身份索引交換到該潛在順序中的絕對位置。
交換行為反映了物體關聯的靈活心理重新索引
成功的主動交換行為表明,猴子利用交換序列的背景作為線索,將在上下文 1 中的 A-B-C-D-E 序列重新排序為上下文 2 中的新 A-D-C-B-E 順序。最近的一項實驗提出了這種線索觸發的重組過程的神經相關性,該實驗要求非人靈長類動物反向播放 3 物體序列的空間順序(Tian 等,2024)。前額葉皮層的一組神經元表征了正向空間 3 物體序列 A-B-C,并在視覺線索要求反向報告序列時重新編碼了該序列。在重新編碼過程中,前額葉皮層的神經群體活動暫時編碼了交換后的物體位置,隨后一組新的神經群體編碼了反向序列(Tian 等,2024)。盡管這些神經發現僅限于交換相鄰物品,我們認為它們提供了一個通用框架,用于概念化我們研究中物體交換到非相鄰位置的過程。特別是,這一框架預測,在我們的研究中,上下文 1 中 A-B-C-D-E 序列的物體將由表征其序數位置的神經元進行編碼(Xie 等,2022)。當背景發生變化,物體 D 和 B 需要交換時,物體 B 和 D 的原始索引被暫時存儲在短期緩沖區中,原始 A-B-C-D-E 序列被重新配置為新的 A-D-C-B-E 序列。當這一操作完成后,臨時緩沖區不再需要,交換后的序列由一組部分不同于編碼初始序列的神經元進行編碼(Tian 等,2024)。這一框架的關鍵見解在于,交換操作可以被理解為將物體重新索引到序列的絕對序數位置。這種索引操作要求物體和時間順序結構在執行此操作的神經網絡中獨立編碼,這一點得到了神經生理學證據的良好支持(Xie 等,2022;Tian 等,2024)。我們的研究表明,非人靈長類動物在學習將物體重新索引到非相鄰位置時利用了這些神經過程,這擴展了先前的研究成果,并記錄了心理操作的高度靈活性。
物體位置的心理重新索引與工作記憶能力相關
我們發現,當受試者在延遲匹配樣本任務中表現更好時,上下文 2 中的主動交換更可能發生,這表明工作記憶與主動交換之間存在關聯(圖 4C)。相比之下,工作記憶與序列學習的平均速度無關(圖 4B),這表明初始序列的學習涉及聯想機制,而交換則依賴于在工作記憶中對已學結構進行心理操作。與此建議一致的是,重新索引框架假設需要一個臨時短期緩沖區來存儲待交換的物體,以便重新排列序列的順序(Tian 等,2024)。更廣泛地說,短期記憶緩沖區能夠前瞻性規劃那些并非物理可見的物品的時間順序。例如,已有研究表明,非人靈長類動物在需要通過掩蔽序列中的未來物品或比較出現在不同列表中的物品相對排名的任務中表現出前瞻性工作記憶(Beran 等,2004;Inoue 和 Matsuzawa,2009;Treichler 和 Raghanti,2010;Scarf 等,2011;Gazes 等,2012;Templer 等,2019)。我們的研究結果擴展了這些研究,表明通過延遲匹配樣本任務測量的更強的工作記憶表現與將物體靈活重新索引到非相鄰時間位置的心理能力相關。
序列交換利用了長期記憶
除了工作記憶,我們的結果還表明,當物體關系的序列結構在長期記憶中被更牢固地學習時,主動的心理重新索引更可能發生。受試者在上下文 2 中更可能主動交換物體 B 和 D,前提是他們在上下文 1 中更好地學習了該序列。這一結果表明,主動交換是一種行為策略,只有當序列在記憶中被充分良好地表征時才會變得可用(Jensen 等,2021)。如果對上下文 1 序列的學習較差,受試者同樣可能會采用串行推理策略,即在第二序數位置選擇相鄰的物體 C 而不是物體 D(圖 2E)。這一發現擴展了先前的研究,這些研究記錄了猴子能夠表征(Chen 等,1997;Jensen 等,2019;Mione 等,2020;Ferhat 等,2022;Jensen 等,2022)并長期記憶(Orlov 等,2000;Templer 等,2019)按順序排列的物品及其相對序數排名。我們的結果與這些先前的發現一致,表明通過鏈接相鄰物體來表征按順序排列的物體,并了解它們在序列中的相對排名,是非人靈長類動物的一種“默認策略”,只要序列未被足夠深入地學習,或者沒有任務要求推斷出支持非相鄰位置心理重新索引操作的更抽象時間結構,這種策略就會被應用。根據這種解釋,非人靈長類動物在有足夠的經驗接觸時間結構后,能夠推斷潛在的時間結構,并不存在從物品序列中推斷更復雜時間結構的“硬認知限制”,而不僅僅是表征物品-物品關聯的串行鏈式結構(Dehaene 等,2015;Zhang 等,2022)。
這一結論也得到了前額葉皮層和內側顳葉皮層神經元的神經生理學證據的支持。在這些腦區中發現了對多物品序列中物品序數排名調諧的神經元反應(Xie 等,2022;Chen 等,2024a;Chen 等,2024b;Shpektor 等,2024)。前額葉的選擇性序數神經元反應甚至能夠在錯誤上傳物品時預測受試者在每個位置上傳的具體物品,盡管這會導致無獎勵的選擇(Averbeck 和 Lee,2007;Chen 等,2024a)。獨立于特定物品的序數位置神經編碼原則上支持將物品靈活分配到不同的序數位置,這表明神經表征不僅限于串行的物品-物品關聯。
我們推測,我們研究的關鍵行為結果——非人靈長類動物在已學習的序列中靈活地將物體重新索引到非相鄰位置的能力——得益于我們任務設計中的各種特性。首先,在每次行為會話中,非人靈長類動物在訓練早期就接觸到多個序列對,包括上下文 1 和上下文 2 的交換物品。這一設計確保了交換規則并非罕見的例外任務特征,而是其日常任務環境的組成部分,激勵它們找出如何完成上下文 2 中的交換序列以獲得獎勵。其次,我們的任務范式強制執行了一種“錯誤后重新觸摸最后正確物品”的規則,這確保了錯誤的串行物體連接不會被忽略,而是立即通過正確的配對進行糾正(見補充視頻)。最后,任務范式提供了每項選擇的即時表現反饋,形式為光環反饋和滑塊進度條的前進或重置(圖 1A)。這一設計提供了關于錯誤選擇物品的明確信息,從而促進了學習。
結論
綜上所述,我們的結果表明,非人靈長類動物一旦以高熟練度學習了 5 物體序列,就能夠靈活地將物體重新索引到非相鄰位置。這種心理靈活性表明,當非人靈長類動物參與需要在此結構之上進行心理操作的任務(例如背景變化后所需的物體交換)時,它們會推斷其經驗的潛在時間結構。這些能力表明,非人靈長類動物形成了非空間的認知地圖,并在目標導向行為中利用它們來心理操控物品(Whittington 等,2022)。我們推測,這種心理能力在非人靈長類動物中進化出來,以支持在許多按序列組織的行為中更高水平的行為適應性,而不僅僅是在視覺物體的新時間關系中進行排列(McNamee 等,2021)。
原文鏈接:https://www.biorxiv.org/content/10.1101/2024.11.24.625056.abstract
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.