“相關(guān)并不意味著因果”——這句老生常談在科學(xué)研究中常被提起,卻也常被忽視。
當(dāng)以ChatGPT為代表的許多大語言模型,能夠?qū)崿F(xiàn)相對準(zhǔn)確地預(yù)測大腦對語言任務(wù)的反應(yīng)時,是否可以認(rèn)為大語言模型捕捉到了大腦語言認(rèn)知加工的一些深層機(jī)制?換言之,大腦也采用類似大語言模型的預(yù)測編碼機(jī)制——不斷預(yù)測并修正錯誤?
這種推論是否經(jīng)得起科學(xué)的檢驗(yàn)?GPT的預(yù)測與人腦語言反應(yīng)的高度相關(guān),究竟是“認(rèn)知本質(zhì)”,還是只是“統(tǒng)計上的巧合”?
預(yù)測編碼理論
在20世紀(jì),我們認(rèn)為大腦從感官中提取知識。21世紀(jì)則見證了一場“奇怪的反轉(zhuǎn)”,大腦被視為一個推理的器官,會主動地為外部世界發(fā)生的事情構(gòu)建解釋[1]。在這場轉(zhuǎn)變中,預(yù)測編碼(Predictive coding)理論扮演了重要角色。
20世紀(jì)90年代,心理學(xué)家Karl Friston提出了預(yù)測編碼理論,提供了一個關(guān)于大腦如何加工的高層次描述。該理論認(rèn)為,大腦在未來事件發(fā)生之前就在不斷地嘗試對其進(jìn)行預(yù)測,然后將預(yù)測與觀測進(jìn)行比較,當(dāng)預(yù)測與實(shí)際的感官輸入不匹配時,大腦會對預(yù)測進(jìn)行調(diào)整與更新以減少這種預(yù)測誤差(prediction error)。作為一種認(rèn)知理論,預(yù)測編碼理論為大腦信息加工提供了一種概念簡潔、機(jī)制合理的具體目標(biāo),獲得了許多研究者的青睞。
?簡化的感覺預(yù)測模型。藍(lán)色箭頭指示如何更新預(yù)測神經(jīng)元,并傳遞到較低的層次結(jié)構(gòu)級別。紅色箭頭指示如何生成預(yù)測誤差并將其進(jìn)給到更高的層次結(jié)構(gòu)級別。圖源:doi:10.3389/fpsyt.2020.557932.
預(yù)測編碼理論相關(guān)研究最早可追溯到視覺加工領(lǐng)域。20世紀(jì)末,Rao和Ballard提出了一種視覺加工的預(yù)測編碼模型:高級視覺區(qū)域會對低級視覺區(qū)域的活動進(jìn)行預(yù)測,低級視覺區(qū)域則反過來向高級視覺區(qū)域傳遞預(yù)測誤差,即未能被預(yù)測的“新奇”信息[2]。通過模擬分析,他們發(fā)現(xiàn)這種簡單的層級架構(gòu)不僅與神經(jīng)解剖學(xué)和生理學(xué)證據(jù)一致,還能解釋一些復(fù)雜的反應(yīng)[1]。
不僅僅是視覺加工,預(yù)測編碼也為感知、注意、學(xué)習(xí)、運(yùn)動控制等認(rèn)知功能提供了一種統(tǒng)一的框架。以語言加工為例,預(yù)測編碼理論認(rèn)為,在感知到自然語言的刺激時,大腦會先發(fā)制人地對于未來會出現(xiàn)的詞語和句子進(jìn)行預(yù)測。預(yù)測編碼理論得到了多方證據(jù)支持,一方面,許多研究發(fā)現(xiàn)了與句法或語法不一致詞句有關(guān)的電生理信號;另一方面,體現(xiàn)預(yù)測編碼理論的神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Models, NNLM)能有效地解釋由自然語言引發(fā)的大腦活動。
為什么使用NNLM能如此有效地預(yù)測大腦對于自然語言的反應(yīng)?一種頗具吸引力的觀點(diǎn)認(rèn)為,語言模型和大腦是相似的,它們在語言認(rèn)知加工方面具有相同的目標(biāo),即對未來即將出現(xiàn)的詞句進(jìn)行預(yù)測。近期,來自德克薩斯大學(xué)奧斯汀分校的Antonello和Huth在Neurobiology of Language發(fā)文,對此觀點(diǎn)提出了質(zhì)疑[3]。
神經(jīng)網(wǎng)絡(luò)語言模型
單向的NNLM是一種用于單詞預(yù)測任務(wù)的人工神經(jīng)網(wǎng)絡(luò),能夠基于語料庫,根據(jù)上文信息生成下一個單詞的概率分布。例如,上文是“they say his father was a f____”,對于f開頭的單詞,NNLM會預(yù)測一系列候選詞出現(xiàn)的概率,對更有可能出現(xiàn)的詞語(如fisherman)賦予更高的概率[4]。與翻譯、問答等需要標(biāo)注數(shù)據(jù)的任務(wù)相比,NNLM的突出優(yōu)勢在于可使用幾乎所有自然語言文本進(jìn)行訓(xùn)練,擁有學(xué)習(xí)許多不同類文本統(tǒng)計規(guī)律的能力。
?實(shí)驗(yàn)和分析框架的示意圖。(a)(頂部)在兩個實(shí)驗(yàn)中,參與者在記錄大腦活動時都聆聽了有聲讀物的連續(xù)錄音。(底部)參與者聽取的文本由深度神經(jīng)網(wǎng)絡(luò)(GPT-2)分析,以量化每個單詞的上下文概率。使用基于回歸的技術(shù)來估計(不同級別)語言意外性對連續(xù)記錄中誘發(fā)響應(yīng)的影響。(b)分析的數(shù)據(jù)集:一個組級的腦電圖數(shù)據(jù)集和一個單獨(dú)的主題源源定位的MEG數(shù)據(jù)集。圖源:[4]
近些年來,NNLM也催生了一類范式:語言模型微調(diào)(language model fine-tuning)。從已有NNLM中提取出的表征可重新用于其他的語言任務(wù),如識別命名實(shí)體、情感分析等。研究者發(fā)現(xiàn),根據(jù)NNLMs微調(diào)得到的模型,往往比根據(jù)特定任務(wù)從頭開始訓(xùn)練得到的模型表現(xiàn)更優(yōu),微調(diào)后的模型允許使用原始的NNLM學(xué)習(xí)到的語言特征,有助于彌補(bǔ)許多語言任務(wù)訓(xùn)練數(shù)據(jù)的成本問題(即手工標(biāo)注數(shù)據(jù)昂貴且有限)[5]。
?圖源:https://www.ruder.io/
目前,最先進(jìn)的NNLM通常包含一系列結(jié)構(gòu)相同的加工模塊(即transformers),其機(jī)制是點(diǎn)積注意力(dot product attention),有選擇性地加工輸入中的一部分元素。每個transformer的輸出被稱為隱藏態(tài)(hidden state),是對輸入的編碼表征。NNLM的輸入通常是詞嵌入(word embeddings),通過transformer最終轉(zhuǎn)化為對下一個單詞的預(yù)測。在評價NNLM的表現(xiàn)時,研究者常使用困惑度(perplexity)這個指標(biāo),困惑度越低,意味著模型給實(shí)際的下一個單詞賦予了越高的概率。
神經(jīng)科學(xué)研究中的NNLM
NNLM能夠應(yīng)對許多不同類型的語言任務(wù),因此神經(jīng)科學(xué)家也使用NNLM來預(yù)測大腦對于自然語言的反應(yīng)。研究者建立了使用從語言刺激中導(dǎo)出的特征來預(yù)測大腦對自然語言反應(yīng)的回歸模型,稱之為編碼模型(encoding model)。與使用源于非情景化詞嵌入空間的表征相比,使用NNLM生成的表征的編碼模型表現(xiàn)更好,這樣的編碼模型也被稱為基于語言模型的編碼模型(LM-based encoding model)。
為什么引入語言模型有助于提升編碼模型在預(yù)測大腦反應(yīng)時的表現(xiàn)?一種流行的假設(shè)認(rèn)為,基于語言模型的編碼模型與大腦有相同的目標(biāo)——對還未出現(xiàn)的單詞進(jìn)行預(yù)測。
例如,Schrimpf等人(2021)基于語言理解任務(wù)的三大神經(jīng)數(shù)據(jù)集*,考察了多種NNLM的表現(xiàn)。結(jié)果表明,在預(yù)測大腦對于語句的神經(jīng)反應(yīng)時,最優(yōu)的模型能對幾乎100%的可解釋方差進(jìn)行預(yù)測。此外,他們還發(fā)現(xiàn),模型對于神經(jīng)數(shù)據(jù)、行為數(shù)據(jù)(即閱讀時間)的擬合結(jié)果與模型在單詞預(yù)測任務(wù)中的準(zhǔn)確性之間存在強(qiáng)相關(guān)。這進(jìn)一步表明,單詞預(yù)測可能是語言認(rèn)知加工的基礎(chǔ)部分[6]。
*注:這些數(shù)據(jù)集包含三組神經(jīng)數(shù)據(jù)。1)逐句呈現(xiàn)條件下閱讀話題多樣的短篇文字時的fMRI數(shù)據(jù)(Pereira, 2018);2)逐詞呈現(xiàn)條件下閱讀語法句法各異的句子時的ECoG數(shù)據(jù)(Fedorenko, 2016);3)聽時長約5min的故事時的fMRI血氧信號時序數(shù)據(jù)(Blank, 2014)。
Goldstein等人(2021)進(jìn)一步發(fā)現(xiàn),即使去除了簡單的語境和語義信息(如詞義),也能根據(jù)在詞語出現(xiàn)之前的大腦反應(yīng),顯著地預(yù)測出NNLM對未來詞語的表征[7]。類似地,Caucheteux等人(2021)發(fā)現(xiàn),與只使用當(dāng)前語境的信息相比,增加未來詞語的嵌入有助于提升基于語言模型的編碼模型的表現(xiàn)[8]。
這些研究結(jié)果都試圖表明,擁有更好的詞語預(yù)測能力的模型也具備更強(qiáng)的編碼能力。我們能否就因此得出“大腦在語言加工時進(jìn)行了預(yù)測式編碼”的肯定結(jié)論呢?
不同于預(yù)測編碼的替代解釋
如果大腦可以對某個特征進(jìn)行編碼,那么,在其它因素相同的情況下,能和大腦一樣對同樣特征進(jìn)行編碼的模型將比其他模型表現(xiàn)更好。根據(jù)這一邏輯,過往研究反推,既然擁有詞語預(yù)測能力的模型比其他模型在解釋大腦活動方面表現(xiàn)更優(yōu),那么大腦也同樣會對未來的詞語進(jìn)行預(yù)測。
但是,Antonello和Huth對于這一逆命題保持懷疑態(tài)度。他們還指出,現(xiàn)有的研究證據(jù)都是相關(guān)性數(shù)據(jù),無法以此得出“因?yàn)檫M(jìn)行了預(yù)測編碼,所以在預(yù)測詞語時表現(xiàn)更好”這樣的因果性推論。
為此,他們展開了一項(xiàng)基于fMRI數(shù)據(jù)集使用NNLM的分析研究,并提出了一種不同于預(yù)測編碼理論的解釋——表征普遍性(representational generality)。他們認(rèn)為,基于語言模型的編碼模型捕捉到了某些普遍信息,因此在預(yù)測語言任務(wù)中的大腦反應(yīng)時表現(xiàn)良好。
研究中使用的數(shù)據(jù)集包含5名健康被試在聽英語博客故事時的fMRI數(shù)據(jù)(含訓(xùn)練集與測試集)。在預(yù)處理后根據(jù)訓(xùn)練集數(shù)據(jù)生成了97種不同的體素級大腦編碼模型*,使用嶺回歸方法預(yù)測在測試集中大腦的血氧反應(yīng),所有被試的平均表現(xiàn)作為編碼模型的表現(xiàn)指標(biāo)。對于詞語預(yù)測任務(wù),該研究根據(jù)編碼模型的表征與下一個詞語的GloVe嵌入進(jìn)行了線性回歸,計算了此回歸模型對下一個詞語概率分布的預(yù)測與實(shí)際分布之間的交叉熵,并以此作為編碼模型在詞語預(yù)測任務(wù)中的表現(xiàn)指標(biāo)(即困惑度)。
*注:該研究從多種自然語言處理模型中提取了97種語言表征。具體來說,包括3種詞嵌入空間(GloVe、BERT-E和FLAIR)、3種單向語言模型(GPT-2 Small、GPT-2 Medium和Transformer-XL)、2種掩碼雙向語言模型(BERT和ALBERT)、4種常見的可解釋的語言標(biāo)注任務(wù)(命名實(shí)體識別、詞性標(biāo)注、句子分塊和框架語義解析)以及2種機(jī)器翻譯模型(英中和英德)。完整細(xì)節(jié)可在https://doi .org/10.1162/nol_a_00087中進(jìn)行閱讀。
首先,與過往研究一致,該研究也發(fā)現(xiàn)了模型的編碼表現(xiàn)與對下一個詞語的預(yù)測表現(xiàn)之間存在高相關(guān)(相關(guān)系數(shù)r=0.847)。然而,高相關(guān)可能與模型表征包含的信息能夠普遍適用于多種語言任務(wù)(包括詞語預(yù)測)有關(guān)。
因此,研究進(jìn)一步分析了每種模型表征對其他96種表征的預(yù)測能力,預(yù)測能力越強(qiáng)意味著表征包含的普遍性信息越多。結(jié)果表明,表征的普遍性與編碼表現(xiàn)之間也存在高相關(guān)(相關(guān)系數(shù)r=0.864)。換言之,編碼表現(xiàn)越好的模型其表征普遍性也越高。
最后,研究還探究了每種模型表征對于英德翻譯模型表征的預(yù)測能力,依然得到了高相關(guān)(相關(guān)系數(shù)r=0.780)。該結(jié)果進(jìn)一步說明,面向多種語言任務(wù)的遷移能力,而非預(yù)測能力,才是語言模型表現(xiàn)優(yōu)異的核心原因。
此外,研究還針對GPT-2 Small和GPT-2 Medium兩個模型進(jìn)行了分析。這些NNLM模型在處理文本信息時,會將詞語從模型的第一層開始輸入并穿越眾多中間層,在最后一層進(jìn)行下一個詞的預(yù)測。假如預(yù)測編碼理論成立,那么就應(yīng)該觀察到隨著模型深度加深,編碼與預(yù)測表現(xiàn)都應(yīng)有明顯提升。
考慮位于不同深度的表征的編碼與預(yù)測表現(xiàn),研究發(fā)現(xiàn)語言模型的編碼表現(xiàn)在模型深度的60%到80%之間達(dá)到了峰值,然后在更深入的后期層次中陡然下降;同時,模型對于下一個詞語的預(yù)測能力,并未隨著到達(dá)最后一層而較中間層有顯著提升。總的來看,這些結(jié)果都未能為預(yù)測編碼理論提供支持。
?GPT-2小型、中型編碼模型隨層深變化的編碼表現(xiàn)。圖源:[3]
結(jié)語
自ChatGPT以來,語言模型已經(jīng)進(jìn)入了千家萬戶。對于研究者而言,人工造物能展現(xiàn)出與大腦類似或相同的表現(xiàn)自然是令人欣喜的,但因此推斷人類的大腦也以語言模型的方式加工信息究竟是否合適?Antonello和Huth的這項(xiàng)研究為我們提供了另一可能的解釋:表征普遍性可能才是語言模型表現(xiàn)良好的關(guān)鍵之處。NNLM以廣泛的自然語言文本作為訓(xùn)練集,基于此的編碼模型可能抓住了人類語言中的某些普遍性信息,因而擁有強(qiáng)大的能力以應(yīng)對各類語言任務(wù)(不僅限于詞語預(yù)測)。
Antonello和Huth認(rèn)為作為一種科學(xué)理論,預(yù)測編碼理論只是被解釋為“大腦以預(yù)測作為語言加工的目標(biāo)”顯得太過模糊,缺乏明確的定義和可證偽的表述。
但他們也沒有否定預(yù)測編碼理論。作為一項(xiàng)認(rèn)知理論,預(yù)測編碼理論能夠解釋許多現(xiàn)象,只不過在判斷研究證據(jù)是否能為預(yù)測編碼理論提供支持方面,研究者理應(yīng)更為謹(jǐn)慎些。很多被認(rèn)為支持預(yù)測編碼的證據(jù),即使在沒有預(yù)測編碼的情況下也可能是正確的,本研究提出的表征普遍性便可以用來解釋這些證據(jù)。
未來的研究應(yīng)該尋找能夠明確區(qū)分大腦是否進(jìn)行預(yù)測編碼的獨(dú)特可測量現(xiàn)象。例如,發(fā)現(xiàn)一些自然存在的、以預(yù)測編碼作為語言學(xué)習(xí)目標(biāo)的低級神經(jīng)環(huán)路,或?qū)⒊蔀閺?qiáng)有力的證據(jù)。
[1] Friston, K. (2018). Does predictive coding have a future? Nature Neuroscience, 21(8), 1019–1021. https://doi.org/10.1038/s41593-018-0200-7
[2] Rao, R. P. N., & Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580
[3] Antonello, R., & Huth, A. (2024). Predictive Coding or Just Feature Discovery? An Alternative Account of Why Language Models Fit Brain Data. Neurobiology of Language, 5(1), 64–79. https://doi.org/10.1162/nol_a_00087
[4] Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P., & de Lange, F. P. (2022). A hierarchy of linguistic predictions during natural language comprehension. Proceedings of the National Academy of Sciences, 119(32), e2201968119. https://doi.org/10.1073/pnas.2201968119
[5] Dodge, J., Ilharco, G., Schwartz, R., Farhadi, A., Hajishirzi, H., & Smith, N. (2020). Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping (arXiv:2002.06305). arXiv. https://doi.org/10.48550/arXiv.2002.06305
[6] Schrimpf, M., Blank, I. A., Tuckute, G., Kauf, C., Hosseini, E. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2021). The neural architecture of language: Integrative modeling converges on predictive processing. Proceedings of the National Academy of Sciences, 118(45), e2105646118. https://doi.org/10.1073/pnas.2105646118
[7] Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., Nastase, S. A., Feder, A., Emanuel, D., Cohen, A., Jansen, A., Gazula, H., Choe, G., Rao, A., Kim, S. C., Casto, C., Fanda, L., Doyle, W., Friedman, D., … Hasson, U. (2021). Thinking ahead: Spontaneous prediction in context as a keystone of language in humans and machines. BioRxiv. https://doi.org/10.1101/2020.12.02.403477
[8] Caucheteux, C., Gramfort, A., & King, J.-R. (2021). Long-range and hierarchical language predictions in brains and algorithms (arXiv:2111.14232). arXiv. https://doi.org/10.48550/arXiv.2111.14232
關(guān)于追問nextquestion
天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問為紐帶,深入探究人工智能與人類智能相互融合與促進(jìn),不斷探索科學(xué)的邊界。如果您有進(jìn)一步想要討論的內(nèi)容,歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。
關(guān)于天橋腦科學(xué)研究院
天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn),支持腦科學(xué)研究,造福人類。
Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了加州理工天橋神經(jīng)科學(xué)研究院。
Chen Institute建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計劃、、等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.