2023年3月,如果你偶然進入紐約大學的某個禮堂,可能會以為自己在參加一場純粹的神經科學會議。事實上,這是一個關于人工智能的研討會——但你的困惑是可以理解的。演講者們談論“切除術”,即常見于動物模型實驗中的腦損傷創建手術。他們提到“探測”,比如使用電極來獲取大腦信號。他們還展示了語言分析,并引用了心理學中長期以來關于“先天還是后天”的爭論。
在場的一百多名研究人員中,很多人可能從七年級解剖青蛙以來就再沒接觸過自然大腦。但他們在會議中使用的語言反映了其領域的新里程碑:最先進的AI系統(如ChatGPT)已經在規模和復雜性上堪比自然大腦,AI研究人員幾乎像研究頭骨中的大腦一樣研究它們。作為這一部分,他們借鑒了傳統上以人類為唯一研究對象的學科:心理學、語言學和心靈哲學。而他們自己的發現也開始對這些領域產生影響。
在這個研討會上,紐約大學心理學和數據科學助理教授格雷斯·林賽(Grace Lindsay)認為,這些學科現在的目標和方法如此接近,以至于可以合并為一個領域。她建議將合并后的科學統稱為“神經系統理解”(neural systems understanding)。
她對同僚們說:“老實說,我認為神經科學將獲益最大。”她指出神經科學仍然缺乏一個普遍的大腦理論。“依我看,我所在的領域未能達成目標。神經科學已經存在了100多年。我真切認為當人們開發出人工神經系統時,可以來找我們。”
相比之下,人工智能已經取得了成果:從十年前的視覺感知到最近的語言處理,多層或“深層”人工神經網絡已成為大腦建模的最先進方法——至少在重現外部行為方面。這些模型不僅是大腦某個方面的理想化版本。它們做的正是自然大腦做的事情。現在你可以和機器進行真正的對話,這在幾年前幾乎難以實現。
哥倫比亞大學心理學和神經科學教授尼古拉斯·克里格斯科特(Nikolaus Kriegeskorte)表示:“與神經科學家們長期以來建立的計算模型不同,這些模型執行認知任務,攀登智力高峰。”他目前在扎克曼研究所(Zuckerman Institute)研究視覺。
這種轉變改變了日常的科學方法論。正如在紐約大學會議上所描述的那樣,與這些系統一起工作,與在人類或獼猴身上做實驗差異不大。研究人員可以給它們相同的刺激,并將其內部活動與活體大腦的數據直接進行比較。他們可以創建DIY的奧利弗·薩克斯式病例研究,比如人工損傷的機器大腦可以識別披頭士樂隊的所有成員,但無法分辨鼓和吉他。這種直接干預在區分因果關系與相關性方面非常有用,但在人腦中是不可能的。
這些成功格外引人矚目,因為這些系統的工作方式與大腦截然不同。所謂的神經元和突觸是實際事物的極大簡化版本,訓練方案迥異于兒童通常的學習方式。如此異質的機制仍能產生類人輸出,這讓許多科學家認為細節實際上并不重要。低級別的組件,無論是活細胞還是邏輯門,都會被計算任務的要求塑造成更大的結構,就像演化利用它所擁有的一切來解決當下問題一樣。
“只要架構足夠優秀,表征更容易受到數據和訓練過程的影響。”谷歌DeepMind的認知心理學家安德魯·蘭皮寧(Andrew Lampinen)說,“這表明在廣泛的系統中,預測和理解語言的計算瓶頸是相似的。”
鑒于這種相似性,林賽、克里格斯科特和其他著名計算神經科學家在2019年的一篇論文中指出,科學家們應該開始用網絡架構和學習算法來解釋大腦功能,而非精細的生物機制。機器學習先驅、蒙特利爾大學計算機科學教授約書亞·本吉奧(Yoshua Bengio,該論文的共同作者)解釋道:“神經科學傾向于更具有描述性,因為那更容易;你可以觀察事物。但我認為提出有助于解釋為什么的理論,正是機器學習的思維和理論方式(更數學的理論)有所裨益之處。”
人工神經網絡如何解決視覺問題?
視覺神經科學家率先將AI與神經生物學結合,這也情有可原。20世紀50年代中期,首個硬件神經網絡就是為了模仿自然視覺感知而設計的。即便如此,在接下來的幾十年里,AI研究人員經常放棄任何生物逼真性的幌子,特別是在訓練網絡的方式上。到2010年代,當圖像識別網絡開始媲美人類(盡管僅在狹義任務上),其生物逼真性如何并不明確。
為了回答這個問題,麻省理工學院的神經科學家很快開發出一種基本實驗范式,研究其他形式的感知和認知的研究者此后也采用了這種范式。第一步是向猴子展示視覺刺激并測量其大腦反應。然后他們用相同的刺激訓練一系列人工神經網絡并提取其“表征”——即網絡產生的最高抽象層次的輸出。要將大腦數據與此輸出進行比較(通常只是一個沒有特定生物學意義的數字向量)需要一個“映射模型”,該模型與人工神經網絡本身不同。研究人員可以通過假設模擬和真實大腦在某些數據子集上匹配來構建這樣的模型,計算它們之間的關系,然后在另一數據子集上測試這種關系。
這種方法揭示了猴子大腦和人工網絡以類似方式對相同的視覺刺激作出反應。“這是我們第一次擁有能夠預測神經反應的模型。”吉森大學心理學研究員凱瑟琳娜·多布斯(Katharina Dobs)說。這種一致性不僅僅是偶然產生的。這些系統被設計和訓練來識別圖像,但沒人要求它們像自然大腦一樣運作。“你發現模型中的激活和大腦中的激活之間有驚人的相似程度,你知道這完全不是必然的。”麻省理工學院認知神經科學教授南希·坎威舍爾(Nancy Kanwisher)說,“它們完全不同。一個是計算機程序,另一個是一堆由自然選擇優化的生物黏液,它們最終對類似問題有類似解法的事實令人驚訝。”
自此,這些網絡改變了計算神經科學家進行研究的規模。與其提出一個視覺感知模型并為其辯護,不如在一篇論文中同時比較十幾個模型。2018年,一組研究人員建立了Brain-Score.org網站來對視覺模型進行排名。該網站現在已有超過200個模型,每個模型都代表視覺皮層工作方式的某種直覺。所有這些模型在某些任務上都表現得像人類一樣,因此排名代表了模型更細微的方面,例如它們是否犯了我們大腦犯的同樣錯誤,以及它們的反應時間是否與我們的反應時間一樣變化。“這為我們提供了一個強大的框架來判定模型之間的優劣。”克里格斯科特說。
這些人工神經網絡為解決視覺科學中的老問題開辟了新的途徑。盡管這些網絡常常與大腦本身一樣晦澀難懂,研究人員至少可以直接訪問其人工神經元——它們只是機器中的變量。例如,林賽及其同事們轉向一個人工網絡來探索“祖母神經元”,即幾十年來關于某些腦細胞僅在你看到祖母或某個特定的人時才會激活的想法。林賽的團隊證實,一個在圖像上訓練的人工網絡確實有神經元僅在某些物體出現時才會激活。但當他們追蹤網絡中的信息流動時,發現這些神經元與網絡識別人物或物體的整體能力無關;它們僅僅是偶然地選擇性地響應。
“在這些人工神經網絡模型中,我們實際上看到,神經元對圖像的響應方式并不一定說明它在分類物體中所起的作用。”林賽說。
人工神經網絡也使通過實驗深入探討視覺處理層次成為可能。傳統神經科學方法測量早期處理層中神經元的反應,如視網膜、外側膝狀體和初級視覺皮層。這些方法表明神經元對特定方向的簡單刺激(如線條和光柵)做出反應。但這些方法難以描述處理更廣泛和復雜幾何圖案的后期層細胞。“隨著你進入視覺系統的更深層次,找到某種簡單特征來解釋神經元的響應變得更加困難。”林賽說。
然而,人工神經網絡可以找到這些特征。研究人員可以訓練機器識別藍色咖啡杯和藍色花朵的圖像。這些物體在像素層面上幾乎看起來一樣,并在早期層次上引發相似的反應;只有在后期層次上它們的差異才變得明顯。林賽表示,機器所發展的高級表征應該與大腦的表征相匹配。“你只需將其視為一種數據分析工具——一種表示數據的不同方式——然后在大腦中尋找這種表征。你可以說這更關乎于語言,而非大腦。”
實際上,使用人工神經網絡,研究人員甚至可以在現實環境中觀察大腦的運作——或行話所說的“生態有效實驗”。在傳統的刺激-反應實驗中,他們必須麻醉大鼠以消除其大腦對某些簡單刺激反應測量中的噪音。林賽說,讓動物自由活動,收集眼動追蹤和其他行為數據,然后將其輸入網絡尋找不太明顯的模式,這樣要好得多。“這減輕了對控制條件的需求。”她補充道。
人工神經網絡還揭示了視覺神經科學中關于層級結構的另一個長期存在的謎團——即為何視覺處理在功能上是專門化的。大腦成像顯示視覺皮層的某些區域對面孔的反應比對其他類型的物體更強。“自fMRI問世之后,我們知道這個現象已經幾十年了,但我們不知道‘為什么?面孔有什么特別之處?’”多布斯說。她說有兩種可能性:我們的腦部要么天生具有專門的面部識別能力,要么通過早期生活中看到大量面孔而習得專門化。
為了找到答案,她的團隊構建了一個有超過1億個可調參數的網絡,訓練它識別450種不同類型的物體,并識別1700名名人的面孔。該網絡是分層的,類似于視覺皮層,盡管這些層并沒有與其生物對應物一一對應。然后研究人員通過損傷網絡的某些部分進行實驗。禁用某些單元使網絡在面部或物體識別中的表現受損,但不會同時影響兩者,這表明這些單元專門化于其中之一。而損傷處理基本幾何圖案的早期層會同樣影響網絡在兩項任務上的表現,表明專門化發生在更深層次。
除了讓網絡接觸大量名人之外,研究人員并沒有暗示面孔有什么特別之處——例如不需要讀取情緒。他們得出結論,大腦必須從經驗中獲得專門的面部識別能力,而當大腦或人工網絡需要同時處理兩個或多個任務時,它會發展出這樣的專門模塊。“這是為了做好這兩項任務的結果。”多布斯說。作為測試,她和同事們還訓練網絡來分類食物。“沒有證據表明視覺皮層有功能專門化的食物識別處理,所以我們認為在網絡中也不應發現它。”她說,“然而當我們這樣做時,意外發現了區隔。”
自那以后,其他團隊發現人腦中也有專門的食物識別區域,多布斯和團隊正在尋找更多例子。“如果你是汽車方面的老手,你大腦中可能也有一些神經元專門處理對汽車的識別。”她說。她們還沒有檢查面孔、汽車和一般物體的三重專門化,但她們發現網絡可以像識別面孔一樣確定汽車品牌和型號。去年發表的一篇論文表明,汽車識別網絡表現出類似面孔倒置效應的現象:就像我們更難識別倒置的面孔一樣,網絡也難以處理倒置的汽車圖片。
大語言模型是否反映大腦語言區域處理?
理解視覺已經夠困難的了,理解語言則更難。坎威舍爾回憶道:“六、七年前,我在給本科生的導論課中經常隨口提到一些大問題,這些問題超越了最前沿(的研究)。比如,一群神經元如何掌握句子的意義?這到底是怎么回事?我們如何思考這個問題?”教科書中的神經科學方法根本無法解決這樣的問題。研究人員可以詳細繪制貓的視覺皮層,但不能繪制其語言區域——它沒有。動物模型最多只能捕捉語言的某些狹窄特征。中美洲的歌唱鼠有著完美的溝通禮儀,但并不以使用虛擬語氣而聞名。
視覺神經科學和圖像處理系統共同發展,而語言神經科學與技術之間的聯系一直很松散。該領域在20世紀80年代開始采用人工神經網絡,但這些早期系統并未嘗試理解或生成一般語言。它們模擬了理論家認為可能是學習而非天生的特定能力,如構建動詞時態,并且更以引發爭議而非解決問題而聞名。“語言神經科學一直是不太令人滿意的非正式領域。”麻省理工學院神經科學教授葉夫利娜·費多連科(Evelina Fedorenko)說。
隨著GPT這類大語言模型問世,研究人員正在彌補失去的時間。在機械層面上,這些模型甚至比圖像識別模型更算不上大腦化。與語言相關的大腦區域被認為是一個反饋回路的叢林,而語言模型是前饋系統,其中數據從輸入到輸出是沒有環路的。然而,這些系統確實有特殊的transformer層(GPT中的“T”)行使一些反饋角色,如跟蹤單詞的上下文。最近的研究表明,這些層類似于大腦生物學的某些方面。“它們與之前的海馬體模型相關,并且被證明在某些方面有所改進。” 蘭皮寧說。他補充道,它們和所有人工神經網絡一樣,充其量是一個簡化的版本。
盡管如此,大語言模型在模擬大腦方面的表現令人驚訝。2021年,費多連科及其同事們開始應用視覺領域同行十年來一直在使用的技術。他們從文獻中收集了人們閱讀和聆聽句子時的大腦反應,這些反應是通過fMRI成像或為癲癇植入的顱內電極測量的。他們用相同的句子訓練了一系列不同的語言模型,并創建了一個在人類和機器神經活動之間的映射模型。他們發現,這些網絡不僅生成了類人文本,而且以大體類似于人類的方式生成。在他們測試的各種系統中,GPT-2(ChatGPT的前身)特別擅長模仿人類。GPT在最基本的層面上是一個高級自動更正算法,基于之前的內容預測下一個單詞。他們的結論認為,我們大腦的語言區域可能也是如此。
費多連科及其同事們的研究還表明,大腦和機器之間的差異并沒有看起來那么顯著。支持這些模型肯定以異于人類的方式學習,其常見論點在于它們需要更多的數據。但實際上,大語言模型在大約1億個單詞后達到熟練程度。根據去年費多連科實驗室博士生伊格巴爾·侯賽尼(Eghbal Hosseini)的研究,這相當于一個孩子在10歲時聽到的單詞數量。但如果像培養孩子那樣以更階段性的方式訓練網絡,而不是將整個互聯網灌輸給它呢?“你不會和1歲幼童談論廣義相對論、Transformer或別的東西。”Fedorenko說,“你首先談論簡單的概念和方式;給出簡單的短句。”更現實的教育策略可能會使系統更好地反映人類。
Brain-Score.org現在不僅對視覺模型進行排名,也囊括了語言模型。將模型相互比較——借用自視覺神經科學家的另一策略——已經對現有系統更好地反映人類提供了一些見解。例如,費多連科和侯賽尼設計了“爭議刺激”(controversial stimuli)——一些不同模型會產生不同表征的句子。“你試圖構建一組刺激,能夠將這些模型區分開來。”她說。好消息是他們找到了很多這樣的刺激。壞消息是沒有一個模型能與人類對這些句子的反應相匹配。“我們發現了模型的‘盲點’。”她補充道。
一個可能的結論是這些模型都應該被拋棄,但侯賽尼深入挖掘。他構建了一組無爭議刺激,模型對這些刺激的反應一致。他發現這些反應確實與人類數據相匹配。所以,當模型之間一致時,它們也與人類數據一致,而當模型之間不一致時,它們也與人類不一致。“我們想,好吧,也許我們發現了一些東西。” 費多連科說,“也許這并非一個糟糕的實驗。”她希望這些相關性能讓他們弄清楚,是什么影響了模型運作的好壞。
既然已經確定大語言模型在表示大腦的語言處理方面還不錯,費多連科和其他團隊正在尋求解答彌漫在教科書中的謎題。例如,當我們解析一個句子時,大腦主要依賴正式的語法結構,還是考慮單詞的含義?在今年4月發表的一篇論文中,費多連科的兩名研究生通過各種方式調整句子,看看它們是否影響模型與大腦數據的匹配。在這項工作中,他們并沒有將這些調整后的句子給人類,而只是使用人類作為參考點來研究模型內部發生的情況。
他們發現,輕微的改變,如去掉“the”或交換連續的單詞,幾乎沒有影響。這些改變可能違反了語法規范,但沒有觸及單詞的含義。但以影響含義的方式破壞句子,如改變名詞和動詞,對模型有很大影響。例如,考慮包含所有26個字母的著名句子“The quick brown fox jumped over the lazy dogs.” 一個稍微擾亂的變體是“Quick brown fox jumped over lazy dogs.”顯然,我們的大腦從擾亂的句子中形成的心理圖像與原句相同。研究人員發現模型也是如此。模型形成的表征顯然編碼了一個足夠高級的含義,不受小詞的影響。
但如果你輸入變體“The quick brown jump foxed over the lazy dogs”,模型會與人類數據偏離,表明它生成的表征與之前有很大不同。句子的結構沒有改變——仍然是 <冠詞> <形容詞> <形容詞> <名詞> <動詞> <介詞短語> ——所以模型必須依賴額外的語義信息:一只狐貍可以跳,但一個跳不能“狐貍”。“這在某種程度上與喬姆斯基生成語法學派的觀點相反,該學派長期以來強調句法是語言的核心,而含義是次要的。” 費多連科說。
這個領域的一個巨大挑戰是將語言與其他認知分離:邏輯、社會認知、創造力、運動控制等等。大語言模型還沒有(這些能力)。盡管它們確實擁有龐大的記憶和某些推理能力,而插件或特殊用途的模塊提供了其中一些其他功能,但它們仍然只是大腦語言區域的模型——在使用ChatGPT和其他系統時,你必須不斷提醒自己這一點。當它們“幻覺”出信息時,這不是它們的失敗,而是我們的:我們強迫它們回答超出其有限能力范圍的問題。“從過去20年的認知神經科學中,我們真正學到的是語言和思維在大腦中是分開的。” 坎威舍爾說,“你可以將這一見解應用于大語言模型。”
盡管這對期望從這些系統中獲得可靠信息的人來說充滿挑戰性,但它們對于神經科學來說作用重大——正如很多人在紐約大學那場會議上提到的那樣。它們與人腦足夠接近,可以讓神經科學家進行直接比較。但它們又足夠不同,可以幫助人們越過人類尋找感知和智能的普遍原則。這些系統已經表明,智能是普遍的——不僅限于人類,甚至不限于其他哺乳動物,而是存在于任何具有足夠計算能力來提取所接觸世界中顯著特征的認知系統中。
作者:George Musser
翻譯:EY
封面:DeepMind
來源:https://www.thetransmitter.org/neural-networks/can-an-emerging-field-called-neural-systems-understanding-explain-the-brain/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.