99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

萬字綜述:大模型的風還是吹到了神經科學

0
分享至


本文為人工智能研究員Patrick Mineault在美國國立衛生院(NIH)神經倫理工作小組的講稿,有刪改。大模型是AI發展的新產物,本文將簡單介紹大模型,并著重討論其在神經科學領域的應用與風險。

作者 · Author

Patrick Mineault

人工智能研究員和神經技術專家

Amaranth Foundation 的Neuro AI研究員。Mila人工智能研究所擔任高級機器學習科學家。在麥吉爾大學視覺神經科學博士畢業,導師是Chris Pack,并在加州大學洛杉磯分校進行了博士后研究,導師是Dario Ringach。研究大腦如何創建可以驅動行為的有意義的視覺表征。曾經在谷歌工作,研究人們如何查看和與網頁互動;并在臉書現實實驗室擔任腦機接口工程師,開發了一種可以通過大腦打字的腦機接口。共同創立有Blindsight Therapeutics公司,擔任首席技術官并建立了知識產權組合,以幫助有皮質性失明的人通過Neuro AI取得突破。

無論是GPT、Llama這樣的大語言模型,還是Stable Diffusion、Suno這樣生成圖片和音頻的AI,大模型已經成為我們日常生活的一部分。此外,AlphaFold這種專門針對蛋白質結構的大模型,把它們的用途從日常擴展到了科研領域。

所以,究竟什么是大模型?

與其給出一個冗長、晦澀的嚴格定義,不如介紹一下大模型的幾個標志,并看看大語言模型Llama 3.1-405B-Chat(以下寫為Llama405)[1]是如何滿足它們的:

(1)大模型一定要夠大

這不僅僅只是模型本身的參數量要大,訓練模型的數據集也要大。而這兩者的大直接導致了大模型巨大的算力消耗。

Llama405有4050億個參數,遠遠大于單個GPU的顯存容量。它的訓練集包含15.6萬億個token(被計算機分割后的信息片段)。這些數據量就算放到整個互聯網上也相當可觀,如果想讓一個人把這些token全部寫出來,那么他需要花上幾萬年。此外,Llama405還花費了大量算力,動用了16,000塊H100 GPU,共花費3930萬GPU小時。平均下來,每塊GPU需工作差不多100天。獲得這些算力的市場價是8千萬美元,如果算上500個項目開發者的工資[2],成本大概率再翻一倍。

(2)大模型是模塊化的

它們本身只會接受預訓練,開發者可以根據自己的業務需要對模型進行微調。大模型也可以像樂高一樣跟其他的AI模型進行拼接,實現全新的功能。

部署Llama405的人可以使用監督微調(SFT)和DPO對Llama405進行微調以適應不同場合。Llama本身也是一個拼接怪,比如它圖片轉文字的能力就來自于CLIP。CLIP自己就是一個獨立的圖片轉文字大模型,它的訓練集是25億張具有文字標注的圖片。

(3)對于大模型而言,數據比架構更重要

大模型會采用低歸納偏置(Inductive Bias)的通用架構,現在一般是Transformer。這類架構幾乎不會對數據的性質做出任何預設,但是非常適用于大規模訓練。因此,大模型的表現可以根據數據集大小、計算量、和模型大小進行預測,這就是大名鼎鼎的縮放定律(Scaling Laws)[3]。

Llama405基于Transformer架構,架構本身較于舊版Llama區別不大。如果訓練Llama的算力有限,那么開發者可以利用縮放定律,計算出大模型的最優數據量-參數量配比,將性能最大化。(圖1)


?圖1. 根據縮放定律,我們可以計算出不同參數量的Llama,在不同的訓練數據量和算力消耗下預期的表現。

(4)大模型能力會泛化

有時候大模型會獲得不與訓練任務直接相關的新能力,即能力泛化。如Llama405雖僅被訓練于文本生成,但卻涌現出邏輯推理、生成代碼、數學計算的能力(圖2)。


?圖2. Llama405在給定的訓練任務(續寫句子)以外的領域表現優秀。

大模型的開放程度各不相同。GPT4這樣的閉源模型是最封閉的模型,其他人并不能獲得模型,只能通過網頁和API與其交互。最開放的模型叫做開源模型,除了模型以外,訓練它的代碼和數據集也可以被自由地獲取,任何有足夠算力的個人或機構都可以復現模型的訓練過程。開放權重模型則介于二者之間:模型公開,但其代碼和數據集則未必。Deepseek R1和Llama 3就屬于此類。一些人把他們稱為“開源模型”,實際上是一種誤解

大模型不同于普通AI的特征,給其帶來了倫理上的全新挑戰。首先,因為大模型對算力的龐大需求,普通的大學實驗室不可能訓練他們。有一種應對方式,是建立整合學界計算資源的大型機構,比如國家深度推理組織(National Deep Inference Fabric)[4]。另外一種辦法則是將研究課題轉向對算力需求不高的部分,也就是大模型的微調、評價與認識研究。因為單一量表不能完整覆蓋大模型的工作范圍,所以評價大模型不再是一件簡單的工作。

而在認識大模型方面,因為模型過于龐大,理解模型的工作原理,或者將模型的一些性質對應到特定的結構上已經變得十分困難。為此,可解釋性已經發展為一個完整的子學科,主要研究方法有“機制可解釋性”和“表示工程”。一種流行的研究范式是將基礎模型分解為能夠解釋的小模塊,如Google Deepmind開發的Gemma Scope[5]。

在學術圈以外,大模型的模塊化特性、方便上手的大模型工程軟件,和大量投入該領域的資本使大模型的發展日新月異。因此,要想保持與時俱進也會比以往更難。博客、新聞通訊和播客,比如針對技術工作者的AI News[6]和普通觀眾的One Useful Thing[7]可以幫觀眾篩選來自arXiv(著名預印本網站)和學術會議的龐雜信息。

最后,人們很難完全掌握大數據庫的數據內容。這就使得一些有害數據很容易混入其中,如LAION-5B圖片數據庫中就含有兒童性虐待內容[8]。

大模型的神經科學應用

話題回到神經科學。類似上面的做法,本文只會介紹一些神經科學大模型,但不下定義。我們可以根據這些模型試圖刻畫的“生物體、大腦活動與環境”之間關系的具體維度,對其進行大致分類。參考以下這張沾點弗里斯頓(Karl Friston)框架的示意圖:


?圖3. 描述意識與神經活動過程的數學框架

外部環境決定了感官輸入,感官輸入自外向內地驅動神經活動,神經活動和生物力學共同決定了小鼠的動作,小鼠的動作會同時改變環境狀態與感覺輸入,形成一個閉環。在整個過程中,可以用各種方式來捕捉神經信號。不同的神經科學模型會針對這個閉環內不同的部分。根據感官輸入推斷神經活動的AI模型稱為編碼模型。

編碼模型有三種設計思路:數據驅動、任務驅動、目的驅動。第一種設計會從零開始,利用AI模型來發現感官輸入與神經活動的對應關系。如果數據量較大而且精度達到單個神經元等級,這類模型可以代替真正的腦來進行模擬實驗[9], [10],[11],所以有時候也叫做“數字孿生”。這種建模方法最常用于可以使用侵入性方式捕捉大量生理信號且感官輸入可控的情況,如視覺研究。

后兩種設計范式會針對特定的任務訓練AI模型,并把訓練出來的模型與大腦作類比,以增進對腦的認識。除了視覺研究,這種研究方法在聲音和語言研究中也頗為流行。一般情況下,研究者會基于類似用途的大模型進行二次訓練,比如用圖像識別的大模型來處理視覺任務。但有少數時候,研究者會訓練新的模型。不過,這種新的模型并不算大模型,所以本文不會討論它們。

“分布模型”則用于學習神經活動數據本身的性質。直到最近我們才發明高通量技術,可以大規模獲取神經活動數據,讓開發分布模型成為可能。像LFADS這樣的模型,它能將神經數據壓縮至低維潛空間(latent space),實現去噪與數據解讀[12]。此外,掩碼與token預測也可以在不壓縮數據的前提下,獲得良好的潛表征(latent representation)。通過這種模型,我們既能對神經元活動用于聯合平滑處理(如判斷特定神經元的應有的活動趨勢),也可仿照大語言模型根據上文猜下文的工作原理,實現對將來一段時間內神經活動的自回歸預測。除了動作電位序列、鈣離子成像、EEG(腦電圖)、MEG(腦磁圖)、fMRI這些普通的神經成像數據,結構更為復雜的數據也可以作為生理信號輸入給大模型,如轉錄組與連接組。

與編碼模型相反,“解碼模型”的作用是通過神經活動反推感官輸入,或者預測生物行為。解碼模型在腦機接口的應用已有一段時間,但近期分布模型的新發展又給它打了一針雞血。此外,如果解碼模型的目的是為了還原結構化的感知,那么它可以利用大模型的模塊化性質,借調功能相關的普通大模型。比如說,我們可以讓圖生成大模型根據fMRI生成受試者看見的東西,或利用大語言模型,把閉鎖癥患者的皮質腦電圖“翻譯”成他們想說的話[13]。

最后一類神經科學大模型是“行為模型”,如DeepCutLab。這個模型也體現了大模型的模塊化特質:它以視覺大模型為底模,針對特定動物微調而來。DeepCutLab多動物同步追蹤技術與適用于自然場景的人類行為模型,大幅提升了可追蹤、量化、對比的行為內容,成為了神經行為學研究的重要工具。

值得一提的是,模型的分類是動態的,比如根據貝葉斯理論,一個編碼模型很容易就能夠被改造成一個解碼模型。在這4種模型中,分布模型對數據的需求量最大,因此也最能體現神經科學領域中大模型的一些性質。下面是一個例子。

張藝紫(音譯)等人研究了國際腦科學實驗室(IBL)收集的小鼠腦活動數據[14]。這個數據庫非常龐大,記錄了小鼠決策時丘腦、海馬體、視覺皮層等多個腦區數百小時的神經電信號,總共涉及39只小鼠的26,736個神經元。

這里有個關鍵問題:在以前,人們會采用無監督學習分析神經信號,比如經典的LFADS就是通過搭建VAE來訓練一個循環神經網絡(RNN),整理神經元活動的規律。此類方法雖高效,但存在解碼器忽視潛空間性質、樣本過度平滑、難以監測訓練過程等問題。

無監督學習是一個問題,張藝紫以遮蔽自編碼技術作答。他們隱藏了一部分神經信號,要求AI根據剩余部分“腦補”——就像玩拼圖時,用現有的碎片推測缺失部分的圖案。通過遮蔽自編碼,無監督學習變成了監督學習,不僅上面的問題迎刃而解,算法的選擇也變得自由靈活。本著大模型設計中“能調用模塊就不要從頭訓練”的原則,他們的AI——神經活動的“通用翻譯器”,借用了其他人的公開的Transformer模型NDT-1-stitch[15]。


?4 A:AI根據其它部分推斷被色塊遮蔽的神經信號。B:VAE重構生理信號

(本段為模型技術細節,需要一定AI知識才能讀懂,如讀者理解困難可直接跳過)

Transformer的核心在于數據分塊策略:將神經信號分割為獨立token供Transformer層處理。NDT-1采用了簡單直接的策略,每個時間段的神經信號對應一個token(NDT 10ms為一段,“通用翻譯器”為20ms)。第二步,信號會經過任務對應的專用嵌入矩陣(session-specific embedding matrix),投射至固定維度的表征空間(fixed dimensional representation)。在這一步后,NDT會把1段2秒的神經信號將轉化為200個token,而“通用翻譯器”則是100個。標準Transformer層隨后會通過全局注意力機制迭代處理數據。在模型的最后一層,token會被逆嵌入(unembed),用于重構神經信號輸入——也就是“腦補”出被遮蔽的部分。“腦補”圖像和原圖像的差異會根據泊松損失(Poisson loss)進行計算,以量化生成圖像的誤差。

任務專用的嵌入矩陣有兩大作用:一是支持不同神經元數量的數據集共用固定模型;二是把多個神經元在同一個潛空間中對齊,實現跨實驗數據"縫合"。因為不同的被試不可能長著一模一樣的神經元,產生一模一樣的體素,所以這種對齊技術尤為關鍵。


?圖5. NDT-1根據時間給神經活動分區

“通用翻譯器”作為神經科學大模型,跟Llama405一樣,也表現出了一定的泛化能力。除了利用重構算法預測神經數據以外,若稍加調整,它也可以預判小鼠的行為,或者計算它們胡須運動的能量。這里的“稍加調整”指的是凍結模型參數,在潛表征層后疊加邏輯斯蒂回歸執行下游解碼任務;或在其之上接入線性解碼器,并進行端到端微調。


?圖6. 左側四組數據展示模型在直接執行重構任務的表現。右側兩組數據驗證模型的泛化能力。下面的綠色圖表代表更為簡單的遮蔽策略表現。

除了泛化能力以外,論文團隊還發現該模型 “性能隨訓練次數增加持續提升”,證明它符合縮放定律。

神經科學大模型量變引發質變

在過去,神經科學的大部分研究采用假說驅動型研究范式,即在實驗室環境下,用控制變量法采集小規模數據,并進行分析。但現在可以換一個思路。一方面,最新的Neuropixels等高通量技術可以記錄大量神經元的活動;另一方面,DandiHub等大型數據平臺正在收納越來越多、種類越來越豐富的公開神經數據集。然而這些數據集并不是為了訓練大模型而建設的,因此傳統的方法并不能挖掘出這些數據的價值。

為此,一些研究者正在探索對應的新型分析工具與工程辦法。這些樂觀者認為,研究工具的匱乏堵上了神經科學的發展之門,而大數據訓練的大模型正是碎門之鑰。回顧歷史,大衛·休伯爾(David Hubel)對視覺皮層研究的諾獎級突破,正始于1957年發明的鎢絲電極技術[16]。新工具終走進千家萬戶:大語言模型不僅性能遠超傳統自然語言處理模型,而且普通人也能快速上手使用。

相反,堅持假說驅動范式的“傳統派”則對此持保留意見:他們認為此類工作頂多“止步于工程技術改良”,甚至貶為“只會撈數據”。許多教授也對AI的發展感到焦慮——資金受限的團隊恐怕難以參與這場技術競賽。《選擇你的武器:困局中AI學者的生存策略》集中討論了這一問題。[17]

我認為大模型帶來的范式轉變前景可期:大數據的“量變”會引發大模型的“質變”。

案例1:從EEG解碼言語

佐藤元重(Motoshige Sato)等人希望從一個人的EEG信號推斷他想說的話[18]。該實驗方法上并無特別之處,只是單純的堆量:他們為單個志愿者記錄了長達175小時的腦電數據。志愿者的任務是朗讀屏幕上的句子。為了不必反復清理頭發根的EEG導電凝膠,他們甚至給志愿者剃了光頭。


?圖7. 佐藤元重等人利用EEG推斷志愿者的言語意圖。

他們的EEG解碼模型由多個被預訓練的大模型模塊組合而成,然后進行了端到端微調。在包含512類語句的高難度分類任務中,該模型達到了48%的top-1準確率(模型第1順位預測與真實標簽一致的比例)。它證實了通過非侵入式腦電信號解碼大腦活動的可行性。如果AI學習到的數據特征可以跨受試者泛化,其應用前景更顯廣闊。這一進展有力扭轉了人們對EEG技術易受噪聲干擾且實用價值有限的固有認知。只可惜,沒有誰愿意為校準EEG設備耗費數月時間,所以該方法暫不實用。


?圖8. 佐藤元重的EEG解碼模型符合縮放定律:數據量與模型表現呈正相關。

案例2:從腕部肌電解碼手勢

Meta Reality實驗室近期發表的論文構建了利用表面腕部肌電(wrist-worn EMG)推斷手部動作的解碼模型[19]。與上文針對單個志愿者進行冗長實驗的做法不同,Meta Reality選擇了增加志愿者數量到數千名,但每個志愿者的參與時長僅略超1小時。這顯然超出單個學術實驗室的一般預算,但我們可以利用縮放定律計算小樣本時的模型表現[20]。


?圖9 模型的錯誤隨被試增加而減少。

案例3:從視覺皮層解碼輸入圖像

正如我之前在xcorr上說的[21],近期不少研究把fMRI的優質潛表征和擴散模型(diffusion models)的生圖能力相結合,搭建出MindEye2這樣的視覺解碼模型。如果針對特定受試者進行1小時的微調,MindEye2即可根據fMRI成像數據,實現視覺感官輸入的精確重建。

MindEye2作為大模型的特征非常明顯:利用了模塊化的,基于大規模數據進行預訓練的強大生圖模型,且能夠針對個體微調。


?圖10. 從左到右分別為:受試看到的圖片、針對個人微調后的MindEye 2結果、未針對個人微調的MindEye 2結果,和3個其他模型的輸出。

案例4:利用文字推理神經科學論文正確性

上文的3個案例展現了解碼模型學習神經數據潛表征的能力:大模型可以整合海量的數據,而人類力不能及。

類似的,大語言模型也可以整合海量文本數據,識別論文中難以發現的錯誤。比如羅曉梁(音譯)等人收集了2023年《神經科學雜志》(Journal of Neuroscience)上的文章摘要,并通過反轉部分詞義合成出虛假的摘要(圖11),比如把“抑制”改為“促進”[22]。然后,他們直接使用大語言模型,根據生成下一個token時的模型困惑度(perplexity)來衡量摘要的真偽。


?圖11. 制造假摘要的方法。

結果發現,盡管大語言模型沒有針對摘要進行微調,仍然精準地選中了超過80%的真摘要,比不能使用搜索引擎的神經科學博士生甚至教授都做得更好。有趣的是,也許是因為針對對話場景的微調損害了模型的精確度,基礎模型的性能反而比對話模型更好。結果符合縮放定律,模型規模與性能呈正相關。


?圖12 模型通過連續變量(摘要整體困惑度,單位nats)量化判斷置信度,置信度與準確度正相關。

該模型可以識別需要進一步驗證的爭議性假設,或探測文獻中已被證實的舊假設。此項研究體現了"大語言模型+神經科學"的潮流,近期有一篇綜述系統地整理了這個問題[23]。

大模型研究的困難

上文也許會給你一種錯覺:神經科學的大模型研究就是找到足量的數據,然后扔給一個足夠強大的模型,接著就可以躺平了。但實際上,這一過程有不少微妙的技術細節。

大模型的算法仍存在問題。有時候,它們會依賴偶然、脆弱的關聯進行推斷,即進行捷徑學習(shortcut learning)。ResNet-50就是典中典,淡水魚丁鱥因為經常成為釣魚佬的戰利品(圖13),所以它的識別特征包含人類手指、面部及迷彩服。類似的,上文的EEG-言語解碼模型極可能利用發聲時面部肌肉的電信號來判斷言語意圖(而非單純使用腦電),不過佐藤元重團隊通過合成數據分析控制了此類干擾[18]。


?圖13. LENS[24]發現,ResNet-50會利用手指來檢測丁鱥。

此外,人類只能夠通過表面特征來判斷生成式解碼模型的能力,這容易給人類一種它比真實表現更好的錯覺。例如,MindEye2還原的圖像非常好看,會讓人誤以為它的能力很強。但這并不意味著它的結果與神經信號是真實對應的。優先追求視覺吸引力的模型易對輸入分布過擬合,一旦面臨新數據,表現將十分不理想[25]。

除了模型和算法本身的問題外,數據質量也是一個挑戰:垃圾輸入,垃圾輸出。如果樣本缺乏代表性,那么模型很可能也沒用。雖然Meta團隊構建了具有人口學代表性,能夠反映各種人群特征的數據庫(圖14),但為此的資源投入遠超單個大學實驗室的能力。


?圖14. Meta Reality志愿者的人類學與人口學特征。

謊言重復一百次就是真理。化學失衡導致抑郁癥是一個錯誤的假說,但這個錯誤因為重復傳播至今仍有信眾。在這一方面大語言模型跟人類無異。從無害的誤解(如"掰手指致關節炎")到有害的偽科學言論(如反疫苗理論),它們同樣會被數據庫內高頻的偽科學"事實"誤導。

最后,大數據與大規模訓練并不能完全解決數據質量差的問題,數據標簽準確性、信號維度與信噪比也很重要。圖15的研究根據當前的腦成像AI表現,預測了大規模樣本(一百萬個被試)下的情況[26]。結果為當頭棒喝:即使耗資近十億美元獲取如此大量的MRI數據,抑郁癥與正常人的分類準確率只比完全隨機的0.5多了10%。縮放定律在此展現其嚴酷性——模型性能僅隨數據規模呈對數線性提升。


?圖15. 就算把現有的MRI數據庫擴展到百萬級,模型的表現仍不理想。

神經科學大模型的機遇和挑戰

跟在其他行業一樣,神經科學的大模型也是依托更大規模的數據集,訓練更復雜的模型。傳統認知認為大模型只會帶來量變,過去對神經科學中機器學習模型優劣的評價,在這種思路下也只會被同步放大。我對此持有不同的觀點,我認為,更大的模型會引發質變。原因如下:

(1)大模型具有泛化能力和模塊化特質,可實現快速遷移。面對新的需求,研究者只需利用少量算力微調現有的大模型,而不必從頭開始訓練新的模型。此外,大模型讓開發AI不再需要從頭開始設計架構,而是像逛超市一樣從貨架上選擇需要的大模型模塊,構建AI模型變得像搭樂高一樣方便。

(2)DANDI、OpenNeuro、DABI等公共檔案庫中有著數十萬小時的無標注數據,遠比標注數據豐富。大模型可以利用這些海量的無標注數據。雖然元數據質量參差,但大語言模型可以提取、過濾數據。

(3)大模型可處理圖數據、脈沖信號、轉錄組等傳統大規模機器學習技術難以處理的模態。

(4)大“模型”一詞其實有點誤導性——大模型的核心突破不在于模型本身的架構創新,而在于訓練數據的規模與質量。AI研究的范式應從模型中心轉變為數據中心[27]。

在學術界,性能優秀、方便部署的大模型可以從現成的數據集中挖掘有價值的信息,加速科學發現。在工業界,大模型處理豐富數據(rich data)的能力可提升侵入式腦機接口的效率與非侵入式接口的精度。總之,大模型在神經科學的前景令人振奮。

但是,如同先前的專用機器學習模型,大模型在敏感醫療應用中存在放大社會偏見、削弱病人自主權、引發隱私關切的潛在風險。這些廣泛存在的AI倫理問題已在多部著作中深入探討,現有的AI倫理框架[28], [29]應能指導大模型的多數倫理問題。


?圖源:Bj?rn ?berg

筆者作為技術人員而非生命倫理學家,我將側重技術層面的風險探討:

風險一:大模型的可解釋性很差

評估模型在不同下游應用中的偏見,發現捷徑學習,還是透明化訓練數據,都是費時費力的工作。神經科學家不僅沒有接受過這方面的訓練,這類基礎性工作還發不出論文,對他們的事業發展沒有幫助。

以下為一些解決手段:(1)設立專項工具開發基金,雇傭數據科學家與工程師,開設大模型應用倫理課程[30]。(2)因為大模型是數據中心的,所以開發高質量的數據庫和開發工具也可以解決問題。我們正在目睹這類項目的“寒武紀大爆發”——大量新型非營利研究組織與大規模學術項目正在進行,如e11bio、Forest Neurotech、FutureHouse、the Enigma project。

風險二:自動化悖論[31]

人機協作容易陷入兩極分化:AI低效時完全依賴人力,高效時則完全依賴AI。比如說,如果我們把癲癇的檢測交給AI,醫生就不太會再去看原始腦電數據了。他們看腦電的專業能力就會隨之弱化,不再能發現AI的錯誤診斷。

風險三:數據公平

神經科學大模型具有寶貴的商業價值,但訓練大模型需要大量高度敏感的神經數據。在利用知識產權把大模型產品變現之前,我們需要解決有關數據所有權和隱私保護的問題,并建立讓普通人不受剝削的機制。

盡管面臨以上挑戰,我仍堅信,通過建立適宜的監管與資助環境,這些風險可以得到有效控制。大模型在加速神經科學發現向臨床轉化方面的潛力令人振奮,它們為大規模解析復雜神經數據提供了前所未有的機遇,有望揭示傳統方法難以捕捉的神經活動模式與關聯。

譯者后記

說來慚愧,因為光影告訴我有篇寫的很好的神經科學基礎模型的文章,我一開始以為這篇文章會介紹神經科學的基礎理論框架,又在快速瀏覽的時候看到了那個Friston的小白鼠插圖(圖3),遂欣然接稿。翻譯到中間才發現,那個小白鼠圖就是全部的理論神經科學內容了,這篇文章講的是大模型。

雖然如此,理論神經科學、NeuroAI、AI for Neuroscience,這三者共享著許多的思維方式與研究手法,所以我還是可以舒服地做完這篇稿子,并且有所收獲。

作為一名準博士生,我覺得也沒必要只是死盯著自己的一畝三分地,看看相關的其他學科有什么新的進展,也是很好的。博士畢竟是“博”士嘛。

“Introducing Llama 3.1: Our most capable models to date,” Meta AI. Accessed: Mar. 31, 2025. [Online]. Available: https://ai.meta.com/blog/meta-llama-3-1/

[2]“Facebook E5 Software Engineer Salary | $331K-$647K+ | Levels.fyi.” Accessed: Mar. 31, 2025. [Online]. Available: https://www.levels.fyi/companies/facebook/salaries/software-engineer/levels/e5

[3]J. Kaplan et al., “Scaling Laws for Neural Language Models,” Jan. 23, 2020, arXiv: arXiv:2001.08361. doi: 10.48550/arXiv.2001.08361.

[4]“National Deep Inference Fabric.” Accessed: Mar. 31, 2025. [Online]. Available: https://ndif.us/

[5]“Smaller, Safer, More Transparent: Advancing Responsible AI with Gemma- Google Developers Blog.” Accessed: Mar. 31, 2025. [Online]. Available: https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

[6]“AI News.” Accessed: Mar. 31, 2025. [Online]. Available: https://buttondown.com/ainews

[7]E. Mollick, “One Useful Thing | Ethan Mollick | Substack.” Accessed: Mar. 31, 2025. [Online]. Available: https://www.oneusefulthing.org/

[8]E. David, “AI image training dataset found to include child sexual abuse imagery,” The Verge. Accessed: Mar. 31, 2025. [Online]. Available: https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford

[9]I. Ustyuzhaninov et al., “Digital twin reveals combinatorial code of non-linear computations in the mouse primary visual cortex,” Feb. 10, 2022, bioRxiv. doi: 10.1101/2022.02.10.479884.

[10]B. R. Cowley, P. L. Stan, J. W. Pillow, and M. A. Smith, “Compact deep neural network models of visual cortex,” bioRxiv, p. 2023.11.22.568315, Nov. 2023, doi: 10.1101/2023.11.22.568315.

[11]E. Y. Wang et al., “Foundation model of neural activity predicts response to new stimulus types and anatomy,” bioRxiv, p. 2023.03.21.533548, Aug. 2024, doi: 10.1101/2023.03.21.533548.

[12]C. Pandarinath et al., “Inferring single-trial neural population dynamics using sequential auto-encoders,” Nat. Methods, vol. 15, no. 10, pp. 805–815, Oct. 2018, doi: 10.1038/s41592-018-0109-9.

[13]D. A. Moses et al., “Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria,” N. Engl. J. Med., vol. 385, no. 3, pp. 217–227, Jul. 2021, doi: 10.1056/NEJMoa2027540.

[14]Y. Zhang et al., “Towards a ‘universal translator’ for neural dynamics at single-cell, single-spike resolution,” Jul. 23, 2024, arXiv: arXiv:2407.14668. doi: 10.48550/arXiv.2407.14668.

[15]J. Ye and C. Pandarinath, “Representation learning for neural population activity with Neural Data Transformers,” Neurons Behav. Data Anal. Theory, vol. 5, no. 3, Aug. 2021, doi: 10.51628/001c.27358.

[16]D. H. Hubel, “Tungsten Microelectrode for Recording from Single Units,” Science, vol. 125, no. 3247, pp. 549–550, Mar. 1957, doi: 10.1126/science.125.3247.549.

[17]J. Togelius and G. N. Yannakakis, “Choose Your Weapon: Survival Strategies for Depressed AI Academics,” Feb. 08, 2024, arXiv: arXiv:2304.06035. doi: 10.48550/arXiv.2304.06035.

[18]M. Sato, K. Tomeoka, I. Horiguchi, K. Arulkumaran, R. Kanai, and S. Sasai, “Scaling Law in Neural Data: Non-Invasive Speech Decoding with 175 Hours of EEG Data,” Jul. 10, 2024, arXiv: arXiv:2407.07595. doi: 10.48550/arXiv.2407.07595.

[19]C. at R. Labs, D. Sussillo, P. Kaifosh, and T. Reardon, “A generic noninvasive neuromotor interface for human-computer interaction,” Jul. 23, 2024, bioRxiv. doi: 10.1101/2024.02.23.581779.

[20]Y. Ruan, C. J. Maddison, and T. Hashimoto, “Observational Scaling Laws and the Predictability of Language Model Performance,” Oct. 01, 2024, arXiv: arXiv:2405.10938. doi: 10.48550/arXiv.2405.10938.

[21]“Denoising diffusion models for neuroscience,” xcorr: AI & neuro. Accessed: Apr. 01, 2025. [Online]. Available: https://xcorr.net/2023/02/06/denoising-diffusion-models-for-neuroscience/

[22]X. Luo et al., “Large language models surpass human experts in predicting neuroscience results,” Nat. Hum. Behav., vol. 9, no. 2, pp. 305–315, Nov. 2024, doi: 10.1038/s41562-024-02046-9.

[23]D. Bzdok, A. Thieme, O. Levkovskyy, P. Wren, T. Ray, and S. Reddy, “Data science opportunities of large language models for neuroscience and biomedicine,” Neuron, vol. 112, no. 5, pp. 698–717, Mar. 2024, doi: 10.1016/j.neuron.2024.01.016.

[24]“Lens.” Accessed: Apr. 01, 2025. [Online]. Available: https://serre-lab.github.io/Lens/

[25]K. Shirakawa et al., “Spurious reconstruction from brain activity,” Sep. 18, 2024, arXiv: arXiv:2405.10078. doi: 10.48550/arXiv.2405.10078.

[26]M.-A. Schulz, D. Bzdok, S. Haufe, J.-D. Haynes, and K. Ritter, “Performance reserves in brain-imaging-based phenotype prediction,” Feb. 25, 2022, bioRxiv. doi: 10.1101/2022.02.23.481601.

[27]“Introduction to Data-Centric AI,” Introduction to Data-Centric AI. Accessed: Apr. 01, 2025. [Online]. Available: https://dcai.csail.mit.edu/

[28]R. Yuste et al., “Four ethical priorities for neurotechnologies and AI,” Nature, vol. 551, no. 7679, pp. 159–163, Nov. 2017, doi: 10.1038/551159a.

[29]F. X. Shen, B. C. Silverman, P. Monette, S. Kimble, S. L. Rauch, and J. T. Baker, “An Ethics Checklist for Digital Health Research in Psychiatry: Viewpoint,” J. Med. Internet Res., vol. 24, no. 2, p. e31146, Feb. 2022, doi: 10.2196/31146.

[30]“Community for Rigor.” Accessed: Apr. 01, 2025. [Online]. Available: https://www.c4r.io/

[31]L. Bainbridge, “Ironies of automation,” Automatica, vol. 19, no. 6, pp. 775–779, Nov. 1983, doi: 10.1016/0005-1098(83)90046-8.






關于追問nextquestion

天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。

關于天橋腦科學研究院

天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。

Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。

Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
評論“違規吃喝”,新華社更勝一籌

評論“違規吃喝”,新華社更勝一籌

海濤評論
2025-06-20 22:22:44
足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

足協杯!2-1,49歲李霄鵬率隊晉級八強,羅森文、金永浩驚艷破門

側身凌空斬
2025-06-21 21:30:33
以色列天塌了!伊朗高官透露:最老導彈還沒打光,1.8萬枚敞開炸

以色列天塌了!伊朗高官透露:最老導彈還沒打光,1.8萬枚敞開炸

薦史
2025-06-20 13:27:34
上海中環內圈一輛SUV突然起火!駕駛室陷入火海,現場黑煙滾滾…

上海中環內圈一輛SUV突然起火!駕駛室陷入火海,現場黑煙滾滾…

上海圈
2025-06-21 12:38:49
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
“我媽沒義務帶孫,誰生的誰帶”嫂子:帶著你媽滾出去,別住在這

“我媽沒義務帶孫,誰生的誰帶”嫂子:帶著你媽滾出去,別住在這

廣西秦胖胖
2025-06-20 21:41:30
阿里納斯:克萊有四冠 但分衛排名中總有兩個無冠球員排他前面

阿里納斯:克萊有四冠 但分衛排名中總有兩個無冠球員排他前面

直播吧
2025-06-21 20:37:23
重回亞洲第一,告別兩連敗,中國女排勝日本利好兩點

重回亞洲第一,告別兩連敗,中國女排勝日本利好兩點

跑者排球視角
2025-06-21 08:34:27
谷歌預測颶風重大突破!1分鐘測出風速,路徑精度提高140公里

谷歌預測颶風重大突破!1分鐘測出風速,路徑精度提高140公里

徐德文科學頻道
2025-06-20 21:42:55
太帥了!央視新聞男主播爆火,95后博士,網友:河北盛產主持人

太帥了!央視新聞男主播爆火,95后博士,網友:河北盛產主持人

大鐵貓娛樂
2025-06-19 16:48:36
時隔18天單日票房再度破億

時隔18天單日票房再度破億

界面新聞
2025-06-21 17:26:06
女排3-1日本!攔網無解,龔翔宇+2主攻+2副攻齊爆,張籽萱成長!

女排3-1日本!攔網無解,龔翔宇+2主攻+2副攻齊爆,張籽萱成長!

籃球資訊達人
2025-06-21 21:54:54
吳夢潔受傷登熱搜:踩陳厚羽腳崴傷 坐擔架離場 趙勇驚恐一幕被抓

吳夢潔受傷登熱搜:踩陳厚羽腳崴傷 坐擔架離場 趙勇驚恐一幕被抓

顏小白的籃球夢
2025-06-21 22:47:02
勁爆!baby和鄧倫被曝在車內的大瓜……

勁爆!baby和鄧倫被曝在車內的大瓜……

毒舌八卦
2025-06-21 21:59:19
北京大爺小區遛3條巨型犬不牽繩,態度囂張還罵路人,結局爽了

北京大爺小區遛3條巨型犬不牽繩,態度囂張還罵路人,結局爽了

奇思妙想草葉君
2025-06-20 23:42:02
周鶴年與明日花綺羅「肉體親密照」被曝光,周曾私下炫耀與女方「睡了」,是哥哥們付的錢

周鶴年與明日花綺羅「肉體親密照」被曝光,周曾私下炫耀與女方「睡了」,是哥哥們付的錢

日本物語
2025-06-21 20:56:23
美國要求其亞洲盟友上調軍費至GDP的5%,韓國“面露難色”:韓軍費占比已相當高

美國要求其亞洲盟友上調軍費至GDP的5%,韓國“面露難色”:韓軍費占比已相當高

環球網資訊
2025-06-20 18:22:06
肯辛頓宮發布凱特最新消息!向臨終關懷機構致謝,破“病危”傳言

肯辛頓宮發布凱特最新消息!向臨終關懷機構致謝,破“病危”傳言

小嵩
2025-06-21 08:09:07
內賈德及其家人突傳死訊

內賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
桔子水晶酒店洗漱包發現陽性HIV檢測盒 官方回應:已為入住旅客注射阻斷藥

桔子水晶酒店洗漱包發現陽性HIV檢測盒 官方回應:已為入住旅客注射阻斷藥

中國能源網
2025-06-20 11:16:22
2025-06-21 23:36:49
追問Nextquestion incentive-icons
追問Nextquestion
科研就是不斷探索問題的邊界
471文章數 18關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

文班品嘗水席 "很享受在中國的時光"

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

本地
手機
教育
游戲
藝術

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

榮耀Magic V5劇透,最強AI智能體手機

教育要聞

四川廣安高一月考題求f(x)的解析式

生化8艾達王廢案回顧:會在《生化9》驚喜回歸嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 周口市| 施甸县| 聂荣县| 阿巴嘎旗| 蓝山县| 朝阳市| 马山县| 东光县| 鄂尔多斯市| 日土县| 武山县| 徐闻县| 镇远县| 营山县| 绥阳县| 文化| 泊头市| 南木林县| 临洮县| 屏东市| 基隆市| 荃湾区| 额尔古纳市| 区。| 高陵县| 平度市| 明溪县| 永清县| 保山市| 临安市| 台安县| 泾川县| 剑阁县| 含山县| 鄂托克旗| 新竹县| 齐河县| 玉环县| 山东省| 湖州市| 边坝县|