網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

這個AI精準(zhǔn)模擬人類行為大腦狀態(tài)，上Nature了

2025-07-15 17:30:14　來源: 量子位

北京舉報

分享至

鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

首個能跨領(lǐng)域精準(zhǔn)預(yù)測人類認(rèn)知的基礎(chǔ)模型誕生！

不僅可以完全預(yù)判你的行為，還能知道你是如何思考、以及為什么思考。

這是一項最新登上Nature的突破性研究，來自德國的研究團(tuán)隊只用了5天訓(xùn)練時間就開發(fā)出人類認(rèn)知的通用計算模型——Centaur。

Centaur現(xiàn)在就像一名專業(yè)的心理學(xué)家，只需傳統(tǒng)模型Llama的0.15%參數(shù)，就可以完美模擬人類在160項心理學(xué)實(shí)驗中的行為，理解人類如何學(xué)習(xí)、決策甚至犯錯。

不僅僅受限于單一領(lǐng)域，而是真正的多任務(wù)全能選手，性能全面超越傳統(tǒng)的特定領(lǐng)域認(rèn)知模型。

更驚人的是，其神經(jīng)表征竟與真人fMRI（功能性磁共振成像）掃描結(jié)果高度吻合。

AI，正在成為最懂人類的“讀心者”。

Centaur：心理學(xué)與AI的跨界突破

在心理學(xué)領(lǐng)域，建立一個統(tǒng)一的認(rèn)知理論，可以識別和描述所有人類認(rèn)知、行為和情感，是所有心理學(xué)家孜孜不倦的追求。

認(rèn)知的統(tǒng)一理論是唯一能將我們?nèi)找嬖鲩L的豐富知識，置于理智掌控之下的方法。

那么首先需要構(gòu)建一個能夠預(yù)測和模擬人類行為的通用計算模型，它不是AlphaGo這種專為某一個領(lǐng)域而生的模型，而是面向所有領(lǐng)域、各種情況。

于是，Centaur——首個人類認(rèn)知基礎(chǔ)模型誕生了。

研究團(tuán)隊首先為之構(gòu)建了史上最大規(guī)模的人類行為數(shù)據(jù)集Psych-101，涵蓋160項心理學(xué)實(shí)驗，涉及60092名參與者、超1000萬次選擇，以及2億多個文本tokens。

數(shù)據(jù)集包含多臂老虎機(jī)、決策制定、記憶、邏輯推理、馬爾可夫決策過程等多種任務(wù)。

此外研究人員還將全部實(shí)驗數(shù)據(jù)轉(zhuǎn)化為自然語言形式，為不同實(shí)驗范式提供統(tǒng)一表達(dá)格式。

而模型本身基于開源語言模型Llama 3.1 70B構(gòu)建，采用參數(shù)高效微調(diào)技術(shù)QLoRA（量化低秩適應(yīng)）進(jìn)行訓(xùn)練。

具體而言是在凍結(jié)的4位量化基礎(chǔ)模型上，為所有非嵌入層添加秩為8的低秩適配器，最后新增參數(shù)僅占基礎(chǔ)模型的0.15%。

然后將模型置于Psych-101數(shù)據(jù)集上進(jìn)行微調(diào)，使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)，只專注聚焦在人類響應(yīng)token上。

值得注意的是，整個訓(xùn)練過程在A100 80GB GPU上，只耗時5天時間。

短短5天，一個通用的LLM模型就蛻變成了可以真正“讀懂”人類的認(rèn)知模型，甚至全面超越傳統(tǒng)模型。

超越傳統(tǒng)認(rèn)知模型

研究人員為了考驗Centaur的認(rèn)知能力，設(shè)計了一系列實(shí)驗驗證。

首先是對人類行為的捕捉，判斷其能否精準(zhǔn)地預(yù)測人類行為。

實(shí)驗將參與者分為90%的訓(xùn)練組和10%的測試組，負(fù)對數(shù)似然值作為衡量模型對人類選擇擬合度的指標(biāo)。

結(jié)果顯示，Centaur的負(fù)對數(shù)似然值為0.44，在擬合度上顯著優(yōu)于Llama的0.58。

在對未參與訓(xùn)練者的行為預(yù)測表現(xiàn)也優(yōu)于14種經(jīng)典認(rèn)知模型（如前景理論、強(qiáng)化學(xué)習(xí)模型），平均差異達(dá)0.13，且通過了顯著性檢驗。

將模型自身響應(yīng)反饋給模型本身后，Centaur還表現(xiàn)出了多個與人類相似的行為特征，例如在兩步任務(wù)（Two-Step Task）中，它復(fù)現(xiàn)了與人類行為分布高度一致的軌跡。

此外還能區(qū)別人類與人工智能體的行為，預(yù)測人類行為準(zhǔn)確率高達(dá)64%，而預(yù)測人工智能體的行為準(zhǔn)確率只有35%。

基于描述選擇反應(yīng)時間與選項數(shù)量關(guān)系的希克定律，研究人員分析模型對人類反應(yīng)時間的預(yù)測能力。

結(jié)果表明，Centaur 的響應(yīng)熵所能解釋的反應(yīng)時間方差比例（條件 R2=0.87）高于 Llama（0.75）和領(lǐng)域特定模型（0.77），顯示出其在捕捉人類行為時間特征方面的優(yōu)勢。

其次，研究人員還重點(diǎn)探究了Centaur的泛化能力。

只修改故事背景，不改變?nèi)蝿?wù)內(nèi)容

實(shí)驗將原來的“太空船尋寶”改為“魔毯探險”的新故事后，Centaur在新故事場景下人類行為的預(yù)測負(fù)對數(shù)似然值，依舊顯著優(yōu)于Llama和領(lǐng)域特定認(rèn)知模型，說明Centaur不受任務(wù)表面描述變化影響。

修改任務(wù)結(jié)構(gòu)

在原來的兩臂老虎機(jī)實(shí)驗上，新增成三臂，選擇加一，但Centaur的負(fù)對數(shù)似然值（0.42）依舊遠(yuǎn)低于 Llama（0.62）和領(lǐng)域特定模型（0.98），表明其能適應(yīng)任務(wù)結(jié)構(gòu)的擴(kuò)展與調(diào)整。

全新領(lǐng)域的任務(wù)

讓模型處理未包含在Psych-101數(shù)據(jù)集內(nèi)的邏輯推理任務(wù)，Centaur 的負(fù)對數(shù)似然值（1.65）顯著低于 Llama（1.92），體現(xiàn)出微調(diào)后對全新認(rèn)知領(lǐng)域的預(yù)測能力依舊強(qiáng)力。

最后，研究人員還聚焦于Centaur與人類神經(jīng)活動的對齊性，分析驗證其內(nèi)部表征與人類大腦活動的聯(lián)系。

實(shí)驗讓94名參與者完成兩步任務(wù)，并記錄下他們的fMRI數(shù)據(jù)，通過分析，Centaur的各層表征對全腦區(qū)域神經(jīng)活動的皮爾遜相關(guān)系數(shù)均顯著高于基礎(chǔ)模型Llama，且優(yōu)于傳統(tǒng)認(rèn)知模型和隨機(jī)初始化控制模型。

尤其在與獎勵相關(guān)腦區(qū)（如伏隔核）和運(yùn)動皮層，Centaur的預(yù)測表現(xiàn)更為突出，說明其擁有優(yōu)秀的人類神經(jīng)活動預(yù)測能力。

另外在讓5名參與者閱讀1000個句子的語言理解任務(wù)中，Centaur中間層的表征預(yù)測效果最佳，包含最豐富信息，且在與語言處理相關(guān)的腦區(qū)表現(xiàn)最為穩(wěn)定。

實(shí)驗說明，雖然Centaur在訓(xùn)練過程中沒有明確匹配神經(jīng)數(shù)據(jù)，但在微調(diào)后卻出乎意料的和人類神經(jīng)活動呈現(xiàn)出一致性。

據(jù)推測，也許是模型內(nèi)部表征捕捉到了人類認(rèn)知加工的神經(jīng)基礎(chǔ)特征。

Centaur的出現(xiàn)證明了構(gòu)建計算模型實(shí)現(xiàn)跨領(lǐng)域捕捉人類行為是可行的。

未來它或許將作為 “計算望遠(yuǎn)鏡”，幫助研究者從從海量行為數(shù)據(jù)中提煉關(guān)鍵信息，為統(tǒng)一認(rèn)知理論的發(fā)展提供強(qiáng)有力的數(shù)據(jù)驅(qū)動路徑。

正如作者在論文結(jié)尾所言：

是時候?qū)⑦@種通用計算模型，轉(zhuǎn)化為統(tǒng)一的人類認(rèn)知理論了。

參考鏈接：
[1]https://x.com/jowettbrendan/status/1942501763313197374
[2]https://doi.org/10.1038/s41586-025-09215-4

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.