鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
首個能跨領(lǐng)域精準(zhǔn)預(yù)測人類認(rèn)知的基礎(chǔ)模型誕生!
不僅可以完全預(yù)判你的行為,還能知道你是如何思考、以及為什么思考。
這是一項最新登上Nature的突破性研究,來自德國的研究團(tuán)隊只用了5天訓(xùn)練時間就開發(fā)出人類認(rèn)知的通用計算模型——Centaur。
Centaur現(xiàn)在就像一名專業(yè)的心理學(xué)家,只需傳統(tǒng)模型Llama的0.15%參數(shù),就可以完美模擬人類在160項心理學(xué)實(shí)驗中的行為,理解人類如何學(xué)習(xí)、決策甚至犯錯。
不僅僅受限于單一領(lǐng)域,而是真正的多任務(wù)全能選手,性能全面超越傳統(tǒng)的特定領(lǐng)域認(rèn)知模型。
更驚人的是,其神經(jīng)表征竟與真人fMRI(功能性磁共振成像)掃描結(jié)果高度吻合。
AI,正在成為最懂人類的“讀心者”。
Centaur:心理學(xué)與AI的跨界突破
在心理學(xué)領(lǐng)域,建立一個統(tǒng)一的認(rèn)知理論,可以識別和描述所有人類認(rèn)知、行為和情感,是所有心理學(xué)家孜孜不倦的追求。
認(rèn)知的統(tǒng)一理論是唯一能將我們?nèi)找嬖鲩L的豐富知識,置于理智掌控之下的方法。
那么首先需要構(gòu)建一個能夠預(yù)測和模擬人類行為的通用計算模型,它不是AlphaGo這種專為某一個領(lǐng)域而生的模型,而是面向所有領(lǐng)域、各種情況。
于是,Centaur——首個人類認(rèn)知基礎(chǔ)模型誕生了。
研究團(tuán)隊首先為之構(gòu)建了史上最大規(guī)模的人類行為數(shù)據(jù)集Psych-101,涵蓋160項心理學(xué)實(shí)驗,涉及60092名參與者、超1000萬次選擇,以及2億多個文本tokens。
數(shù)據(jù)集包含多臂老虎機(jī)、決策制定、記憶、邏輯推理、馬爾可夫決策過程等多種任務(wù)。
此外研究人員還將全部實(shí)驗數(shù)據(jù)轉(zhuǎn)化為自然語言形式,為不同實(shí)驗范式提供統(tǒng)一表達(dá)格式。
而模型本身基于開源語言模型Llama 3.1 70B構(gòu)建,采用參數(shù)高效微調(diào)技術(shù)QLoRA(量化低秩適應(yīng))進(jìn)行訓(xùn)練。
具體而言是在凍結(jié)的4位量化基礎(chǔ)模型上,為所有非嵌入層添加秩為8的低秩適配器,最后新增參數(shù)僅占基礎(chǔ)模型的0.15%。
然后將模型置于Psych-101數(shù)據(jù)集上進(jìn)行微調(diào),使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),只專注聚焦在人類響應(yīng)token上。
值得注意的是,整個訓(xùn)練過程在A100 80GB GPU上,只耗時5天時間。
短短5天,一個通用的LLM模型就蛻變成了可以真正“讀懂”人類的認(rèn)知模型,甚至全面超越傳統(tǒng)模型。
超越傳統(tǒng)認(rèn)知模型
研究人員為了考驗Centaur的認(rèn)知能力,設(shè)計了一系列實(shí)驗驗證。
首先是對人類行為的捕捉,判斷其能否精準(zhǔn)地預(yù)測人類行為。
實(shí)驗將參與者分為90%的訓(xùn)練組和10%的測試組,負(fù)對數(shù)似然值作為衡量模型對人類選擇擬合度的指標(biāo)。
結(jié)果顯示,Centaur的負(fù)對數(shù)似然值為0.44,在擬合度上顯著優(yōu)于Llama的0.58。
在對未參與訓(xùn)練者的行為預(yù)測表現(xiàn)也優(yōu)于14種經(jīng)典認(rèn)知模型(如前景理論、強(qiáng)化學(xué)習(xí)模型),平均差異達(dá)0.13,且通過了顯著性檢驗。
將模型自身響應(yīng)反饋給模型本身后,Centaur還表現(xiàn)出了多個與人類相似的行為特征,例如在兩步任務(wù)(Two-Step Task)中,它復(fù)現(xiàn)了與人類行為分布高度一致的軌跡。
此外還能區(qū)別人類與人工智能體的行為,預(yù)測人類行為準(zhǔn)確率高達(dá)64%,而預(yù)測人工智能體的行為準(zhǔn)確率只有35%。
基于描述選擇反應(yīng)時間與選項數(shù)量關(guān)系的希克定律,研究人員分析模型對人類反應(yīng)時間的預(yù)測能力。
結(jié)果表明,Centaur 的響應(yīng)熵所能解釋的反應(yīng)時間方差比例(條件 R2=0.87)高于 Llama(0.75)和領(lǐng)域特定模型(0.77),顯示出其在捕捉人類行為時間特征方面的優(yōu)勢。
其次,研究人員還重點(diǎn)探究了Centaur的泛化能力。
- 只修改故事背景,不改變?nèi)蝿?wù)內(nèi)容
實(shí)驗將原來的“太空船尋寶”改為“魔毯探險”的新故事后,Centaur在新故事場景下人類行為的預(yù)測負(fù)對數(shù)似然值,依舊顯著優(yōu)于Llama和領(lǐng)域特定認(rèn)知模型,說明Centaur不受任務(wù)表面描述變化影響。
- 修改任務(wù)結(jié)構(gòu)
在原來的兩臂老虎機(jī)實(shí)驗上,新增成三臂,選擇加一,但Centaur的負(fù)對數(shù)似然值(0.42)依舊遠(yuǎn)低于 Llama(0.62)和領(lǐng)域特定模型(0.98),表明其能適應(yīng)任務(wù)結(jié)構(gòu)的擴(kuò)展與調(diào)整。
- 全新領(lǐng)域的任務(wù)
讓模型處理未包含在Psych-101數(shù)據(jù)集內(nèi)的邏輯推理任務(wù),Centaur 的負(fù)對數(shù)似然值(1.65)顯著低于 Llama(1.92),體現(xiàn)出微調(diào)后對全新認(rèn)知領(lǐng)域的預(yù)測能力依舊強(qiáng)力。
最后,研究人員還聚焦于Centaur與人類神經(jīng)活動的對齊性,分析驗證其內(nèi)部表征與人類大腦活動的聯(lián)系。
實(shí)驗讓94名參與者完成兩步任務(wù),并記錄下他們的fMRI數(shù)據(jù),通過分析,Centaur的各層表征對全腦區(qū)域神經(jīng)活動的皮爾遜相關(guān)系數(shù)均顯著高于基礎(chǔ)模型Llama,且優(yōu)于傳統(tǒng)認(rèn)知模型和隨機(jī)初始化控制模型。
尤其在與獎勵相關(guān)腦區(qū)(如伏隔核)和運(yùn)動皮層,Centaur的預(yù)測表現(xiàn)更為突出,說明其擁有優(yōu)秀的人類神經(jīng)活動預(yù)測能力。
另外在讓5名參與者閱讀1000個句子的語言理解任務(wù)中,Centaur中間層的表征預(yù)測效果最佳,包含最豐富信息,且在與語言處理相關(guān)的腦區(qū)表現(xiàn)最為穩(wěn)定。
實(shí)驗說明,雖然Centaur在訓(xùn)練過程中沒有明確匹配神經(jīng)數(shù)據(jù),但在微調(diào)后卻出乎意料的和人類神經(jīng)活動呈現(xiàn)出一致性。
據(jù)推測,也許是模型內(nèi)部表征捕捉到了人類認(rèn)知加工的神經(jīng)基礎(chǔ)特征。
Centaur的出現(xiàn)證明了構(gòu)建計算模型實(shí)現(xiàn)跨領(lǐng)域捕捉人類行為是可行的。
未來它或許將作為 “計算望遠(yuǎn)鏡”,幫助研究者從從海量行為數(shù)據(jù)中提煉關(guān)鍵信息,為統(tǒng)一認(rèn)知理論的發(fā)展提供強(qiáng)有力的數(shù)據(jù)驅(qū)動路徑。
正如作者在論文結(jié)尾所言:
是時候?qū)⑦@種通用計算模型,轉(zhuǎn)化為統(tǒng)一的人類認(rèn)知理論了。
參考鏈接:
[1]https://x.com/jowettbrendan/status/1942501763313197374
[2]https://doi.org/10.1038/s41586-025-09215-4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.