當(dāng)一個(gè)大型語言模型(LLM,Large Language Model)被要求“在心里想一個(gè)數(shù)字”并確認(rèn)完成后,它是否真的在內(nèi)部“記住了”這個(gè)數(shù)字?來自美國約翰斯·霍普金斯大學(xué)和中國人民大學(xué)的研究團(tuán)隊(duì)通過一項(xiàng)新研究指出,答案可能是否定的。
(來源:arXiv)
這篇發(fā)表于arXiv預(yù)印本平臺(tái)的論文《大型語言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),通過一系列實(shí)驗(yàn)論證,當(dāng)前主流的 LLM 雖然在處理語言任務(wù)上表現(xiàn)出色,但它們普遍缺乏一種對(duì)高級(jí)認(rèn)知至關(guān)重要的能力——工作記憶。
圖丨相關(guān)論文(來源:arXiv)
這項(xiàng)研究認(rèn)為,LLM 的許多行為,如產(chǎn)生矛盾信息或在復(fù)雜推理中失敗,其根本原因可能在于它們無法像人類一樣,在內(nèi)部主動(dòng)地、臨時(shí)地存儲(chǔ)和處理信息。
在認(rèn)知科學(xué)中,工作記憶是一個(gè)核心概念。它指的是一個(gè)容量有限的系統(tǒng),負(fù)責(zé)在執(zhí)行思考、推理、學(xué)習(xí)等復(fù)雜任務(wù)時(shí),臨時(shí)性地存儲(chǔ)并主動(dòng)處理相關(guān)信息。例如,在不使用紙筆進(jìn)行心算時(shí),大腦就需要依靠工作記憶來暫存中間計(jì)算結(jié)果。這是一個(gè)主動(dòng)、內(nèi)化的心理過程。
研究人員強(qiáng)調(diào),LLM 所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。上下文窗口允許模型在生成回應(yīng)時(shí),回顧之前的對(duì)話歷史。這更像是一種被動(dòng)的查閱,所有信息都以文本形式外在地、明確地存在。相比之下,人類的工作記憶是在沒有外部提示的情況下,于內(nèi)部對(duì)信息表征進(jìn)行操縱。當(dāng)前對(duì) LLM 能力的評(píng)估,很多時(shí)候混淆了這兩種機(jī)制。
為了準(zhǔn)確評(píng)估 LLM 是否具備內(nèi)化的工作記憶,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)實(shí)驗(yàn),其共同點(diǎn)在于,要求模型處理的信息并不直接存在于其可訪問的上下文(prompt)中。
第一個(gè)實(shí)驗(yàn)簡單而犀利。研究團(tuán)隊(duì)讓各種 LLM“在心中想一個(gè) 1 到 10 之間的數(shù)字”,然后分別詢問是否為每個(gè)特定數(shù)字。關(guān)鍵在于數(shù)學(xué)邏輯:如果模型真的選擇了一個(gè)數(shù)字并誠實(shí)回答,那么所有“是”回答的概率總和應(yīng)該接近 1。這是因?yàn)樵?200 次獨(dú)立測(cè)試中,如果模型每次都真的選擇一個(gè)數(shù)字,那么對(duì)所有可能數(shù)字的"是"回答頻率加起來應(yīng)該大致等于 100%。
結(jié)果發(fā)現(xiàn)。在測(cè)試的眾多模型中,大部分的概率總和接近于 0。例如,GPT-4o-Mini、GPT-4o 的多個(gè)版本以及 Qwen 系列模型,它們對(duì)所有數(shù)字的“是”回答概率加起來都是 0,這意味著它們幾乎從不給出肯定回答。即使是表現(xiàn)相對(duì)較好的模型,如 LLaMA-3.1-405B,其概率總和也達(dá)到了 1.195,超過了理論上限。
(來源:arXiv)
這種現(xiàn)象表明什么?要么這些模型根本沒有真正“想”任何數(shù)字,要么它們?cè)谀撤N程度上“撒謊”了。更可能的情況是,它們?nèi)狈S持內(nèi)部狀態(tài)的能力,無法在對(duì)話過程中保持一個(gè)一致的心理表征。
團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)模型確實(shí)給出“是”的回答時(shí),它們表現(xiàn)出對(duì)數(shù)字 7 的強(qiáng)烈偏好。這種現(xiàn)象在人類中也存在——心理學(xué)研究表明,當(dāng)被要求隨機(jī)選擇一個(gè)數(shù)字時(shí),人們往往傾向于選擇 7。但在 LLM 中,這種偏向可能并非來自真正的認(rèn)知過程,而是訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。
研究者還測(cè)試了不同數(shù)字范圍的影響。令人困惑的是,當(dāng)范圍較小(如 1-3 或 1-5)時(shí),某些模型反而表現(xiàn)出強(qiáng)烈的“是”傾向,概率總和遠(yuǎn)大于 1。而當(dāng)范圍較大(如 1-40)時(shí),模型又幾乎不給出任何“是”的回答。這種不一致的表現(xiàn)進(jìn)一步證實(shí)了 LLM 缺乏穩(wěn)定的內(nèi)部狀態(tài)管理能力。
第二個(gè)實(shí)驗(yàn)更加接近真實(shí)的認(rèn)知測(cè)試。研究者讓模型想象一個(gè)物體,然后問一系列比較性問題,比如“這個(gè)物體比大象重嗎?”、“它比貓輕嗎?”等等。如果模型真的在“想象”一個(gè)具體物體,它應(yīng)該能夠保持回答的一致性。
研究團(tuán)隊(duì)預(yù)先定義了 60 種不同的物體,按照體積、長度、重量、密度和硬度五個(gè)屬性進(jìn)行排序。然后持續(xù)向模型提出多達(dá) 250 個(gè)比較問題,記錄模型在第幾個(gè)問題時(shí)出現(xiàn)自相矛盾。
結(jié)果顯示,較小的模型(如 GPT-4o-Mini)幾乎總是出現(xiàn)自相矛盾,200 次試驗(yàn)全部失敗。即使是更大的模型 GPT-4o,也只有 27 次試驗(yàn)(13.5%)沒有出現(xiàn)矛盾。更重要的是,模型出現(xiàn)矛盾的時(shí)機(jī)呈現(xiàn)出一定的規(guī)律性:GPT-4o-Mini 通常在 20-30 個(gè)問題后開始自相矛盾,而 GPT-4o 能堅(jiān)持到 30-40 個(gè)問題。
圖丨兩個(gè)模型出現(xiàn)自相矛盾問題的數(shù)量的直方圖(來源:arXiv)
這種漸進(jìn)式的失敗模式揭示了一個(gè)關(guān)鍵問題:LLM 并非真正在“想象”一個(gè)物體,而是試圖通過檢查之前的回答來保持一致性。隨著問題數(shù)量的增加,維持一致性變得越來越困難,最終導(dǎo)致邏輯矛盾。研究者形象地描述道,模型可能會(huì)先說某個(gè)物體比汽車大,后來又說它比足球小。
第三個(gè)實(shí)驗(yàn)是最復(fù)雜的。研究者設(shè)計(jì)了一個(gè)基于著名的約瑟夫問題的“數(shù)學(xué)魔術(shù)”,要求模型在心中想象四個(gè)數(shù)字,然后執(zhí)行一系列復(fù)雜的操作:復(fù)制、旋轉(zhuǎn)、移除等等。由于數(shù)學(xué)約束,最終剩下的兩個(gè)數(shù)字理論上應(yīng)該相同。
這個(gè)任務(wù)需要模型在多個(gè)步驟中維持和操作內(nèi)部狀態(tài),是對(duì)工作記憶能力的終極測(cè)試。結(jié)果再次印證了研究者的假設(shè):大多數(shù)模型在這個(gè)任務(wù)上表現(xiàn)極差,準(zhǔn)確率通常只有 0-20%,僅略高于隨機(jī)猜測(cè)的基線(10%)。
圖丨模型在“數(shù)學(xué)魔術(shù)”上的表現(xiàn)(來源:arXiv)
即使是配備了高級(jí)推理能力的模型,如 OpenAI 的 o1 系列,也只能達(dá)到 16.7% 的準(zhǔn)確率。表現(xiàn)最好的是 DeepSeek-R1,達(dá)到了 39.3% 的準(zhǔn)確率,但這仍然遠(yuǎn)低于人類的表現(xiàn)水平。
有意思的是,研究者發(fā)現(xiàn)模型在這個(gè)任務(wù)中也表現(xiàn)出對(duì)數(shù)字 7 的偏好。在 DeepSeek-R1 的 59 次正確回答中,有 48 次(81.4%)涉及數(shù)字 7,這進(jìn)一步表明模型可能并不是真正理解任務(wù),而是依賴于訓(xùn)練中形成的數(shù)字偏好。
研究者還測(cè)試了當(dāng)前最流行的提升 AI 推理能力的方法——思維鏈(CoT,Chain-of-Thought)推理。這種方法要求模型逐步展示其思考過程,理論上應(yīng)該能幫助模型更好地管理復(fù)雜任務(wù)。
然而,實(shí)驗(yàn)結(jié)果顯示,即使使用 CoT 推理,模型在工作記憶相關(guān)任務(wù)上的表現(xiàn)也沒有顯著改善。在數(shù)學(xué)魔術(shù)實(shí)驗(yàn)中,使用 CoT 的 GPT-4o 準(zhǔn)確率從 4.7% 提升到 21.3%,雖有改善但仍然很低。這表明,簡單地要求模型“展示思考過程”并不能彌補(bǔ)其根本的認(rèn)知局限性。
盡管整體表現(xiàn)不佳,研究中還是發(fā)現(xiàn)了一些有趣的差異。Meta 的 LLaMA 系列模型在某些測(cè)試中表現(xiàn)相對(duì)較好,特別是在數(shù)字猜測(cè)游戲中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本,這表明模型大小并不總是決定性因素。
(來源:arXiv)
另一個(gè)令人意外的發(fā)現(xiàn)是,較新的模型版本并不一定比舊版本表現(xiàn)更好。在 GPT-4o 系列中,2024 年 8 月版本在數(shù)字猜測(cè)任務(wù)中表現(xiàn)最佳,超過了 11 月版本和最新的 GPT-4.1。這說明,在追求更強(qiáng)大的語言能力時(shí),可能無意中削弱了其他認(rèn)知功能。
綜合這三個(gè)實(shí)驗(yàn),該研究得出結(jié)論:當(dāng)前的大型語言模型作為一個(gè)類別,并不具備類人的工作記憶。它們?cè)谛枰獌?nèi)部表征和操縱瞬時(shí)信息的任務(wù)上,表現(xiàn)出系統(tǒng)性的失敗。它們的強(qiáng)大能力更多地體現(xiàn)在處理和生成基于顯式上下文的文本,而非進(jìn)行內(nèi)化的、主動(dòng)的思考。
而這一發(fā)現(xiàn)或許也為我們理解當(dāng)前 LLM 的一些能力局限提供了具體的證據(jù)。模型產(chǎn)生的邏輯矛盾、事實(shí)錯(cuò)誤等問題,可能并只是因?yàn)椤盎糜X”,而因?yàn)槠湔J(rèn)知架構(gòu)中缺少工作記憶這一核心組件的直接體現(xiàn)。因此,未來人工智能領(lǐng)域的發(fā)展,或許需要將研究重點(diǎn)從單純擴(kuò)大模型規(guī)模,轉(zhuǎn)向探索能夠整合有效工作記憶機(jī)制的新型模型架構(gòu)。
參考資料:
1.https://arxiv.org/pdf/2505.10571v1
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.