網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

原來AI真的“心里沒數(shù)”？研究表明GPT、DeepSeek等主流大模型缺乏類人工作記憶

2025-06-17 19:54:15　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

來源：DeepTech深科技

當(dāng)一個(gè)大型語(yǔ)言模型（LLM，Large Language Model）被要求“在心里想一個(gè)數(shù)字”并確認(rèn)完成后，它是否真的在內(nèi)部“記住了”這個(gè)數(shù)字？來自美國(guó)約翰斯·霍普金斯大學(xué)和中國(guó)人民大學(xué)的研究團(tuán)隊(duì)通過一項(xiàng)新研究指出，答案可能是否定的。

圖丨當(dāng) ChatGPT 說它已經(jīng)想好了一個(gè)數(shù)字，而且不是 4，我們?nèi)绾沃?ChatGPT 是否在說謊？（來源：arXiv）

這篇發(fā)表于 arXiv 預(yù)印本平臺(tái)的論文《大型語(yǔ)言模型不具備類人工作記憶》（LLMs Do Not Have Human-Like Working Memory），通過一系列實(shí)驗(yàn)論證，當(dāng)前主流的 LLM 雖然在處理語(yǔ)言任務(wù)上表現(xiàn)出色，但它們普遍缺乏一種對(duì)高級(jí)認(rèn)知至關(guān)重要的能力——工作記憶。

圖丨相關(guān)論文（來源：arXiv）

這項(xiàng)研究認(rèn)為，LLM 的許多行為，如產(chǎn)生矛盾信息或在復(fù)雜推理中失敗，其根本原因可能在于它們無法像人類一樣，在內(nèi)部主動(dòng)地、臨時(shí)地存儲(chǔ)和處理信息。

在認(rèn)知科學(xué)中，工作記憶是一個(gè)核心概念。它指的是一個(gè)容量有限的系統(tǒng)，負(fù)責(zé)在執(zhí)行思考、推理、學(xué)習(xí)等復(fù)雜任務(wù)時(shí)，臨時(shí)性地存儲(chǔ)并主動(dòng)處理相關(guān)信息。例如，在不使用紙筆進(jìn)行心算時(shí)，大腦就需要依靠工作記憶來暫存中間計(jì)算結(jié)果。這是一個(gè)主動(dòng)、內(nèi)化的心理過程。

研究人員強(qiáng)調(diào)，LLM 所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。上下文窗口允許模型在生成回應(yīng)時(shí)，回顧之前的對(duì)話歷史。這更像是一種被動(dòng)的查閱，所有信息都以文本形式外在地、明確地存在。相比之下，人類的工作記憶是在沒有外部提示的情況下，于內(nèi)部對(duì)信息表征進(jìn)行操縱。當(dāng)前對(duì) LLM 能力的評(píng)估，很多時(shí)候混淆了這兩種機(jī)制。

為了準(zhǔn)確評(píng)估 LLM 是否具備內(nèi)化的工作記憶，研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)實(shí)驗(yàn)，其共同點(diǎn)在于，要求模型處理的信息并不直接存在于其可訪問的上下文（prompt）中。

第一個(gè)實(shí)驗(yàn)簡(jiǎn)單而犀利。研究團(tuán)隊(duì)讓各種 LLM“在心中想一個(gè) 1 到 10 之間的數(shù)字”，然后分別詢問是否為每個(gè)特定數(shù)字。關(guān)鍵在于數(shù)學(xué)邏輯：如果模型真的選擇了一個(gè)數(shù)字并誠(chéng)實(shí)回答，那么所有“是”回答的概率總和應(yīng)該接近 1。這是因?yàn)樵?200 次獨(dú)立測(cè)試中，如果模型每次都真的選擇一個(gè)數(shù)字，那么對(duì)所有可能數(shù)字的"是"回答頻率加起來應(yīng)該大致等于 100%。

結(jié)果發(fā)現(xiàn)。在測(cè)試的眾多模型中，大部分的概率總和接近于 0。例如，GPT-4o-Mini、GPT-4o 的多個(gè)版本以及 Qwen 系列模型，它們對(duì)所有數(shù)字的“是”回答概率加起來都是 0，這意味著它們幾乎從不給出肯定回答。即使是表現(xiàn)相對(duì)較好的模型，如 LLaMA-3.1-405B，其概率總和也達(dá)到了 1.195，超過了理論上限。

圖丨每個(gè)模型對(duì)從 1 到 10 的所有數(shù)字回答“是”的概率之和。顏色強(qiáng)度反映與 1 的接近程度：紅色表示更接近零的值，而藍(lán)色表示大于 1 的值（來源：arXiv）

這種現(xiàn)象表明什么？要么這些模型根本沒有真正“想”任何數(shù)字，要么它們?cè)谀撤N程度上“撒謊”了。更可能的情況是，它們?nèi)狈S持內(nèi)部狀態(tài)的能力，無法在對(duì)話過程中保持一個(gè)一致的心理表征。

團(tuán)隊(duì)還發(fā)現(xiàn)，當(dāng)模型確實(shí)給出“是”的回答時(shí)，它們表現(xiàn)出對(duì)數(shù)字 7 的強(qiáng)烈偏好。這種現(xiàn)象在人類中也存在——心理學(xué)研究表明，當(dāng)被要求隨機(jī)選擇一個(gè)數(shù)字時(shí)，人們往往傾向于選擇 7。但在 LLM 中，這種偏向可能并非來自真正的認(rèn)知過程，而是訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。

研究者還測(cè)試了不同數(shù)字范圍的影響。令人困惑的是，當(dāng)范圍較?。ㄈ?1-3 或 1-5）時(shí)，某些模型反而表現(xiàn)出強(qiáng)烈的“是”傾向，概率總和遠(yuǎn)大于 1。而當(dāng)范圍較大（如 1-40）時(shí)，模型又幾乎不給出任何“是”的回答。這種不一致的表現(xiàn)進(jìn)一步證實(shí)了 LLM 缺乏穩(wěn)定的內(nèi)部狀態(tài)管理能力。

第二個(gè)實(shí)驗(yàn)更加接近真實(shí)的認(rèn)知測(cè)試。研究者讓模型想象一個(gè)物體，然后問一系列比較性問題，比如“這個(gè)物體比大象重嗎？”、“它比貓輕嗎？”等等。如果模型真的在“想象”一個(gè)具體物體，它應(yīng)該能夠保持回答的一致性。

研究團(tuán)隊(duì)預(yù)先定義了 60 種不同的物體，按照體積、長(zhǎng)度、重量、密度和硬度五個(gè)屬性進(jìn)行排序。然后持續(xù)向模型提出多達(dá) 250 個(gè)比較問題，記錄模型在第幾個(gè)問題時(shí)出現(xiàn)自相矛盾。

結(jié)果顯示，較小的模型（如 GPT-4o-Mini）幾乎總是出現(xiàn)自相矛盾，200 次試驗(yàn)全部失敗。即使是更大的模型 GPT-4o，也只有 27 次試驗(yàn)（13.5%）沒有出現(xiàn)矛盾。更重要的是，模型出現(xiàn)矛盾的時(shí)機(jī)呈現(xiàn)出一定的規(guī)律性：GPT-4o-Mini 通常在 20-30 個(gè)問題后開始自相矛盾，而 GPT-4o 能堅(jiān)持到 30-40 個(gè)問題。

圖丨兩個(gè)模型出現(xiàn)自相矛盾問題的數(shù)量的直方圖（來源：arXiv）

這種漸進(jìn)式的失敗模式揭示了一個(gè)關(guān)鍵問題：LLM 并非真正在“想象”一個(gè)物體，而是試圖通過檢查之前的回答來保持一致性。隨著問題數(shù)量的增加，維持一致性變得越來越困難，最終導(dǎo)致邏輯矛盾。研究者形象地描述道，模型可能會(huì)先說某個(gè)物體比汽車大，后來又說它比足球小。

第三個(gè)實(shí)驗(yàn)是最復(fù)雜的。研究者設(shè)計(jì)了一個(gè)基于著名的約瑟夫問題的“數(shù)學(xué)魔術(shù)”，要求模型在心中想象四個(gè)數(shù)字，然后執(zhí)行一系列復(fù)雜的操作：復(fù)制、旋轉(zhuǎn)、移除等等。由于數(shù)學(xué)約束，最終剩下的兩個(gè)數(shù)字理論上應(yīng)該相同。

這個(gè)任務(wù)需要模型在多個(gè)步驟中維持和操作內(nèi)部狀態(tài)，是對(duì)工作記憶能力的終極測(cè)試。結(jié)果再次印證了研究者的假設(shè)：大多數(shù)模型在這個(gè)任務(wù)上表現(xiàn)極差，準(zhǔn)確率通常只有 0-20%，僅略高于隨機(jī)猜測(cè)的基線（10%）。

圖丨模型在“數(shù)學(xué)魔術(shù)”上的表現(xiàn)（來源：arXiv）

即使是配備了高級(jí)推理能力的模型，如 OpenAI 的 o1 系列，也只能達(dá)到 16.7% 的準(zhǔn)確率。表現(xiàn)最好的是 DeepSeek-R1，達(dá)到了 39.3% 的準(zhǔn)確率，但這仍然遠(yuǎn)低于人類的表現(xiàn)水平。

有意思的是，研究者發(fā)現(xiàn)模型在這個(gè)任務(wù)中也表現(xiàn)出對(duì)數(shù)字 7 的偏好。在 DeepSeek-R1 的 59 次正確回答中，有 48 次（81.4%）涉及數(shù)字 7，這進(jìn)一步表明模型可能并不是真正理解任務(wù)，而是依賴于訓(xùn)練中形成的數(shù)字偏好。

研究者還測(cè)試了當(dāng)前最流行的提升 AI 推理能力的方法——思維鏈（CoT，Chain-of-Thought）推理。這種方法要求模型逐步展示其思考過程，理論上應(yīng)該能幫助模型更好地管理復(fù)雜任務(wù)。

然而，實(shí)驗(yàn)結(jié)果顯示，即使使用 CoT 推理，模型在工作記憶相關(guān)任務(wù)上的表現(xiàn)也沒有顯著改善。在數(shù)學(xué)魔術(shù)實(shí)驗(yàn)中，使用 CoT 的 GPT-4o 準(zhǔn)確率從 4.7% 提升到 21.3%，雖有改善但仍然很低。這表明，簡(jiǎn)單地要求模型“展示思考過程”并不能彌補(bǔ)其根本的認(rèn)知局限性。

盡管整體表現(xiàn)不佳，研究中還是發(fā)現(xiàn)了一些有趣的差異。Meta 的 LLaMA 系列模型在某些測(cè)試中表現(xiàn)相對(duì)較好，特別是在數(shù)字猜測(cè)游戲中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本，這表明模型大小并不總是決定性因素。

圖丨LLMs 在“數(shù)學(xué)魔術(shù)”上使用 CoT 或 LRM 的表現(xiàn)（來源：arXiv）

另一個(gè)令人意外的發(fā)現(xiàn)是，較新的模型版本并不一定比舊版本表現(xiàn)更好。在 GPT-4o 系列中，2024 年 8 月版本在數(shù)字猜測(cè)任務(wù)中表現(xiàn)最佳，超過了 11 月版本和最新的 GPT-4.1。這說明，在追求更強(qiáng)大的語(yǔ)言能力時(shí)，可能無意中削弱了其他認(rèn)知功能。

綜合這三個(gè)實(shí)驗(yàn)，該研究得出結(jié)論：當(dāng)前的大型語(yǔ)言模型作為一個(gè)類別，并不具備類人的工作記憶。它們?cè)谛枰獌?nèi)部表征和操縱瞬時(shí)信息的任務(wù)上，表現(xiàn)出系統(tǒng)性的失敗。它們的強(qiáng)大能力更多地體現(xiàn)在處理和生成基于顯式上下文的文本，而非進(jìn)行內(nèi)化的、主動(dòng)的思考。

而這一發(fā)現(xiàn)或許也為我們理解當(dāng)前 LLM 的一些能力局限提供了具體的證據(jù)。模型產(chǎn)生的邏輯矛盾、事實(shí)錯(cuò)誤等問題，可能并只是因?yàn)椤盎糜X”，而因?yàn)槠湔J(rèn)知架構(gòu)中缺少工作記憶這一核心組件的直接體現(xiàn)。因此，未來人工智能領(lǐng)域的發(fā)展，或許需要將研究重點(diǎn)從單純擴(kuò)大模型規(guī)模，轉(zhuǎn)向探索能夠整合有效工作記憶機(jī)制的新型模型架構(gòu)。

參考資料：

1.https://arxiv.org/pdf/2505.10571v1

閱讀最新前沿科技趨勢(shì)報(bào)告，請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828

未來知識(shí)庫(kù)是“ 歐米伽未來研究所”建立的在線知識(shí)庫(kù)平臺(tái)，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到3月31日 ”未來知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

（加入未來知識(shí)庫(kù)，全部資料免費(fèi)閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.