99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

原來AI真的心里沒數(shù)?研究表明GPT等主流大模型缺乏類人工作記憶

0
分享至

當(dāng)一個(gè)大型語言模型(LLM,Large Language Model)被要求“在心里想一個(gè)數(shù)字”并確認(rèn)完成后,它是否真的在內(nèi)部“記住了”這個(gè)數(shù)字?來自美國約翰斯·霍普金斯大學(xué)和中國人民大學(xué)的研究團(tuán)隊(duì)通過一項(xiàng)新研究指出,答案可能是否定的。


(來源:arXiv)

這篇發(fā)表于arXiv預(yù)印本平臺(tái)的論文《大型語言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),通過一系列實(shí)驗(yàn)論證,當(dāng)前主流的 LLM 雖然在處理語言任務(wù)上表現(xiàn)出色,但它們普遍缺乏一種對(duì)高級(jí)認(rèn)知至關(guān)重要的能力——工作記憶。


圖丨相關(guān)論文(來源:arXiv)

這項(xiàng)研究認(rèn)為,LLM 的許多行為,如產(chǎn)生矛盾信息或在復(fù)雜推理中失敗,其根本原因可能在于它們無法像人類一樣,在內(nèi)部主動(dòng)地、臨時(shí)地存儲(chǔ)和處理信息。

在認(rèn)知科學(xué)中,工作記憶是一個(gè)核心概念。它指的是一個(gè)容量有限的系統(tǒng),負(fù)責(zé)在執(zhí)行思考、推理、學(xué)習(xí)等復(fù)雜任務(wù)時(shí),臨時(shí)性地存儲(chǔ)并主動(dòng)處理相關(guān)信息。例如,在不使用紙筆進(jìn)行心算時(shí),大腦就需要依靠工作記憶來暫存中間計(jì)算結(jié)果。這是一個(gè)主動(dòng)、內(nèi)化的心理過程。

研究人員強(qiáng)調(diào),LLM 所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。上下文窗口允許模型在生成回應(yīng)時(shí),回顧之前的對(duì)話歷史。這更像是一種被動(dòng)的查閱,所有信息都以文本形式外在地、明確地存在。相比之下,人類的工作記憶是在沒有外部提示的情況下,于內(nèi)部對(duì)信息表征進(jìn)行操縱。當(dāng)前對(duì) LLM 能力的評(píng)估,很多時(shí)候混淆了這兩種機(jī)制。

為了準(zhǔn)確評(píng)估 LLM 是否具備內(nèi)化的工作記憶,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)實(shí)驗(yàn),其共同點(diǎn)在于,要求模型處理的信息并不直接存在于其可訪問的上下文(prompt)中。

第一個(gè)實(shí)驗(yàn)簡單而犀利。研究團(tuán)隊(duì)讓各種 LLM“在心中想一個(gè) 1 到 10 之間的數(shù)字”,然后分別詢問是否為每個(gè)特定數(shù)字。關(guān)鍵在于數(shù)學(xué)邏輯:如果模型真的選擇了一個(gè)數(shù)字并誠實(shí)回答,那么所有“是”回答的概率總和應(yīng)該接近 1。這是因?yàn)樵?200 次獨(dú)立測(cè)試中,如果模型每次都真的選擇一個(gè)數(shù)字,那么對(duì)所有可能數(shù)字的"是"回答頻率加起來應(yīng)該大致等于 100%。

結(jié)果發(fā)現(xiàn)。在測(cè)試的眾多模型中,大部分的概率總和接近于 0。例如,GPT-4o-Mini、GPT-4o 的多個(gè)版本以及 Qwen 系列模型,它們對(duì)所有數(shù)字的“是”回答概率加起來都是 0,這意味著它們幾乎從不給出肯定回答。即使是表現(xiàn)相對(duì)較好的模型,如 LLaMA-3.1-405B,其概率總和也達(dá)到了 1.195,超過了理論上限。


(來源:arXiv)

這種現(xiàn)象表明什么?要么這些模型根本沒有真正“想”任何數(shù)字,要么它們?cè)谀撤N程度上“撒謊”了。更可能的情況是,它們?nèi)狈S持內(nèi)部狀態(tài)的能力,無法在對(duì)話過程中保持一個(gè)一致的心理表征。

團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)模型確實(shí)給出“是”的回答時(shí),它們表現(xiàn)出對(duì)數(shù)字 7 的強(qiáng)烈偏好。這種現(xiàn)象在人類中也存在——心理學(xué)研究表明,當(dāng)被要求隨機(jī)選擇一個(gè)數(shù)字時(shí),人們往往傾向于選擇 7。但在 LLM 中,這種偏向可能并非來自真正的認(rèn)知過程,而是訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。

研究者還測(cè)試了不同數(shù)字范圍的影響。令人困惑的是,當(dāng)范圍較小(如 1-3 或 1-5)時(shí),某些模型反而表現(xiàn)出強(qiáng)烈的“是”傾向,概率總和遠(yuǎn)大于 1。而當(dāng)范圍較大(如 1-40)時(shí),模型又幾乎不給出任何“是”的回答。這種不一致的表現(xiàn)進(jìn)一步證實(shí)了 LLM 缺乏穩(wěn)定的內(nèi)部狀態(tài)管理能力。

第二個(gè)實(shí)驗(yàn)更加接近真實(shí)的認(rèn)知測(cè)試。研究者讓模型想象一個(gè)物體,然后問一系列比較性問題,比如“這個(gè)物體比大象重嗎?”、“它比貓輕嗎?”等等。如果模型真的在“想象”一個(gè)具體物體,它應(yīng)該能夠保持回答的一致性。

研究團(tuán)隊(duì)預(yù)先定義了 60 種不同的物體,按照體積、長度、重量、密度和硬度五個(gè)屬性進(jìn)行排序。然后持續(xù)向模型提出多達(dá) 250 個(gè)比較問題,記錄模型在第幾個(gè)問題時(shí)出現(xiàn)自相矛盾。

結(jié)果顯示,較小的模型(如 GPT-4o-Mini)幾乎總是出現(xiàn)自相矛盾,200 次試驗(yàn)全部失敗。即使是更大的模型 GPT-4o,也只有 27 次試驗(yàn)(13.5%)沒有出現(xiàn)矛盾。更重要的是,模型出現(xiàn)矛盾的時(shí)機(jī)呈現(xiàn)出一定的規(guī)律性:GPT-4o-Mini 通常在 20-30 個(gè)問題后開始自相矛盾,而 GPT-4o 能堅(jiān)持到 30-40 個(gè)問題。


圖丨兩個(gè)模型出現(xiàn)自相矛盾問題的數(shù)量的直方圖(來源:arXiv)

這種漸進(jìn)式的失敗模式揭示了一個(gè)關(guān)鍵問題:LLM 并非真正在“想象”一個(gè)物體,而是試圖通過檢查之前的回答來保持一致性。隨著問題數(shù)量的增加,維持一致性變得越來越困難,最終導(dǎo)致邏輯矛盾。研究者形象地描述道,模型可能會(huì)先說某個(gè)物體比汽車大,后來又說它比足球小。

第三個(gè)實(shí)驗(yàn)是最復(fù)雜的。研究者設(shè)計(jì)了一個(gè)基于著名的約瑟夫問題的“數(shù)學(xué)魔術(shù)”,要求模型在心中想象四個(gè)數(shù)字,然后執(zhí)行一系列復(fù)雜的操作:復(fù)制、旋轉(zhuǎn)、移除等等。由于數(shù)學(xué)約束,最終剩下的兩個(gè)數(shù)字理論上應(yīng)該相同。

這個(gè)任務(wù)需要模型在多個(gè)步驟中維持和操作內(nèi)部狀態(tài),是對(duì)工作記憶能力的終極測(cè)試。結(jié)果再次印證了研究者的假設(shè):大多數(shù)模型在這個(gè)任務(wù)上表現(xiàn)極差,準(zhǔn)確率通常只有 0-20%,僅略高于隨機(jī)猜測(cè)的基線(10%)。


圖丨模型在“數(shù)學(xué)魔術(shù)”上的表現(xiàn)(來源:arXiv)

即使是配備了高級(jí)推理能力的模型,如 OpenAI 的 o1 系列,也只能達(dá)到 16.7% 的準(zhǔn)確率。表現(xiàn)最好的是 DeepSeek-R1,達(dá)到了 39.3% 的準(zhǔn)確率,但這仍然遠(yuǎn)低于人類的表現(xiàn)水平。

有意思的是,研究者發(fā)現(xiàn)模型在這個(gè)任務(wù)中也表現(xiàn)出對(duì)數(shù)字 7 的偏好。在 DeepSeek-R1 的 59 次正確回答中,有 48 次(81.4%)涉及數(shù)字 7,這進(jìn)一步表明模型可能并不是真正理解任務(wù),而是依賴于訓(xùn)練中形成的數(shù)字偏好。

研究者還測(cè)試了當(dāng)前最流行的提升 AI 推理能力的方法——思維鏈(CoT,Chain-of-Thought)推理。這種方法要求模型逐步展示其思考過程,理論上應(yīng)該能幫助模型更好地管理復(fù)雜任務(wù)。

然而,實(shí)驗(yàn)結(jié)果顯示,即使使用 CoT 推理,模型在工作記憶相關(guān)任務(wù)上的表現(xiàn)也沒有顯著改善。在數(shù)學(xué)魔術(shù)實(shí)驗(yàn)中,使用 CoT 的 GPT-4o 準(zhǔn)確率從 4.7% 提升到 21.3%,雖有改善但仍然很低。這表明,簡單地要求模型“展示思考過程”并不能彌補(bǔ)其根本的認(rèn)知局限性。

盡管整體表現(xiàn)不佳,研究中還是發(fā)現(xiàn)了一些有趣的差異。Meta 的 LLaMA 系列模型在某些測(cè)試中表現(xiàn)相對(duì)較好,特別是在數(shù)字猜測(cè)游戲中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本,這表明模型大小并不總是決定性因素。


(來源:arXiv)

另一個(gè)令人意外的發(fā)現(xiàn)是,較新的模型版本并不一定比舊版本表現(xiàn)更好。在 GPT-4o 系列中,2024 年 8 月版本在數(shù)字猜測(cè)任務(wù)中表現(xiàn)最佳,超過了 11 月版本和最新的 GPT-4.1。這說明,在追求更強(qiáng)大的語言能力時(shí),可能無意中削弱了其他認(rèn)知功能。

綜合這三個(gè)實(shí)驗(yàn),該研究得出結(jié)論:當(dāng)前的大型語言模型作為一個(gè)類別,并不具備類人的工作記憶。它們?cè)谛枰獌?nèi)部表征和操縱瞬時(shí)信息的任務(wù)上,表現(xiàn)出系統(tǒng)性的失敗。它們的強(qiáng)大能力更多地體現(xiàn)在處理和生成基于顯式上下文的文本,而非進(jìn)行內(nèi)化的、主動(dòng)的思考。

而這一發(fā)現(xiàn)或許也為我們理解當(dāng)前 LLM 的一些能力局限提供了具體的證據(jù)。模型產(chǎn)生的邏輯矛盾、事實(shí)錯(cuò)誤等問題,可能并只是因?yàn)椤盎糜X”,而因?yàn)槠湔J(rèn)知架構(gòu)中缺少工作記憶這一核心組件的直接體現(xiàn)。因此,未來人工智能領(lǐng)域的發(fā)展,或許需要將研究重點(diǎn)從單純擴(kuò)大模型規(guī)模,轉(zhuǎn)向探索能夠整合有效工作記憶機(jī)制的新型模型架構(gòu)。

參考資料:

1.https://arxiv.org/pdf/2505.10571v1

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
路虎男撞人持斧追砍后續(xù):動(dòng)作嫻熟,當(dāng)?shù)厝似亓希矸荼话遣缓唵?>
    </a>
        <h3>
      <a href=北緯的咖啡豆
2025-06-18 09:00:12
印度間諜落網(wǎng),莫迪慌了!

印度間諜落網(wǎng),莫迪慌了!

低調(diào)看天下
2025-06-16 17:35:58
乒乓球運(yùn)動(dòng)員周愷辟謠加盟德乙聯(lián)賽,已加盟埃及聯(lián)賽

乒乓球運(yùn)動(dòng)員周愷辟謠加盟德乙聯(lián)賽,已加盟埃及聯(lián)賽

懂球帝
2025-06-17 23:46:12
國航一航班被曝安全員攜帶打火機(jī)乘機(jī),乘客:從兜里掉出來了

國航一航班被曝安全員攜帶打火機(jī)乘機(jī),乘客:從兜里掉出來了

極目新聞
2025-06-17 23:51:05
特朗普像變了個(gè)人,拼命挽留中國留學(xué)生,原來是害怕中國一件事

特朗普像變了個(gè)人,拼命挽留中國留學(xué)生,原來是害怕中國一件事

劍哥的思政課
2025-06-17 13:02:44
太意外!遼寧通知35歲弗格不再續(xù)約 曾率隊(duì)3連冠+奪FMVP

太意外!遼寧通知35歲弗格不再續(xù)約 曾率隊(duì)3連冠+奪FMVP

醉臥浮生
2025-06-17 20:28:12
實(shí)錘!貴陽婦幼保健院使用劣質(zhì)藥品,違規(guī)收費(fèi)110余萬

實(shí)錘!貴陽婦幼保健院使用劣質(zhì)藥品,違規(guī)收費(fèi)110余萬

追月數(shù)星的朋友圈
2025-06-17 19:58:17
72小時(shí)變1000天!俄烏沖突意外走向,讓中國迎來千年機(jī)遇

72小時(shí)變1000天!俄烏沖突意外走向,讓中國迎來千年機(jī)遇

起喜電影
2025-06-18 08:27:37
某局大崩潰:管理人員都發(fā)不出工資了!

某局大崩潰:管理人員都發(fā)不出工資了!

黯泉
2025-06-11 22:00:11
以軍發(fā)動(dòng)新一輪空襲,85歲的哈梅內(nèi)伊一旦遇害,伊朗將啟動(dòng)B計(jì)劃

以軍發(fā)動(dòng)新一輪空襲,85歲的哈梅內(nèi)伊一旦遇害,伊朗將啟動(dòng)B計(jì)劃

阿傖說事
2025-06-18 08:53:31
C羅解釋與14歲兒子身高差:我身高1米87,迷你羅身高1米85

C羅解釋與14歲兒子身高差:我身高1米87,迷你羅身高1米85

直播吧
2025-06-16 15:36:28
“為什么我換了新加坡護(hù)照,還收到中國稅務(wù)的短信?”

“為什么我換了新加坡護(hù)照,還收到中國稅務(wù)的短信?”

新加坡椰子
2025-06-17 17:41:03
短劇“一胎生99個(gè)兒子”引爭議,男主回應(yīng):沒看劇本就接了,不好意思癲到大家了

短劇“一胎生99個(gè)兒子”引爭議,男主回應(yīng):沒看劇本就接了,不好意思癲到大家了

封面新聞
2025-06-16 13:08:06
妻子出軌縣長,我轉(zhuǎn)身離開,十年后我成了她情人的上級(jí)

妻子出軌縣長,我轉(zhuǎn)身離開,十年后我成了她情人的上級(jí)

霧島夜話
2025-05-18 06:20:02
阿斯:阿諾德的身體素質(zhì)就像一頭野獸,他的表現(xiàn)遠(yuǎn)超預(yù)期

阿斯:阿諾德的身體素質(zhì)就像一頭野獸,他的表現(xiàn)遠(yuǎn)超預(yù)期

懂球帝
2025-06-17 15:59:11
大眾徹底不裝了!大7座MPV威然直降10萬

大眾徹底不裝了!大7座MPV威然直降10萬

大象新聞
2025-06-17 16:18:08
在廣東待久了會(huì)變丑?

在廣東待久了會(huì)變丑?

大忘路
2025-06-17 09:00:37
珠江新城地鐵客流降了,廣州核心區(qū)人口減少,釋放出什么信號(hào)?

珠江新城地鐵客流降了,廣州核心區(qū)人口減少,釋放出什么信號(hào)?

戶外釣魚哥阿勇
2025-06-18 06:08:55
特朗普:美國將暫緩對(duì)俄羅斯實(shí)施制裁 烏克蘭基輔持續(xù)傳出爆炸聲,多地遭到襲擊

特朗普:美國將暫緩對(duì)俄羅斯實(shí)施制裁 烏克蘭基輔持續(xù)傳出爆炸聲,多地遭到襲擊

每日經(jīng)濟(jì)新聞
2025-06-17 11:16:06
2800萬抑郁青少年,傳遞出一個(gè)令人窒息的信號(hào)

2800萬抑郁青少年,傳遞出一個(gè)令人窒息的信號(hào)

冰川思想庫
2025-06-17 12:11:05
2025-06-18 09:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15306文章數(shù) 513788關(guān)注度
往期回顧 全部

科技要聞

別叫我互聯(lián)網(wǎng)公司,京東的野心藏不住了

頭條要聞

NBA球星文班亞馬在少林寺閉關(guān)10天 被授予"少林一段"

頭條要聞

NBA球星文班亞馬在少林寺閉關(guān)10天 被授予"少林一段"

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競(jìng)?朱丹行為引爭議

財(cái)經(jīng)要聞

"高端國貨"林清軒IPO:虛假宣傳成"慣犯"

汽車要聞

高級(jí)感拉滿 極氪9X全新配色“極晝白”亮相

態(tài)度原創(chuàng)

健康
本地
親子
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學(xué)習(xí)職場(chǎng)小技巧

親子要聞

幼兒園一年關(guān)停2萬所!連鎖反應(yīng),來了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普呼吁伊朗無條件投降

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 交城县| 新绛县| 唐海县| 民县| 洞口县| 鲁甸县| 宁晋县| 平武县| 达日县| 芦山县| 开江县| 博乐市| 巨野县| 靖江市| 金堂县| 仪征市| 杭锦旗| 汝南县| 元谋县| 乐至县| 罗江县| 中宁县| 漳州市| 蓬溪县| 吉木乃县| 眉山市| 洛阳市| 肥西县| 沧州市| 锦州市| 磐石市| 扶绥县| 米脂县| 西宁市| 读书| 新民市| 石门县| 响水县| 洮南市| 新绛县| 峨山|