99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

原來AI真的“心里沒數(shù)”?研究表明GPT、DeepSeek等主流大模型缺乏類人工作記憶

0
分享至


來源:DeepTech深科技

當(dāng)一個(gè)大型語(yǔ)言模型(LLM,Large Language Model)被要求“在心里想一個(gè)數(shù)字”并確認(rèn)完成后,它是否真的在內(nèi)部“記住了”這個(gè)數(shù)字?來自美國(guó)約翰斯·霍普金斯大學(xué)和中國(guó)人民大學(xué)的研究團(tuán)隊(duì)通過一項(xiàng)新研究指出,答案可能是否定的。


圖丨當(dāng) ChatGPT 說它已經(jīng)想好了一個(gè)數(shù)字,而且不是 4,我們?nèi)绾沃?ChatGPT 是否在說謊?(來源:arXiv)

這篇發(fā)表于 arXiv 預(yù)印本平臺(tái)的論文《大型語(yǔ)言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),通過一系列實(shí)驗(yàn)論證,當(dāng)前主流的 LLM 雖然在處理語(yǔ)言任務(wù)上表現(xiàn)出色,但它們普遍缺乏一種對(duì)高級(jí)認(rèn)知至關(guān)重要的能力——工作記憶。


圖丨相關(guān)論文(來源:arXiv)

這項(xiàng)研究認(rèn)為,LLM 的許多行為,如產(chǎn)生矛盾信息或在復(fù)雜推理中失敗,其根本原因可能在于它們無法像人類一樣,在內(nèi)部主動(dòng)地、臨時(shí)地存儲(chǔ)和處理信息。

在認(rèn)知科學(xué)中,工作記憶是一個(gè)核心概念。它指的是一個(gè)容量有限的系統(tǒng),負(fù)責(zé)在執(zhí)行思考、推理、學(xué)習(xí)等復(fù)雜任務(wù)時(shí),臨時(shí)性地存儲(chǔ)并主動(dòng)處理相關(guān)信息。例如,在不使用紙筆進(jìn)行心算時(shí),大腦就需要依靠工作記憶來暫存中間計(jì)算結(jié)果。這是一個(gè)主動(dòng)、內(nèi)化的心理過程。

研究人員強(qiáng)調(diào),LLM 所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。上下文窗口允許模型在生成回應(yīng)時(shí),回顧之前的對(duì)話歷史。這更像是一種被動(dòng)的查閱,所有信息都以文本形式外在地、明確地存在。相比之下,人類的工作記憶是在沒有外部提示的情況下,于內(nèi)部對(duì)信息表征進(jìn)行操縱。當(dāng)前對(duì) LLM 能力的評(píng)估,很多時(shí)候混淆了這兩種機(jī)制。

為了準(zhǔn)確評(píng)估 LLM 是否具備內(nèi)化的工作記憶,研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)實(shí)驗(yàn),其共同點(diǎn)在于,要求模型處理的信息并不直接存在于其可訪問的上下文(prompt)中。

第一個(gè)實(shí)驗(yàn)簡(jiǎn)單而犀利。研究團(tuán)隊(duì)讓各種 LLM“在心中想一個(gè) 1 到 10 之間的數(shù)字”,然后分別詢問是否為每個(gè)特定數(shù)字。關(guān)鍵在于數(shù)學(xué)邏輯:如果模型真的選擇了一個(gè)數(shù)字并誠(chéng)實(shí)回答,那么所有“是”回答的概率總和應(yīng)該接近 1。這是因?yàn)樵?200 次獨(dú)立測(cè)試中,如果模型每次都真的選擇一個(gè)數(shù)字,那么對(duì)所有可能數(shù)字的"是"回答頻率加起來應(yīng)該大致等于 100%。

結(jié)果發(fā)現(xiàn)。在測(cè)試的眾多模型中,大部分的概率總和接近于 0。例如,GPT-4o-Mini、GPT-4o 的多個(gè)版本以及 Qwen 系列模型,它們對(duì)所有數(shù)字的“是”回答概率加起來都是 0,這意味著它們幾乎從不給出肯定回答。即使是表現(xiàn)相對(duì)較好的模型,如 LLaMA-3.1-405B,其概率總和也達(dá)到了 1.195,超過了理論上限。


圖丨每個(gè)模型對(duì)從 1 到 10 的所有數(shù)字回答“是”的概率之和。顏色強(qiáng)度反映與 1 的接近程度:紅色表示更接近零的值,而藍(lán)色表示大于 1 的值(來源:arXiv)

這種現(xiàn)象表明什么?要么這些模型根本沒有真正“想”任何數(shù)字,要么它們?cè)谀撤N程度上“撒謊”了。更可能的情況是,它們?nèi)狈S持內(nèi)部狀態(tài)的能力,無法在對(duì)話過程中保持一個(gè)一致的心理表征。

團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)模型確實(shí)給出“是”的回答時(shí),它們表現(xiàn)出對(duì)數(shù)字 7 的強(qiáng)烈偏好。這種現(xiàn)象在人類中也存在——心理學(xué)研究表明,當(dāng)被要求隨機(jī)選擇一個(gè)數(shù)字時(shí),人們往往傾向于選擇 7。但在 LLM 中,這種偏向可能并非來自真正的認(rèn)知過程,而是訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律。

研究者還測(cè)試了不同數(shù)字范圍的影響。令人困惑的是,當(dāng)范圍較?。ㄈ?1-3 或 1-5)時(shí),某些模型反而表現(xiàn)出強(qiáng)烈的“是”傾向,概率總和遠(yuǎn)大于 1。而當(dāng)范圍較大(如 1-40)時(shí),模型又幾乎不給出任何“是”的回答。這種不一致的表現(xiàn)進(jìn)一步證實(shí)了 LLM 缺乏穩(wěn)定的內(nèi)部狀態(tài)管理能力。

第二個(gè)實(shí)驗(yàn)更加接近真實(shí)的認(rèn)知測(cè)試。研究者讓模型想象一個(gè)物體,然后問一系列比較性問題,比如“這個(gè)物體比大象重嗎?”、“它比貓輕嗎?”等等。如果模型真的在“想象”一個(gè)具體物體,它應(yīng)該能夠保持回答的一致性。

研究團(tuán)隊(duì)預(yù)先定義了 60 種不同的物體,按照體積、長(zhǎng)度、重量、密度和硬度五個(gè)屬性進(jìn)行排序。然后持續(xù)向模型提出多達(dá) 250 個(gè)比較問題,記錄模型在第幾個(gè)問題時(shí)出現(xiàn)自相矛盾。

結(jié)果顯示,較小的模型(如 GPT-4o-Mini)幾乎總是出現(xiàn)自相矛盾,200 次試驗(yàn)全部失敗。即使是更大的模型 GPT-4o,也只有 27 次試驗(yàn)(13.5%)沒有出現(xiàn)矛盾。更重要的是,模型出現(xiàn)矛盾的時(shí)機(jī)呈現(xiàn)出一定的規(guī)律性:GPT-4o-Mini 通常在 20-30 個(gè)問題后開始自相矛盾,而 GPT-4o 能堅(jiān)持到 30-40 個(gè)問題。


圖丨兩個(gè)模型出現(xiàn)自相矛盾問題的數(shù)量的直方圖(來源:arXiv)

這種漸進(jìn)式的失敗模式揭示了一個(gè)關(guān)鍵問題:LLM 并非真正在“想象”一個(gè)物體,而是試圖通過檢查之前的回答來保持一致性。隨著問題數(shù)量的增加,維持一致性變得越來越困難,最終導(dǎo)致邏輯矛盾。研究者形象地描述道,模型可能會(huì)先說某個(gè)物體比汽車大,后來又說它比足球小。

第三個(gè)實(shí)驗(yàn)是最復(fù)雜的。研究者設(shè)計(jì)了一個(gè)基于著名的約瑟夫問題的“數(shù)學(xué)魔術(shù)”,要求模型在心中想象四個(gè)數(shù)字,然后執(zhí)行一系列復(fù)雜的操作:復(fù)制、旋轉(zhuǎn)、移除等等。由于數(shù)學(xué)約束,最終剩下的兩個(gè)數(shù)字理論上應(yīng)該相同。

這個(gè)任務(wù)需要模型在多個(gè)步驟中維持和操作內(nèi)部狀態(tài),是對(duì)工作記憶能力的終極測(cè)試。結(jié)果再次印證了研究者的假設(shè):大多數(shù)模型在這個(gè)任務(wù)上表現(xiàn)極差,準(zhǔn)確率通常只有 0-20%,僅略高于隨機(jī)猜測(cè)的基線(10%)。


圖丨模型在“數(shù)學(xué)魔術(shù)”上的表現(xiàn)(來源:arXiv)

即使是配備了高級(jí)推理能力的模型,如 OpenAI 的 o1 系列,也只能達(dá)到 16.7% 的準(zhǔn)確率。表現(xiàn)最好的是 DeepSeek-R1,達(dá)到了 39.3% 的準(zhǔn)確率,但這仍然遠(yuǎn)低于人類的表現(xiàn)水平。

有意思的是,研究者發(fā)現(xiàn)模型在這個(gè)任務(wù)中也表現(xiàn)出對(duì)數(shù)字 7 的偏好。在 DeepSeek-R1 的 59 次正確回答中,有 48 次(81.4%)涉及數(shù)字 7,這進(jìn)一步表明模型可能并不是真正理解任務(wù),而是依賴于訓(xùn)練中形成的數(shù)字偏好。

研究者還測(cè)試了當(dāng)前最流行的提升 AI 推理能力的方法——思維鏈(CoT,Chain-of-Thought)推理。這種方法要求模型逐步展示其思考過程,理論上應(yīng)該能幫助模型更好地管理復(fù)雜任務(wù)。

然而,實(shí)驗(yàn)結(jié)果顯示,即使使用 CoT 推理,模型在工作記憶相關(guān)任務(wù)上的表現(xiàn)也沒有顯著改善。在數(shù)學(xué)魔術(shù)實(shí)驗(yàn)中,使用 CoT 的 GPT-4o 準(zhǔn)確率從 4.7% 提升到 21.3%,雖有改善但仍然很低。這表明,簡(jiǎn)單地要求模型“展示思考過程”并不能彌補(bǔ)其根本的認(rèn)知局限性。

盡管整體表現(xiàn)不佳,研究中還是發(fā)現(xiàn)了一些有趣的差異。Meta 的 LLaMA 系列模型在某些測(cè)試中表現(xiàn)相對(duì)較好,特別是在數(shù)字猜測(cè)游戲中。LLaMA-3.1-8B 甚至超越了更大的 70B 和 405B 版本,這表明模型大小并不總是決定性因素。


圖丨LLMs 在“數(shù)學(xué)魔術(shù)”上使用 CoT 或 LRM 的表現(xiàn)(來源:arXiv)

另一個(gè)令人意外的發(fā)現(xiàn)是,較新的模型版本并不一定比舊版本表現(xiàn)更好。在 GPT-4o 系列中,2024 年 8 月版本在數(shù)字猜測(cè)任務(wù)中表現(xiàn)最佳,超過了 11 月版本和最新的 GPT-4.1。這說明,在追求更強(qiáng)大的語(yǔ)言能力時(shí),可能無意中削弱了其他認(rèn)知功能。

綜合這三個(gè)實(shí)驗(yàn),該研究得出結(jié)論:當(dāng)前的大型語(yǔ)言模型作為一個(gè)類別,并不具備類人的工作記憶。它們?cè)谛枰獌?nèi)部表征和操縱瞬時(shí)信息的任務(wù)上,表現(xiàn)出系統(tǒng)性的失敗。它們的強(qiáng)大能力更多地體現(xiàn)在處理和生成基于顯式上下文的文本,而非進(jìn)行內(nèi)化的、主動(dòng)的思考。

而這一發(fā)現(xiàn)或許也為我們理解當(dāng)前 LLM 的一些能力局限提供了具體的證據(jù)。模型產(chǎn)生的邏輯矛盾、事實(shí)錯(cuò)誤等問題,可能并只是因?yàn)椤盎糜X”,而因?yàn)槠湔J(rèn)知架構(gòu)中缺少工作記憶這一核心組件的直接體現(xiàn)。因此,未來人工智能領(lǐng)域的發(fā)展,或許需要將研究重點(diǎn)從單純擴(kuò)大模型規(guī)模,轉(zhuǎn)向探索能夠整合有效工作記憶機(jī)制的新型模型架構(gòu)。

參考資料:

1.https://arxiv.org/pdf/2505.10571v1

閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫(kù)”

https://wx.zsxq.com/group/454854145828


未來知識(shí)庫(kù)是“ 歐米伽 未來研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到3月31日 ”未來知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告

(加入未來知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
泰國(guó)拒絕第三方調(diào)停 要求通過雙邊會(huì)談解決泰柬沖突

泰國(guó)拒絕第三方調(diào)停 要求通過雙邊會(huì)談解決泰柬沖突

新京報(bào)
2025-07-25 16:03:47
兩性關(guān)系:男人年齡過了60歲,大部分男性都會(huì)出現(xiàn)哪種狀況?

兩性關(guān)系:男人年齡過了60歲,大部分男性都會(huì)出現(xiàn)哪種狀況?

伊人河畔
2025-06-30 22:29:45
美高管被限制離華后,美強(qiáng)硬回應(yīng):立刻放人,特朗普扔出殺手锏

美高管被限制離華后,美強(qiáng)硬回應(yīng):立刻放人,特朗普扔出殺手锏

凡知
2025-07-25 17:43:57
男籃賽后采訪:郭士強(qiáng)不滿防守 趙睿呼吁珍惜機(jī)會(huì) 王俊杰低調(diào)發(fā)聲

男籃賽后采訪:郭士強(qiáng)不滿防守 趙睿呼吁珍惜機(jī)會(huì) 王俊杰低調(diào)發(fā)聲

狼叔評(píng)論
2025-07-25 23:17:15
北京化工大學(xué)的碳纖維錄取通知書能切西瓜 學(xué)校說明年不用了

北京化工大學(xué)的碳纖維錄取通知書能切西瓜 學(xué)校說明年不用了

軟醬萌音人
2025-07-23 15:00:21
三次會(huì)談不剩幾天,美財(cái)長(zhǎng)突然通知中國(guó),談判議題變了,中方拒絕

三次會(huì)談不剩幾天,美財(cái)長(zhǎng)突然通知中國(guó),談判議題變了,中方拒絕

知鑒明史
2025-07-24 17:57:20
東莞太子酒店事件:央視記者冒死偷拍,揭露莞式一條龍全過程

東莞太子酒店事件:央視記者冒死偷拍,揭露莞式一條龍全過程

青絲人生
2023-09-07 21:35:04
央視主持人大賽選手不是焦點(diǎn),鄒韻取代董卿龍洋王嘉寧主持引熱議

央視主持人大賽選手不是焦點(diǎn),鄒韻取代董卿龍洋王嘉寧主持引熱議

可樂談情感
2025-07-26 00:47:11
原外交副部長(zhǎng)周南:香港回歸前,英國(guó)每年從香港拿走上千億人民幣

原外交副部長(zhǎng)周南:香港回歸前,英國(guó)每年從香港拿走上千億人民幣

歷史縱觀
2025-07-24 22:12:19
親爸被判15年,親媽蠢到18線,黃奕女兒想出道,被卡的不止是顏

親爸被判15年,親媽蠢到18線,黃奕女兒想出道,被卡的不止是顏

夢(mèng)史
2025-07-25 09:45:05
Hwg!羅馬諾:曼城簽下伯恩利門將特拉福德,激活略低于4000萬(wàn)鎊回購(gòu)條款

Hwg!羅馬諾:曼城簽下伯恩利門將特拉福德,激活略低于4000萬(wàn)鎊回購(gòu)條款

懂球帝
2025-07-25 18:00:21
山海關(guān)之戰(zhàn)多慘烈?李自成十八萬(wàn)精銳幾乎被團(tuán)滅,十五員大將陣亡

山海關(guān)之戰(zhàn)多慘烈?李自成十八萬(wàn)精銳幾乎被團(tuán)滅,十五員大將陣亡

聞識(shí)
2025-07-18 11:40:02
得了癌癥的患者是怎么離開人間的?網(wǎng)友:有點(diǎn)慘,但建議大家看完

得了癌癥的患者是怎么離開人間的?網(wǎng)友:有點(diǎn)慘,但建議大家看完

解讀熱點(diǎn)事件
2025-07-05 00:10:03
老家拆遷890萬(wàn)都給哥哥,父親70大壽六姐妹都沒回,5個(gè)月后哥哥哭了

老家拆遷890萬(wàn)都給哥哥,父親70大壽六姐妹都沒回,5個(gè)月后哥哥哭了

紅豆講堂
2025-07-14 14:46:57
25號(hào)午評(píng):三大指數(shù)小幅下跌,所有人都注意,下周要開啟降落傘了

25號(hào)午評(píng):三大指數(shù)小幅下跌,所有人都注意,下周要開啟降落傘了

春江財(cái)富
2025-07-25 12:10:36
中國(guó)金花0-2失利無緣決賽,遭遇不公引發(fā)共鳴

中國(guó)金花0-2失利無緣決賽,遭遇不公引發(fā)共鳴

潘軮旅行浪子
2025-07-26 00:47:57
石破茂時(shí)代結(jié)束,高市早苗即將上位?中日關(guān)系或倒退20年

石破茂時(shí)代結(jié)束,高市早苗即將上位?中日關(guān)系或倒退20年

阿天愛旅行
2025-07-24 01:38:41
鄰居大娘找我借50萬(wàn),我拒絕,第二天警察敲門:大媽跟你有來往嗎

鄰居大娘找我借50萬(wàn),我拒絕,第二天警察敲門:大媽跟你有來往嗎

濤哥講堂
2025-07-21 10:30:20
詳訊:韓法院裁定逮捕尹錫悅合法,“雙方展開激辯、耗時(shí)6小時(shí)”

詳訊:韓法院裁定逮捕尹錫悅合法,“雙方展開激辯、耗時(shí)6小時(shí)”

環(huán)球網(wǎng)資訊
2025-07-18 23:02:02
陳赫前妻許婧慶結(jié)婚紀(jì)念日,與老公貼臉好般配,再婚多年沒生孩子

陳赫前妻許婧慶結(jié)婚紀(jì)念日,與老公貼臉好般配,再婚多年沒生孩子

娛樂圈圈圓
2025-07-25 11:10:08
2025-07-26 02:03:00
人工智能學(xué)家 incentive-icons
人工智能學(xué)家
人工智能領(lǐng)域權(quán)威媒體
4046文章數(shù) 37239關(guān)注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場(chǎng)景測(cè)試,“團(tuán)滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權(quán)

財(cái)經(jīng)要聞

劉煜輝:當(dāng)下重要不是找確定性而是轉(zhuǎn)折點(diǎn)

汽車要聞

李斌一口氣講了近3個(gè)小時(shí)樂道L90 原因是為啥?

態(tài)度原創(chuàng)

游戲
家居
教育
本地
公開課

《無主之地4》已開發(fā)完畢進(jìn)廠壓盤

家居要聞

環(huán)繞設(shè)計(jì) 空間動(dòng)線合理

教育要聞

再獲國(guó)際物理奧賽金牌,南師附中學(xué)子勇登世界之巔!

本地新聞

換個(gè)城市過夏天|風(fēng)拂鹽湖,躲進(jìn)格爾木的盛夏清涼

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 喀喇| 澄城县| 米易县| 揭阳市| 台湾省| 宁海县| 察雅县| 个旧市| 翼城县| 三明市| 新蔡县| 石城县| 遂昌县| 南平市| 嘉定区| 黑龙江省| 西乌珠穆沁旗| 诸城市| 青阳县| 牙克石市| 交口县| 万山特区| 石泉县| 九寨沟县| 延津县| 瑞金市| 黄大仙区| 遂溪县| 土默特左旗| 长丰县| 西乡县| 兰坪| 景洪市| 根河市| 兴海县| 绵竹市| 唐海县| 仁寿县| 泰顺县| 梅州市| 南和县|