新智元報道
編輯:桃子 KingHZ
【新智元導讀】LLM根本不會思考!LeCun團隊新作直接戳破了大模型神話。最新實驗揭示了,AI僅在粗糙分類任務表現優秀,卻在精細任務中徹底失靈。
LLM真的可以像人類一樣「思考」了?
圖靈獎得主Yann LeCun聯手斯坦福團隊最新論文,狠狠打臉了LLM類人的神話。
論文鏈接:https://arxiv.org/abs/2505.17117
一直以來,LeCun認為,大模型就是隨機鸚鵡,它們的智力甚至連阿貓阿狗都不如。
實驗驚喜地發現,針對「鳥類」、「家具」這種粗分類任務,LLM表現遠超「隨機猜測」。
然而,它們在精細語義任務中,卻栽了個大跟頭。
還是同樣的例子,人類一眼就能看出「知更鳥」比「企鵝」更像鳥類,這是因為知更鳥會飛、會唱歌,符合「鳥」的典型特征。
對于LLM,它們完全抓瞎,壓根兒就分不清這種差異。
究其原因,LLM的內部概念結構和人類直覺,有著根本性錯位。也就是說,它們可能知道「鳥」這個詞,卻理解不了「鳥」的深層含義。
那么,為什么LLM會有這種缺陷?
通過信息論框架,LeCun團隊發現了驚人的事實:
LLM追求的是極致的統計壓縮,而人類追求適應性語義豐富。
人類語言通過結構所定義的范疇或許因語言而異,但這些范疇最終都映射至一個共通的認知空間——這既代表著人類共同的精神遺產,亦勾勒出心智世界的地理圖譜
在鋪開具體實驗細節之前,先來看看研究的核心亮點。
LLM類人思考?大錯特錯
大模型真的像人類一樣,形成「概念」和「意義」嗎?
還是,它們只是對海量文本的模式進行復雜擬合,根本不懂意義?
針對這些疑問,研究人員引入了一套經典的「心理學實驗數據」。
不同于網友隨手投票,這些數據是數十年來的嚴謹、可靠的科學實驗成果,來自認知科學領域的黃金標準。
比如,如何判斷什么是「鳥」、什么是「家具」等。
實驗中,研究團隊測試了30多個大模型,包括BERT、LLaMA、Gemma、Phi、Qwen以及Mistral等6大算法家族,讓它們來「理解」這些數據。
這里,他們使用了兩個關鍵指標的權衡:
·壓縮能力:模型能多高效地「組織」信息?
·意義保留:壓縮之后,還能留下多少語義細節?
那LLM結果如何?
三大關鍵發現
團隊通過分析多個不同LLM的token嵌入,并將其與經典的人類分類基準進行對比,得出了3大關鍵發現。
發現1:LLM有點像人
大語言模型確實能建立與人類一致的概念分類,而且表現顯著高于隨機水平。
圖1:LLM生成的聚類結果與人類概念分類呈顯著一致性
圖1中展示的是人類分類與LLM嵌入聚類之間的調整互信息(AMI)得分,橫軸為模型大小。
結果取自三個心理學數據集的平均值。所有模型的表現都明顯優于隨機聚類。
LLM生成的聚類結果與人類定義的概念類別顯著吻合,這表明,模型捕捉到了人類概念組織的關鍵特征。
意外驚喜:小模型BERT竟然比超大模型表現更好!這說明一個問題:模型不一定越大越聰明。
這一現象揭示除規模因素外,還有其他變量會影響類人化的范疇抽象能力。
這些發現證實,LLM能夠從其嵌入表示中還原出與人類認知相似的寬泛范疇,從而為更深層次的比較分析提供了依據。
然而,這種表面上的類人能力僅限于概念范疇的粗略劃分。
進一步深入分析,發現真相并不簡單。
發現2:精細語義的「滑鐵盧」
在處理細粒度語義時,LLM明顯吃力。
雖然LLM能有效構建宏觀概念范疇,但其內部表征與人類感知的細粒度語義區分,如item典型性、與類別原型的心理距離等,僅保持有限的一致性。
這表明LLM與人類在概念內部的信息組織方式上,存在本質差異。
原文圖5:LLM嵌入距離與人類典型性判斷之間的相關性
比如——它們知道麻雀和企鵝都是鳥,但沒法理解:相比企鵝,麻雀是更「典型」的鳥。
模型內部的概念結構,和人類的直覺不在一個頻道上。
在LLM中,item嵌入與其類別標簽嵌入的相似性驅動因素,可能與人類典型性依賴的豐富多維標準,如感知屬性、功能角色不同。
因此,LLM可能傾向于捕捉與類別標簽更統計均勻的關聯,從而低估了人類概念中以原型為中心的漸進性質。
更重要的是,這一偏差不僅體現在具體的典型性判斷中,更在于LLM與人類在信息組織方式上的根本差異。
發現3:存在本質差異
LLM和人類大腦,優化的目標根本不是同一個!
·LLM追求極致壓縮,盡量減少冗余。
·人類追求豐富靈活,堅持保留上下文與適應性。
本質不同,注定思維方式不會一樣。
這些發現揭示了當前人工智能與人類認知體系之間的重要差異,為構建更加貼近人類概念表征的LLM提供了方向。
這解釋了為什么LLM既能展現出令人驚嘆的能力,同時又錯過了一些顯而易見的擬人類式推理。
它們并沒有出問題——
只是它們優化的是模式匹配,而不是人類使用的豐富、利用上下文的理解。
這意味著:
·目前Scaling可能無法實現類似人類的理解能力;
·大家需要找到更好的方法,在壓縮信息和保留語義豐富性之間取得平衡;
·實現通用人工智能(AGI)可能需要重新思考當前的優化目標。
簡單來說,大模型就像是一臺超級壓縮機,拼命地把信息壓縮,以消除冗余,追求最高效的模式匹配。
這讓它們在處理大量數據時表現驚艷,但也丟掉了人類認知的精髓——
那些模糊的、語境化的、充滿細微差別的意義。
還以之前的分類舉例,人類會因為「知更鳥在樹上唱歌」的畫面強化「鳥」這一概念,而大模型只會冷冰冰地計算單詞的統計概率。
這并不是LLM的「故障」,而是它們被設計成了「模式匹配的機器」。
接下來,具體看下實驗的實施細節。
三大核心問題
概念是人類認知的核心支柱,能讓人高效理解信息,從稀疏數據中進行類推,并實現豐富的交流。
若LLM希望超越表面模仿,邁向更接近人類的理解方式,就必須深入研究它們的內部表征是如何權衡「信息壓縮」與「語義保真」。
已有研究探索了LLM中的概念結構,提供了有益的視角,但大多缺乏一種基于信息論的方法,來定量地比較LLM與人類在「壓縮與語義」的權衡上的表現。
而且「概念」的定義也沒有得到公認的認知理論支持。
因此,關于LLM與人類在表達效率與語義保真度之間如何權衡的嚴謹比較仍然是一個亟待解決的問題。
另一方面,認知科學領域也曾將信息論應用于人類概念學習的研究中,但這些工作通常未與現代AI模型建立聯系。
這次新研究的目標正是要填補這一空白,將認知心理學、信息論與現代自然語言處理結合起來。
為此,他們提出三大核心研究問題作為研究的主線:
[RQ1]:LLM中涌現出的概念,在多大程度上與人類定義的概念類別相一致?
[RQ2]:在人類與LLM中,這些概念是否展現出相似的內部幾何結構,尤其是在典型性方面?
[RQ3]:在人類與LLM的概念形成過程中,各自是如何權衡表示壓縮與語義保真的?
這三個問統一在信息論分析框架下進行探討:
RQ1從宏觀層面對比LLM和人類在概念分類上的對齊情況,這是信息壓縮的關鍵表現;
RQ2深入到這些類別的內部結構,分析諸如「詞條典型性」等語義細節的保留程度;
在此基礎上,RQ3利用完整的信息論框架,全面比較LLM與人類在壓縮與語義之間的優化策略是否存在根本差異。
統一框架:信息論分析
借鑒了率失真理論(Rate-Distortion Theory,RDT)和信息瓶頸原理(Information Bottleneck,IB)的核心思想,研究團隊從統一的信息論視角深入探討研究中的三大核心問題。
研究首先從表示的緊湊性與語義保留這兩個方面入手,逐步展開分析,最終綜合這些見解來評估概念表示的整體效率。
結合信息論的視角,三大研究問題按如下方式展開:
[RQ1]通過類別對齊探究表示的緊湊性:首先關注信息如何被壓縮成類別結構。
無論是人類的分類方式,還是LLM生成的聚類方法,都是將多樣的元素X簡化成有組織的類別C。
針對RQ1,通過衡量模型聚類(CLLM)與人類分類(CHuman)之間的信息重合程度(如使用調整互信息等指標),評估兩者在壓縮信息時的一致性。這一部分主要對應框架中的「復雜性」維度,即輸入信息的高效表示能力。
[RQ2]通過內部結構探究語義的保留:接下來考察在壓縮后的表示中,意義是否仍然被準確保留。
有效的系統應能維持重要的語義細節。
為研究RQ2,研究團隊對比了LLM內部用于衡量元素中心性的指標與人類對典型性的判斷,考察模型是否能捕捉到人類分類(CHuman)中的細致語義結構。這部分對應的是框架中的「失真」(或語義保真度)維度。
[RQ3]評估整體表示效率中的權衡關系:在探討了緊湊性和語義保留之后,研究團隊將整個框架整合起來。
針對RQ3,研究團隊使用統一的目標函數L(將在后文詳細說明),定量評估LLM與人類在應對信息權衡問題時的效率。
理論基礎:率失真理論+信息瓶頸
為了嚴格形式化「表示緊湊性」與「語義保留」之間的平衡關系,信息論提供了一些理論工具。
其中,率失真理論(Rate-DistortionTheory,RDT)提供了基本框架。
RDT用來衡量在允許最大「失真」D(即語義損失)的前提下,將信息源X表示為C所需的最小「比率」R(即表示復雜度)。
其目標通常是優化R+λD代價函數,從而對表示效率進行系統評估。
另一個相關理論是信息瓶頸原理(Information Bottleneck,IB)。
IB方法試圖從輸入X中提取一個壓縮表示C,該表示在保留盡可能多關于相關變量Y的信息的同時,最小化C與X之間的互信息I(X;C)——也就是壓縮帶來的「代價」。
這個過程通常被形式化為最小化I(X;C)?βI(C;Y)。
分析框架直接借鑒了RDT中「率失真權衡」的核心思想,構建了一個明確表達該權衡的目標函數L。
率失真曲線的例子
目標函數:復雜性與語義失真之平衡
在信息論的分析框架下,目標函數用于評估由原始詞項集合X(如詞嵌入)所派生的概念類簇C的表示效率:
其中,β≥0是一個超參數,用于平衡這兩個部分在整體目標中的相對重要性。
這個函數提供了一個統一而嚴謹的度量方式,用于評估某個類簇方案C在信息壓縮與語義保留之間的權衡效果,是解答RQ3的核心工具。
信息論框架要具備完整的工具集,還需要定兩個關鍵部分:
(1)復雜性項,對應RDT中的「比率」,用于量化將原始項X表示為類簇C所需的信息成本,表示的緊湊程度(RQ1);
(2)失真項,對應RDT中的「失真」,用于衡量在這一類簇結構中所丟失或模糊的語義信息,衡量語義保留的程度(RQ2)。
與IB原理中的思想一致,復雜性項采用互信息I(X;C)。
但在失真項上有所不同,研究者采用的是類簇內部的語義方差,即項嵌入相對于類簇中心的離散程度,來直接衡量語義的保真度。
在IB中,「失真」與外部變量Y的相關性綁定不同。與之不同,這次做法是將語義失真作為類簇結構本身的一種內在屬性直接計算。
不管是基于人類認知數據還是LLM嵌入構建的類簇結構C,這種直接的方法能夠清晰地評估,類簇在保持結構緊湊性和表達原始數據X的語義信息之間,是如何實現平衡的。
下面將框架中的兩個核心組成部分:復雜性(Complexity)和失真(Distortion)。
復雜性項
第一個部分是Complexity(X,C),衡量的是將原始項X表示為類簇C所需的信息成本或復雜程度。
具體地,它通過項與其類簇標簽之間的互信息I(X;C)來衡量。
互信息越小,代表壓縮效果越好,也就是說,用類簇標簽C表示項X所需的信息越少。
定義如下:
因此,復雜性項可以表示為:
該項正是用于量化RQ1中所關注的「表示緊湊性」。
失真項
第二個部分是Distortion(X,C),用于衡量將項歸入類簇時所損失的語義精度。
項嵌入在類簇內的平均方差來反映了語義精度損失,即類簇內的項與中心之間的距離越小,說明語義保留得越好,類簇越具有語義一致性。
對每個類簇c∈C,先計算其質心(中心點):
再類簇內部的方差:
最后,總的失真值定義為:
失真越小,說明類簇中的項越集中在其語義中心,語義信息保留越好,直接關聯于RQ2中提出的語義保留問題。
實證研究
為了回答核心研究問題,研究者精心準備了基準數據集。
之后,在基準數據集和統一架構下,研究人員比較LLM與人類在概念策略差異。
數據集
自認知心理學中的經典研究,深入揭示了人類的概念形成過程,提供了豐富的實證數據,說明人類如何進行分類判斷、如何評估類別成員歸屬感以及如何感知「典型性」。
與許多現代眾包數據集相比,這些經典數據集經過認知科學專家的精心設計與篩選,更能反映人類深層次的認知模式,而非表面上的聯想關系。
它們基于當時正在發展中的概念結構理論,具有高度理論指導意義。
研究團隊特別選取了來自不同小組的三項深遠影響的研究。
左右滑動查看
它們都采用了嚴謹的實驗設計,并提供了關于類別分配和典型性的重要數據。
這次研究整合了這些數據,構建了統一的基準數據集,覆蓋34個類別,共1049個item。
[RQ1]評估概念對齊性
為探究LLM所生成的概念類別與人類定義的類別之間的對齊程度(對應RQ1,即表示緊湊性的考察),研究人員對LLM的token嵌入進行k-means聚類。
聚類數量K由每個數據集中人類類別的數量決定。
以下指標用于衡量LLM類別與人類類別之間的一致性,并與隨機聚類作為基線進行比較:
調整互信息(AMI)
歸一化互信息(NMI)
調整蘭德指數(ARI)
這些指標用于量化模型在壓縮信息的同時,是否以與人類相似的方式組織類別。
[RQ2]分析類簇內部幾何結構與語義保留
為了評估LLM表示是否能捕捉到人類所體現的「典型性」特征(對應RQ2,即語義保真度的衡量),
研究團隊分析類別內部的幾何結構:
對每個item,計算其詞元嵌入與其對應的人類定義類別名的詞元嵌入之間的余弦相似度(例如,「robin」與「bird」)。
然后,將這些LLM計算得到的相似度,與來自認知科學數據集的人類「典型性評分」進行相關性分析(采用Spearman等級相關系數ρ)。
該方法用于檢驗LLM能否捕捉人類在語義類別中對「更具代表性」成員的判斷。
[RQ3]評估壓縮與語義之間的整體權衡效率
為了評估LLM與人類在壓縮信息與語義保留之間的整體平衡(對應RQ3),研究團隊使用第4節中提出的目標函數L(β=1),分別對人類與LLM的概念結構進行計算。
LLM的類簇結構由多種K值下的k-means聚類結果構成;
對比分析其復雜性項I(X;C)與失真項之間的權衡。
此外,他們還將類簇熵作為緊湊性(壓縮能力)的輔助度量標準。
為保證穩健性,所有k-means聚類均進行100次隨機初始化,并取結果平均值。
有關具體的細節和更多參考內容,請參閱原文。
參考資料:
https://x.com/ziv_ravid/status/1928118792803987636
https://arxiv.org/pdf/2505.17117
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.