- 01 蘋果公司發(fā)布題為《思考的幻覺》的研究報告,通過系統(tǒng)性實驗證明,當(dāng)前頂尖的大型推理模型(LRM)本質(zhì)上是精密的模式匹配機(jī)器,缺乏真正的認(rèn)知與推理能力,在面對新穎或復(fù)雜的邏輯任務(wù)時表現(xiàn)不佳甚至?xí)鞍c瘓”。
- 02 該研究為“AI雄辯不等于智慧”提供了科學(xué)佐證,揭示了僅靠擴(kuò)大模型規(guī)模和算力可能無法實現(xiàn)通用人工智能(AGI)。這一發(fā)現(xiàn)有助于用戶理解AI能力邊界,并促使業(yè)界重新審視當(dāng)前大語言模型的技術(shù)路徑與真實能力。
- 03 此研究發(fā)布于全球AI競賽白熱化、行業(yè)對AGI實現(xiàn)路徑爭論不休的背景下。它為“審慎派”提供了強(qiáng)力論據(jù),挑戰(zhàn)了當(dāng)前主流技術(shù)路徑。然而,亦有觀點質(zhì)疑蘋果的動機(jī),認(rèn)為在競爭中相對落后的蘋果此舉有“酸葡萄”心理,使這場技術(shù)路線之爭更添博弈色彩。
6月12日消息,人工智能光鮮亮麗的外表令世人目眩神迷,大語言模型生成的對答文采斐然,看似與人類思維無異。然而在光鮮的外表之下,蘋果公司的最新研究清晰揭示出這樣一個令人不安的現(xiàn)實:雄辯不等于智慧,模仿也絕非理解。
蘋果公司這項新研究題為《思考的幻覺》(The Illusion of Thinking),在人工智能學(xué)界掀起軒然大波。研究表明,即便是最頂尖的推理模型本質(zhì)上也缺乏真正的認(rèn)知能力。這一發(fā)現(xiàn),印證了Facebook母公司Meta首席AI科學(xué)家楊立昆(Yann LeCun)等知名學(xué)者多年來所堅持的觀點:當(dāng)前人工智能系統(tǒng)只是精密的“模式匹配機(jī)器”,而非能夠思考的實體。
人工智能的巨大幻象
蘋果研究團(tuán)隊的研究過程具備系統(tǒng)性,結(jié)果則具備顛覆性。他們創(chuàng)建了可控的解謎環(huán)境,在保持邏輯一致性的前提下,能精確調(diào)整任務(wù)復(fù)雜度,從而揭示出大型推理模型(LRM)在三種不同難度下的表現(xiàn)。
研究發(fā)現(xiàn),標(biāo)準(zhǔn)模型在低復(fù)雜度任務(wù)中的表現(xiàn)竟優(yōu)于那些本應(yīng)更強(qiáng)大的推理模型。而在中等復(fù)雜度任務(wù)中, 額外的“思考”過程帶來的效果增量微乎其微。在面對高復(fù)雜度任務(wù)時,兩種模型都徹底“癱瘓”。
更引人注目的是研究人員觀察到的反直覺“規(guī)模效應(yīng)”。按理說真正的智能在面對更復(fù)雜的問題時,能力應(yīng)該會隨之提升,但這些模型反而呈現(xiàn)出一種怪異模式:即便算力充足,其推理“努力程度”在達(dá)到某個臨界點后仍會急劇下降。這表明模型根本沒有真正進(jìn)行推理;它們只是在沿用已習(xí)得的模式,一旦遇到新穎挑戰(zhàn)便不知從何下手。
這項研究暴露出當(dāng)前模型在精確計算方面的根本局限:它們無法運用明確算法,并且在面對類似謎題時推理邏輯不一致。當(dāng)那層華麗的語言外衣被剝?nèi)ィO碌牟贿^是精致卻空洞的思維模仿。
專家看法
蘋果的這一研究結(jié)果讓專家們開始質(zhì)疑當(dāng)前人工智能能力的深度以及該領(lǐng)域未來的發(fā)展路徑。IBM技術(shù)內(nèi)容經(jīng)理阿什·米尼亞斯(Ash Minhas)表示:“這篇論文從根本上證明了大型語言模型無法進(jìn)行推理。它們只是在進(jìn)行模式匹配。”他補(bǔ)充說,這項研究的結(jié)果凸顯出“弱人工智能”與“通用人工智能”之間的區(qū)別,明確了當(dāng)前大語言模型是弱人工智能。
OpenAI前董事會成員、喬治城大學(xué)安全與新興技術(shù)中心戰(zhàn)略總監(jiān)海倫·托納(Helen Toner)最近在美國參議院司法小組委員會作證時就表示:“據(jù)我所知,公眾和圈內(nèi)人士對人工智能的最大落差主要來自少數(shù)幾家致力于開發(fā)’通用人工智能’的公司內(nèi)部。”她說,像OpenAI、谷歌和Anthropic等頂尖人工智能公司正將構(gòu)建通用人工智能視為“完全嚴(yán)肅的目標(biāo)”。
有不少專家認(rèn)為,通用人工智能遠(yuǎn)未成為現(xiàn)實。正如米尼亞斯所言,“這篇論文強(qiáng)調(diào)我們?nèi)蕴幱谌跞斯ぶ悄茈A段,離通用人工智能還很遠(yuǎn)。”
“僅靠Transformer架構(gòu)不足以實現(xiàn)推理,”米尼亞斯總結(jié)道,“要獲得真正的推理能力,模型架構(gòu)必須迎來新的突破。”
美國學(xué)者加里·馬庫斯(Gary Marcus)一直是人工智能模型能力的主要審慎派代表,他形容蘋果的研究“相當(dāng)具有顛覆性”。
馬庫斯在個人專欄中補(bǔ)充道,這些發(fā)現(xiàn)對當(dāng)前競相開發(fā)通用人工智能提出了疑問。在談及支撐著ChatGPT等工具的大語言模型時,馬庫斯寫道:“任何人如果認(rèn)為大語言模型是通往那種能夠從根本上改善社會的通用人工智能的直接路徑,那都是在自欺欺人。”
英國薩里大學(xué)以人為本人工智能研究所的安德魯·羅戈伊斯基(Andrew Rogoyski)表示,蘋果論文標(biāo)志著整個行業(yè)在通用人工智能領(lǐng)域“仍在摸索前行”,并且當(dāng)前方法可能已經(jīng)走入一條“死胡同”。
他說:“研究發(fā)現(xiàn)大型推理模型在復(fù)雜問題上會‘失去方向’,而在中低復(fù)雜度問題上表現(xiàn)良好,這意味著我們當(dāng)前所采用的方法可能陷入了一個潛在的僵局。”
這些發(fā)現(xiàn)也與楊立昆等頂尖專家多年來發(fā)出的警告不謀而合。楊立昆一直堅稱,五年內(nèi)現(xiàn)有的語言模型基本上都會被淘汰,這并非因為有了更好的版本,而是因為這條實現(xiàn)路徑存在根本缺陷。
但也有人質(zhì)疑蘋果的研究結(jié)果和動機(jī)。科技類咨詢資深撰稿人克里斯·史密斯(Chris Smith)就認(rèn)為蘋果明顯有“吃不到葡萄說葡萄酸”的意味。史密斯說,畢竟“蘋果智能”遠(yuǎn)落后于ChatGPT、Gemini以及其他主流人工智能模型,推理模型方面更是毫無建樹。Siri甚至連現(xiàn)在是幾月份都說不清楚。
史密斯表示,這項研究發(fā)布的時間點也令人質(zhì)疑。當(dāng)時蘋果即將舉辦2025年全球開發(fā)者大會,而人工智能并非會上主要焦點。蘋果在已經(jīng)發(fā)布商業(yè)推理模型的OpenAI、谷歌以及其他人工智能公司面前,仍然處于落后地位。而在大會前夕看到蘋果貶低推理模型,確實感覺有些奇怪。
史密斯還認(rèn)為,這項研究的發(fā)現(xiàn)很重要,相信其他人會嘗試驗證或挑戰(zhàn)這些發(fā)現(xiàn)。甚至有些人可能會利用這些見解來改進(jìn)自己的推理模型。他說,自己作為一名ChatGPT用戶,即使推理模型無法真正思考,也不會放棄使用。譬如ChatGPT o3雖然會犯錯,也會出現(xiàn)幻覺,但它的“推理”能力仍然感覺比基礎(chǔ)大語言模型更強(qiáng)。
基準(zhǔn)測試亟待改進(jìn)
蘋果論文也強(qiáng)調(diào)了人工智能行業(yè)需要更可靠的基準(zhǔn)測試。米尼亞斯認(rèn)為,當(dāng)前的基準(zhǔn)測試問題存在缺陷,因為模型可以通過模式匹配而非真正的推理來解決它們。他說:“如果基準(zhǔn)測試是基于真正的推理,或者推理問題更復(fù)雜,那么所有模型的表現(xiàn)都會很糟糕。”
米尼亞斯說,蘋果研究人員為此構(gòu)建了一個合成數(shù)據(jù)集,將符號打亂排列后得到用于訓(xùn)練和測試模型的專項數(shù)據(jù)集。
“他們已經(jīng)證明,一旦在輸入序列中對符號本身或額外語境進(jìn)行調(diào)整,模型性能就會明顯下降,”他解釋道。
蘋果研究方法包括在訓(xùn)練集中引入各種“干擾信息”和附加條款,用以觀察模型性能如何變化。然而,IBM數(shù)據(jù)科學(xué)家杰斯·博佐格(Jess Bozorg)指出這種研究也有局限性:“他們沒有具體說明在添加內(nèi)容時考慮了多少種干擾信息,也沒有具體說明他們使用了哪些干擾信息。”
人性的相似之處:更偏愛自信的“雄辯者”
或許最令人不安的是,蘋果研究指出的人工智能局限性與人類根深蒂固的認(rèn)知偏見何其相似。正如容易被人工智能的雄辯所蒙蔽一樣,我們也一貫高估一個人的自信和外向性格,常常誤將伶牙俐齒等同于思維深刻。
“過度自信偏見”是人類判斷中最常見的缺陷之一,個人對自身能力的主觀自信遠(yuǎn)遠(yuǎn)超過客觀準(zhǔn)確性。這種偏見在社交和職場環(huán)境中尤為明顯,那些自信外向的人往往能獲得不成比例的關(guān)注和信任。
研究反復(fù)表明,人類傾向于將自信等同于能力、音量等同于價值、能言善辯等同于大智大慧。人工智能雄辯之下的空洞,與偏愛自信溝通的人性偏見之間的相似性深刻揭示出“智能”的本質(zhì)。這兩種現(xiàn)象都表明,我們是多么容易將“理解”的表象與實質(zhì)混為一談;也表明精湛的溝通技巧如何能掩蓋推理與理解上的根本缺陷。
蘋果公司的研究發(fā)現(xiàn)與關(guān)于人類偏見的心理學(xué)研究在此交匯,為我們?nèi)绾务{馭這個日益復(fù)雜的世界提供了寶貴啟示。無論是評估人工智能系統(tǒng)還是人類同行,我們都必須學(xué)會區(qū)分“表現(xiàn)”與“能力”,“雄辯”與“理解”。
這需要一種理智上的謙遜,認(rèn)識到真正的大智慧常常伴隨著恰如其分的不確定性;認(rèn)識到最響亮最自信的未必是最可信的;認(rèn)識到細(xì)致觀察和檢驗完全可以將真正理解與精巧模仿區(qū)分開來。(辰辰)