智東西
作者 李水青
編輯 心緣
智東西6月21日報道,自上周蘋果發(fā)表一篇論文,質(zhì)疑大模型的思考能力,并論證大模型在復(fù)雜難題上“準(zhǔn)確率崩潰”后,不少產(chǎn)業(yè)人士對其進(jìn)行了圍攻。(《蘋果AI“暴論”震動AI圈!DeepSeek、Claude等熱門大模型只是死記的模式機器?》)
近日,紐約大學(xué)名譽教授、《代數(shù)思維》和《深度學(xué)習(xí)正在遭遇瓶頸》的作者加里·馬庫斯(Gary Marcus)發(fā)文總結(jié)了反駁蘋果論點的7個觀點,包括“人類也無法做到真推理”、“實驗例子設(shè)計存在邏輯漏洞”、“推理內(nèi)容超出token限制導(dǎo)致結(jié)果失真”、“一作是實習(xí)生”等,并對此進(jìn)行了一一駁斥,證明這些觀點缺乏說服力。
博客地址:https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple
馬庫斯還援引全球SaaS龍頭Salesforce于5月24日發(fā)布的一篇論文,擁護(hù)蘋果的觀點。這篇論文提到,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級模型在測試中性能僅為35%。
論文地址:https://arxiv.org/abs/2505.18878
此外,加州大學(xué)伯利克里分校于6月9日發(fā)表的一篇論文展示了視覺語言模型的脆弱性:“視覺語言模型的表現(xiàn)明顯比其視覺編碼器差,性能會下降到接近偶然水平?!边@也被認(rèn)為是蘋果“大模型崩潰論”的有力論證。
論文地址:https://www.arxiv.org/abs/2506.08008
值得一提的是,參與這場AI論辯的除了人類還有AI作者。此前6月10日,大模型Claude被放在arXiv論文的一作,與一名人類作者聯(lián)合“發(fā)文”質(zhì)疑蘋果的實驗設(shè)計有問題,強調(diào)所謂的“推理崩潰”其實只是token限制導(dǎo)致。
論文地址:https://arxiv.org/abs/2506.09250
一、大模型Claude被放論文一作,駁斥蘋果的“AI崩潰論”
蘋果剛剛發(fā)布一篇論文質(zhì)疑大型推理模型是“假思考”,就有大模型“本模”跳出來反駁了。
6月10日,Anthropic旗下大模型Claude被一位名為Lawsen的人類作者放在論文一作,在arXiv平臺上“發(fā)表”了一篇題為《思維的幻覺的幻覺(The Illusion of the Illusion of Thinking)》的論文。
蘋果此前的論文報告大型推理模型在超過特定復(fù)雜度閾值的規(guī)劃難題上會表現(xiàn)出“準(zhǔn)確率崩潰”,Claude的這篇論文則試圖證明,他們發(fā)現(xiàn)這主要反映了實驗設(shè)計的局限性,而非根本性的推理失敗。
這篇論文主要攻擊了蘋果AI論文中的河內(nèi)塔實驗。河內(nèi)塔游戲是一種經(jīng)典的游戲,它有三個柱子和多個圓盤,玩家需要將左側(cè)柱子上的所有圓盤移動到右側(cè)柱子上,并且不能將較大的圓盤堆疊在較小的圓盤上。
論文的分析揭示了三個關(guān)鍵問題:1、河內(nèi)塔實驗在報告的失敗點系統(tǒng)性地超出了模型輸出token的限制,而模型在其輸出中明確承認(rèn)了這些限制;2、作者的自動評估框架未能區(qū)分推理失敗和實際約束,導(dǎo)致模型能力分類錯誤;3、最令人擔(dān)憂的是,他們的“過河”基準(zhǔn)測試包含了由于船只容量不足導(dǎo)致N>5在數(shù)學(xué)上不可能出現(xiàn)的實例,但模型卻因未能解決這些無法解決的問題而被評為失敗。
當(dāng)他們控制這些實驗結(jié)果時,通過請求生成函數(shù)而不是詳盡的移動列表,跨多個模型的初步實驗表明,此前被報告為完全失敗的河內(nèi)塔實例具有很高的準(zhǔn)確率。這些發(fā)現(xiàn)凸顯了在評估AI推理能力時,精心設(shè)計實驗的重要性。
這篇論文的觀點得到不少人的贊同。有網(wǎng)友認(rèn)為,Claude的批評證明了象征性限制扭曲了大模型的產(chǎn)出。蘋果的“推理崩潰”是技術(shù)性的,而非根本性的——研究方法終將適應(yīng)。也有人稱“token限制論證為性能指標(biāo)提供了新的視角”,并認(rèn)為“看到AI直接參與學(xué)術(shù)討論很有趣了?!?/p>
不少網(wǎng)友贊嘆“AI作為一作的時代正式到來”、“C. Opus將成為被引用次數(shù)最多的研究人員之一”、“現(xiàn)在每個人都在讀LLM的文章,甚至連研究人員都一樣”,這側(cè)面論證了大模型的強大能力。
但反駁的聲音依然強大。X平臺用戶Chomba Bupe說:“整件事都只是在重復(fù)我在推特上看到的那些觀點。Claude到底貢獻(xiàn)了什么,竟然被列為作者?如果語言模型(LM)連需要255次迭代的算法都執(zhí)行不了,那它還有什么用?”
二、蘋果AI論文七大質(zhì)疑,紐約大學(xué)名譽教授:都缺乏說服力
針對大量反駁蘋果AI論文的觀點,紐約大學(xué)名譽教授、《代數(shù)思維》和《深度學(xué)習(xí)正在遭遇瓶頸》的作者加里·馬庫斯進(jìn)行了總結(jié),依次列出了七個論點并進(jìn)行了一一反駁。
總的來說,馬庫斯認(rèn)為所有這些反駁都缺乏說服力。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道。
觀點1:人類在處理復(fù)雜問題和內(nèi)存需求方面存在困難。
馬庫斯反駁稱:“沒錯。但這還不夠全面。我們完全有理由期待機器去做我們做不到的事情。汽車擁有更強的耐力,計算器不會犯算術(shù)錯誤。這就是我們發(fā)明計算機的原因:進(jìn)行無差錯的重復(fù)計算。而且在很多情況下,包括論文中重點提到的河內(nèi)塔問題,我們現(xiàn)有的系統(tǒng)都能完美運行,不會出現(xiàn)任何錯誤。AGI應(yīng)該向前邁一步。
但在很多情況下,大語言模型反而是倒退了一步。請注意,他們把‘我們要構(gòu)建能夠徹底改變世界的AGI’變成了‘相信我們,我們的系統(tǒng)會犯錯,人類也會犯錯’。
蘋果論文的真正要點是,隨著算法復(fù)雜度和與訓(xùn)練分布的距離不斷增加,大語言模型不再適合用來運行算法,就像人類不應(yīng)該充當(dāng)計算器一樣。如果我們想要實現(xiàn)AGI,就必須做得更好?!?/p>
觀點2:大型推理模型無法解決問題,是因為輸出需要太多的輸出標(biāo)記(也就是說,正確答案太長,大型推理模型無法生成)。
馬庫斯反駁稱:“這部分屬實,但也是一個非常巧妙的觀察:大型推理模型有一個缺點,那就是其輸出長度有限。對于某些大型推理模型來說,12步河內(nèi)塔的正確答案太長,無法輸出,作者應(yīng)該已經(jīng)解決了這個問題。
但關(guān)鍵在于:
1、這個反對意見雖然很巧妙,但實際上并不能解釋結(jié)果的整體模式。大型推理模型在8個盤的河內(nèi)塔問題上失敗了,其中最優(yōu)解是255步,完全在所謂的標(biāo)記限制之內(nèi);
2、編寫良好的符號人工智能系統(tǒng)通常不會遇到這個問題,通用人工智能也不應(yīng)該遇到這個問題。大語言模型的長度限制是一個Bug,絕對不是一個特性。再說,如果大語言模型連像“河內(nèi)塔”這樣基本的計算都無法可靠地完成,你怎么能認(rèn)為它能夠正確計算軍事戰(zhàn)略(尤其是在戰(zhàn)爭迷霧籠罩的情況下)或分子生物學(xué)(存在許多未知數(shù))呢?蘋果團隊要求的比現(xiàn)實世界通常要求的要簡單得多。”
觀點3:這篇論文是由一名實習(xí)生撰寫的。
馬庫斯反駁稱:“這讓我很生氣,因為它是一種人身攻擊而不是實質(zhì)內(nèi)容,它具有誤導(dǎo)性,幾乎不真實,而且完全缺乏背景。第一作者確實是蘋果的實習(xí)生Parshin Shojaee,但馬庫斯強調(diào):
1、她也是一位非常有前途的三年級博士生,曾在許多主要會議上發(fā)表過論文。
2、如果你真的讀過這篇文章,就會清楚地發(fā)現(xiàn)她與擁有博士學(xué)位的Iman Mirzadeh共同承擔(dān)領(lǐng)導(dǎo)責(zé)任。
3、這篇論文實際上有六位作者,而不是一位,其中四位擁有博士學(xué)位;其中一位是Yoshua Bengio的兄弟Samy Bengio,他在機器學(xué)習(xí)社區(qū)中非常有名氣
4、在許多科學(xué)領(lǐng)域,像這篇論文一樣,把初級作者放在第一位,資深作者放在最后,這是一種常見的做法;成千上萬篇重要論文都這么做了,而且從未因此受到批評。
5、真正重要的是論文的質(zhì)量。Alfred Sturtevant在發(fā)明基因圖譜時還是一名本科生?!?/p>
觀點4:更大的模型可能會做得更好。
馬庫斯反駁稱:“沒錯,情況總是如此,我看到過一份報告稱o3-pro至少在某些時候可以解決其中一個問題。更大的模型有時會做得更好,因為模型本身有真正的改進(jìn),有時是因為針對特定問題進(jìn)行了訓(xùn)練。從外部我們永遠(yuǎn)無法知道是哪種原因。
但問題是,我們無法提前知道對于任何給定的問題,哪個模型足夠大。蘋果的結(jié)果是,一些相當(dāng)大的模型可以在6個圓盤的河內(nèi)塔游戲中取得成功,給人一種精通的假象,但到8張圓盤時就會崩潰,這不是好的信號。人們只需要一直測試所有的東西,而幾乎沒有任何保證。有些模型可能對規(guī)模為S的任務(wù)T來說足夠大,但在下一個規(guī)?;蚵杂胁煌娜蝿?wù)T’上會失敗,等等。這一切都變成了擲骰子游戲。”
觀點5:這些系統(tǒng)可以用代碼解決難題。
馬庫斯反駁稱:“在某些情況下確實如此,這對于神經(jīng)符號人工智能來說是一個巨大的勝利,因為它們無法在沒有代碼的情況下可靠地解決難題,而且代碼是符號化的。這極大地證明了我一直以來的說法:我們需要一種能夠整合神經(jīng)網(wǎng)絡(luò)和符號算法及表示,例如邏輯、代碼、知識圖譜等的人工智能。但同時,我們需要可靠地、通用地做到這一點,而我們還沒有跨過這個門檻。
重要的是,蘋果論文的目標(biāo)是了解大型推理模型如何通過推理和回溯在無人協(xié)助的情況下探索解決方案,而不是了解它如何很好地利用從網(wǎng)絡(luò)上檢索到的現(xiàn)有代碼。打個比方:學(xué)生可能會抱怨數(shù)學(xué)考試需要手算積分或微分,即使數(shù)學(xué)軟件可以立即給出正確答案。然而,老師布置問題的目的并非尋找問題的答案,而是評估學(xué)生對概念的理解。
大語言模型真的理解河內(nèi)塔算法的概念嗎?這正是蘋果團隊想要探究的。大語言模型能下載正確的代碼嗎?當(dāng)然可以。但如果遇到新問題、環(huán)境瞬息萬變等情況,在沒有概念理解的情況下下載代碼就沒什么用了。”
觀點6:這篇論文只有四個例子,其中至少有一個(河內(nèi)塔)并不完美。
馬庫斯反駁稱:“例子可能都不是完美的,但這四個例子加在一起,提供了與數(shù)十篇其他先前論文相吻合的證據(jù),他相信還會發(fā)現(xiàn)更多的例子。他自己已經(jīng)在算法應(yīng)用中發(fā)現(xiàn)了幾個類似的錯誤,將在幾天后寫出來。
紐約大學(xué)的Tal Linzen剛剛發(fā)表了另一個例子,其中模型……能夠更正簡單版本的語言問題(小型語法、短字符串),但隨著問題變得更加復(fù)雜,準(zhǔn)確率會迅速下降。馬庫斯認(rèn)為,假以時日,我們將看到大量論文強化蘋果的結(jié)果。”
觀點7:這篇論文并非新鮮事,我們早已知道這些模型泛化能力很差。
馬庫斯反駁稱:“沒錯,但為什么我們認(rèn)為這些模型是通往通用人工智能的康莊大道呢?除了這是一項巧妙的研究,明確了一個重要觀點之外,真正的新聞是,人們終于開始關(guān)注生成式AI的兩大致命弱點之一,并認(rèn)識到其重要性。順便說一句,同時聽到‘這是錯的’和‘我們早就知道’真是太搞笑了。至少有一次,我看到一個人同時說出了這兩句話,間隔幾分鐘。
歸根結(jié)底所有這些反駁都缺乏說服力。如果像Sam Altman這樣的人感到緊張,那是因為他們應(yīng)該緊張。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道;這一次,人們終于開始關(guān)注這個問題了。”
三、Salesforce新研究“撞題”蘋果:多輪推理測試下準(zhǔn)確率僅35%
除了馬庫斯的一系列反駁,Salesforce最新發(fā)布的一篇論文擁護(hù)了蘋果的觀點。
論文證明,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級模型在測試中性能僅為35%。馬庫斯認(rèn)為這足以和蘋果的論文融合證明當(dāng)前的技術(shù)不可信。
讓我們來具體看看這篇論文,論文發(fā)布于2025年5月24日,題為:《CRMArena-Pro:對不同業(yè)務(wù)場景和互動中的大語言模型智能體進(jìn)行全面評估(CRMArena-Pro:Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions)》
論文提到,盡管智能體(AI Agent)在商業(yè)領(lǐng)域擁有變革潛力,但由于廣泛使用的平臺上缺乏公開且真實的業(yè)務(wù)數(shù)據(jù),有效的性能基準(zhǔn)測試受到阻礙?,F(xiàn)有的基準(zhǔn)測試通常對其環(huán)境、數(shù)據(jù)和智能體與用戶交互缺乏保真度,對各種業(yè)務(wù)場景和行業(yè)的覆蓋范圍有限。
為了彌補這些不足,Salesforce推出了CRMArena-Pro,這是一個全新的基準(zhǔn)測試,用于對各種專業(yè)環(huán)境中的大語言模型智能體進(jìn)行全面、真實的評估。CRMArena-Pro在CRMArena的基礎(chǔ)上進(jìn)行了擴展,包含19項經(jīng)專家驗證的任務(wù),涵蓋銷售、服務(wù)和“配置、定價和報價”流程,適用于B2B和B2C場景,融合了由不同角色引導(dǎo)的多輪交互和保密意識評估。
實驗表明,領(lǐng)先的大語言模型在CRMArena-Pro上的單輪成功率僅為58%左右,在多輪設(shè)置下,性能顯著下降至約35%。
雖然工作流執(zhí)行對于頂尖的智能體來說更容易掌握(單輪成功率超過83%),但其他經(jīng)評估的業(yè)務(wù)技能卻面臨更大的挑戰(zhàn)。此外,智能體的固有保密意識幾乎為零;雖然有針對性的提示可以改善這種情況,但這往往會損害任務(wù)績效。
這些發(fā)現(xiàn)凸顯了當(dāng)前大語言模型能力與企業(yè)需求之間的巨大差距,展示了在多輪推理、保密性和多功能技能習(xí)得方面取得進(jìn)步的必要性。
這篇論文同樣質(zhì)疑了當(dāng)下主流測試基準(zhǔn)的價值,并通過一個基于業(yè)務(wù)場景數(shù)據(jù)的新基準(zhǔn)論證了主流推理模型能力的不足。
此外,其中有一句話對于很多企業(yè)來說都是一個破壞因素:幾乎零保密性。這又攻擊了大語言模型在信息安全上的不足。
四、UC伯克利論文:視覺語言模型很脆弱,只會學(xué)習(xí)捷徑
另一篇論文展示了視覺語言模型(VLM)的脆弱性:“視覺語言模型的表現(xiàn)明顯比其視覺編碼器差,性能會下降到接近偶然水平”,X用戶Chomba Bupe認(rèn)為,這意味著語言模型只是忽略了來自視覺編碼器的豐富信息然后輸出內(nèi)容。
他談道:“理解視覺信息需要某種形式的抽象推理,如果沒有推理,連接到視覺編碼器(VE)的語言模型只會學(xué)習(xí)捷徑,即忽略來自VE的信息并編造看起來合理但毫無意義的細(xì)節(jié)?!?/p>
讓我們具體來看下這篇論文,論文由加州大學(xué)伯利克里分校于2025年6月9日發(fā)布,題為:《隱藏在顯而易見的地方:視覺語言模型忽略了它們的視覺表現(xiàn)(Hidden in plain sight: VLMs overlook their visual representations)》。
論文提到,語言提供了一個自然的界面來指定和評估視覺任務(wù)的性能。為了實現(xiàn)這一可能性,視覺語言模型必須成功地整合視覺和語言信息。UC伯克利研究人員的工作將視覺語言模型與其視覺編碼器的直接讀數(shù)進(jìn)行比較,以了解它們跨模態(tài)整合的能力。在一系列以視覺為中心的基準(zhǔn)測試(例如深度估計、對應(yīng)性)中,他們發(fā)現(xiàn)視覺語言模型的性能明顯低于其視覺編碼器,性能下降到接近偶然水平。
他們通過對整個視覺語言模型進(jìn)行一系列分析來探究這些結(jié)果:1、視覺表征的退化,2、對任務(wù)提示的脆弱性,以及3、語言模型在解決任務(wù)中的作用。
他們發(fā)現(xiàn),執(zhí)行這些以視覺為中心的任務(wù)的瓶頸就在于這第三類。視覺語言模型無法有效地利用整個模型中易于訪問的視覺信息,并且它們繼承了大語言模型中存在的語言先驗。
如下圖所示,在所有任務(wù)中,盡管視覺編碼器的性能存在較大差異,但視覺編碼器的表現(xiàn)均顯著優(yōu)于視覺語言模型評估和盲評估。此外,盡管DINOv2在6項任務(wù)中的5項里是性能最強的編碼器,但它在任何任務(wù)中都未使視覺語言模型方法達(dá)到最高性能。
結(jié)語:蘋果AI論文爭議,呼喚新評估范式
這場圍繞蘋果論文引發(fā)的學(xué)術(shù)論戰(zhàn)超出技術(shù)細(xì)節(jié)爭論,觸及大模型發(fā)展前景的信仰。一方面這種反共識的觀點受到了來自多方的圍攻,另一方面,Salesforce和UC伯克利的研究則從多輪復(fù)雜推理任務(wù)的顯著低成功率、以及視覺語言模型對視覺信息利用的脆弱性等不同角度,提供了有力的佐證。
這場爭論不僅指出了“規(guī)?;甭窂降臐撛诰窒?,更倡導(dǎo)評估范式的革新與底層架構(gòu)的突破。未來的突破點或許在于更深入地理解模型失效的根源,設(shè)計更能真實反映智能本質(zhì)的測試基準(zhǔn),以及探索神經(jīng)符號結(jié)合等新架構(gòu),使AI不僅能識別模式,更能進(jìn)行可靠、可泛化的計算與推理。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.