智東西
作者 李水青
編輯 云鵬
智東西6月10日?qǐng)?bào)道,今日,蘋果開發(fā)者大會(huì)WWDC25坐實(shí)了大模型版Siri跳票的消息,而備受期待的蘋果AI也被吐槽“拖后腿”。
就在這兩天,蘋果發(fā)布的一篇關(guān)于大模型的新論文引起熱議,該論文試圖極力論證大型推理模型(LRMs)的徹底性崩潰。
研發(fā)人員設(shè)計(jì)實(shí)驗(yàn)測試了Claude 3.7 Sonnet、DeepSeek-R1、o3 mini等推理模型,得出結(jié)論:大型推理模型在處理簡單問題時(shí)存在“過度思考”問題;而當(dāng)問題的復(fù)雜性上升到臨界點(diǎn)時(shí),它們回答問題的準(zhǔn)確性就會(huì)觸發(fā)“崩潰模式”,甚至準(zhǔn)確度低到接近零。
▲蘋果發(fā)布論文《思維的錯(cuò)覺:通過問題復(fù)雜性視角理解推理模型的優(yōu)勢與局限性》
“這(論文)對(duì)大語言模型來說是相當(dāng)具有毀滅性的?!泵绹斯ぶ悄茴I(lǐng)域知名意見領(lǐng)袖Gary Marcus說。
投資公司Bootstrapped創(chuàng)始人Ruben Hassid將論文轉(zhuǎn)發(fā)至社交平臺(tái)X上稱:“蘋果剛剛證明,像Claude、DeepSeek-R1和o3-mini這樣的AI‘推理’模型實(shí)際上根本不具備推理能力。它們只是能很好地記住模式而已?!边@條推文預(yù)覽了超1000萬,評(píng)論達(dá)到2600多條。知名風(fēng)投Lux Capital聯(lián)合創(chuàng)始人兼合伙人Josh Wolfe也推薦分享了這篇論文。
但這篇論文同時(shí)也引起了大量質(zhì)疑。蘋果論文試圖證明,AI推理模型是假的,只是模式匹配機(jī)器。但不少用戶提到:“我們只能等著看論文來證明人類的推理不僅僅是記憶模式了?!庇猛饩W(wǎng)爆火的梗圖來說就是,就算蘋果證明了模型無法做推理和原始思考,但人類就能了嗎?
一些人甚至稱這篇論文是“爛文”,并拿“用錘子敲螺絲”來形容蘋果團(tuán)隊(duì)實(shí)驗(yàn)的荒謬。有用戶通過復(fù)現(xiàn)蘋果團(tuán)隊(duì)的實(shí)驗(yàn)以證明蘋果的論證存在邏輯漏洞,比如游戲的規(guī)劃次數(shù)不能代表復(fù)雜度,大模型崩潰只是因?yàn)檩敵鎏L等。
另外有網(wǎng)友扒出論文作者的背景,論文聯(lián)合一作還是一名實(shí)習(xí)生,是弗吉尼亞理工大學(xué)計(jì)算機(jī)科學(xué)專業(yè)三年級(jí)博士生,這也成為質(zhì)疑者的發(fā)難點(diǎn)。
還有不少用戶認(rèn)為,蘋果之所以否定大模型進(jìn)程是因?yàn)槠渥约哄e(cuò)過了這波AI機(jī)遇。
論文地址:https://machinelearning.apple.com/research/illusion-of-thinking?utm_source=perplexity
一、蘋果新論文質(zhì)疑DeepSeek、o3-mini推理能力
首先來看實(shí)驗(yàn)設(shè)計(jì),蘋果團(tuán)隊(duì)的大多數(shù)實(shí)驗(yàn)在推理模型及對(duì)應(yīng)非推理模型上進(jìn)行,例如Claude 3.7 Sonnet(帶/不帶深度思考)和DeepSeek-R1/V3。團(tuán)隊(duì)允許最大token預(yù)算為64k。
測試不是基于當(dāng)下主流基準(zhǔn)測試進(jìn)行的,因?yàn)樘O果認(rèn)為這些測試受數(shù)據(jù)污染影響嚴(yán)重,并無法深入了解推理軌跡的結(jié)構(gòu)和質(zhì)量,因此其通過25個(gè)謎題實(shí)例進(jìn)行了測試。
1、DeepSeek、Claude在高復(fù)雜度任務(wù)上完全崩潰
謎題環(huán)境允許在保持一致邏輯結(jié)構(gòu)的同時(shí),精確控制組合復(fù)雜性。蘋果認(rèn)為,這種設(shè)置不僅能夠分析最終答案,還能分析內(nèi)部推理軌跡,從而深入了解大型推理模型的“深度思考”方式。
對(duì)于每個(gè)謎題實(shí)例,團(tuán)隊(duì)生成25個(gè)樣本,并報(bào)告每個(gè)模型在這些樣本上的平均性能。團(tuán)隊(duì)通過調(diào)整問題規(guī)模N(表示圓盤數(shù)、棋子數(shù)、塊數(shù)或過河元素?cái)?shù))來改變復(fù)雜性,從而研究復(fù)雜性對(duì)推理行為的影響。
下圖展示了兩種模型類型在所有謎題環(huán)境中作為問題復(fù)雜性函數(shù)的準(zhǔn)確性。
下圖顯示了這些模型對(duì)在等效推理token計(jì)算下的上限性能能力,也就是跨所有謎題的平均值,將早期從數(shù)學(xué)基準(zhǔn)的分析擴(kuò)展到可控的謎題環(huán)境。
這兩個(gè)圖的結(jié)果表明,與基準(zhǔn)測試中的觀察不同,這些模型的行為在復(fù)雜性不同的問題中存在三種情況:
(1)在低復(fù)雜度任務(wù)上,標(biāo)準(zhǔn)模型的表現(xiàn)出人意料地優(yōu)于大型推理模型;
(2)在中等復(fù)雜度任務(wù)上,大型推理模型的額外深度思考表現(xiàn)出優(yōu)勢;
(3)在高復(fù)雜度任務(wù)上,兩種模型的表現(xiàn)都完全崩潰。
2、接近復(fù)雜度臨界值,推理模型開始“偷懶”
接下來,蘋果團(tuán)隊(duì)研究了配備推理token的不同專門推理模型如何應(yīng)對(duì)不斷增加的問題復(fù)雜性。其實(shí)驗(yàn)評(píng)估了五種最先進(jìn)的推理模型:o3-mini(中等和高配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B和Claude-3.7 Sonnet(深度思考版)。
下圖展示了這些模型在不同復(fù)雜性級(jí)別上的準(zhǔn)確性(頂部)和推理token使用情況(底部)。結(jié)果表明,所有推理模型在復(fù)雜性方面都表現(xiàn)出類似的模式:隨著問題復(fù)雜性的增加,準(zhǔn)確性逐漸下降,直到超過特定于模型的復(fù)雜性閾值后完全崩潰,準(zhǔn)確度為零。
團(tuán)隊(duì)還觀察到,推理模型最初隨著問題復(fù)雜性的增加按比例增加其推理token。然而,在接近一個(gè)與它們的準(zhǔn)確性崩潰點(diǎn)密切對(duì)應(yīng)的臨界閾值時(shí),模型違反直覺地開始減少推理努力。
這種現(xiàn)象在o3-mini變體中最為明顯,在Claude-3.7-Sonnet(深度思考版)模型中則不那么嚴(yán)重。值得注意的是,盡管在深度思考階段運(yùn)行遠(yuǎn)低于其生成長度限制,并有充足的推理預(yù)算可用,但隨著問題變得更加復(fù)雜,這些模型未能利用額外的推理計(jì)算。
這種行為表明,當(dāng)前推理模型的思考能力相對(duì)于問題復(fù)雜性存在基本的擴(kuò)展限制。
3、推理模型內(nèi)部推理拆解,“過度思考”和“崩潰模式”
為了更深入地了解推理模型的思考過程,蘋果團(tuán)隊(duì)對(duì)其推理軌跡進(jìn)行了細(xì)粒度分析。他們借助謎題模擬器提取并分析模型推理中探索的中間解決方案。
下圖中的(a)展示了所有謎題環(huán)境中中間解決方案在深度思考中的位置、正確性和問題復(fù)雜性之間的關(guān)系。團(tuán)隊(duì)從推理軌跡中進(jìn)行的分析進(jìn)一步驗(yàn)證了上述三種復(fù)雜性機(jī)制。
對(duì)于較簡單的問題,推理模型通常在其思考的早期找到正確的解決方案,但隨后繼續(xù)探索不正確的解決方案。請(qǐng)注意,與正確解決方案(綠色)相比,不正確解決方案(紅色)的分布更向上方(朝向思考的末尾)移動(dòng)。這種在文獻(xiàn)中被稱為“過度思考”的現(xiàn)象導(dǎo)致了計(jì)算的浪費(fèi)。
隨著問題變得中等復(fù)雜,這種趨勢發(fā)生了逆轉(zhuǎn):模型首先探索不正確的解決方案,并且大多在思考的后期得出正確的解決方案。此時(shí),與正確解決方案(綠色)相比,不正確解決方案(紅色)的分布更向下移動(dòng)。
最后,對(duì)于復(fù)雜性較高的問題,崩潰出現(xiàn),這意味著模型無法在思考中生成任何正確的解決方案。
上圖中的(b)對(duì)河內(nèi)塔(Tower of Hanoi)環(huán)境中思考的順序段(bin)內(nèi)的解決方案準(zhǔn)確性進(jìn)行了補(bǔ)充分析。河內(nèi)塔游戲是一種經(jīng)典的游戲,它有三個(gè)柱子和多個(gè)圓盤,玩家需要將左側(cè)柱子上的所有圓盤移動(dòng)到右側(cè)柱子上,并且不能將較大的圓盤堆疊在較小的圓盤上。
可以觀察到,對(duì)于較簡單的問題(較小的N),解決方案的準(zhǔn)確性隨著思考的進(jìn)行而趨于下降或波動(dòng),進(jìn)一步證明了過度思考現(xiàn)象。然而,對(duì)于更復(fù)雜的問題,這種趨勢發(fā)生了變化,解決方案的準(zhǔn)確性隨著思考的進(jìn)行而增加,直到達(dá)到某個(gè)閾值。超過這個(gè)復(fù)雜性閾值,在“崩潰模式”下,準(zhǔn)確性為零。
4、精確計(jì)算執(zhí)行面臨局限性,“能力”忽高忽低
最后,蘋果團(tuán)隊(duì)展示了關(guān)于推理模型在執(zhí)行精確問題解決步驟方面的局限性。
如下圖(a)和(b)所示,在河內(nèi)塔環(huán)境中,即使團(tuán)隊(duì)在提示中提供了算法,以便模型只需執(zhí)行規(guī)定的步驟,性能也沒有提高,并且觀察到的崩潰仍然發(fā)生在大致相同的點(diǎn)。
只要練習(xí),一個(gè)聰明且有耐心的七歲小孩都能完成河內(nèi)塔游戲。而對(duì)于計(jì)算機(jī)來說,這更是小菜一碟。但Claude幾乎不能完成7個(gè)圓盤,準(zhǔn)確率不到80%,如下圖的左下面板所示,而且?guī)缀醺緹o法正確完成8個(gè)圓盤。
蘋果公司發(fā)現(xiàn)廣受好評(píng)的o3-min(高版本)并沒有更好,并且如下圖所示,他們?cè)诙鄠€(gè)任務(wù)中發(fā)現(xiàn)了類似的結(jié)果。比如,大語言模型無法可靠地解決河內(nèi)塔問題,但網(wǎng)上有很多可以免費(fèi)獲取的源代碼庫。
這值得注意,因?yàn)閷ふ液驮O(shè)計(jì)解決方案應(yīng)該需要比僅僅執(zhí)行給定算法多得多的計(jì)算,例如用于搜索和驗(yàn)證。這進(jìn)一步凸顯了推理模型在驗(yàn)證和遵循邏輯步驟解決問題方面的局限性,表明需要進(jìn)一步研究以了解此類模型的符號(hào)操作能力。
此外,在下圖(c)和(d)中,團(tuán)隊(duì)觀察到Claude 3.7 Sonnet推理模型的行為非常不同。在河內(nèi)塔環(huán)境中,該模型在提議的解決方案中的第一個(gè)錯(cuò)誤通常發(fā)生得晚得多,例如,對(duì)于 N=10,大約在第100步,而在過河環(huán)境中,該模型只能生成直到第4步的有效解決方案。
值得注意的是,該模型在解決N=5的河內(nèi)塔問題時(shí)實(shí)現(xiàn)了近乎完美的準(zhǔn)確性,這需要31步,而在解決N=3的過河謎題時(shí)卻失敗了,該謎題有11步的解決方案。
這可能表明,N>2的過河示例在網(wǎng)絡(luò)上很少見,這意味著大型推理模型在訓(xùn)練期間可能沒有頻繁遇到或記憶此類實(shí)例。
二、蘋果研究引起爭議:設(shè)計(jì)有邏輯漏洞,忽視token限制致結(jié)論失真
蘋果這篇論文一經(jīng)發(fā)布,引起了產(chǎn)業(yè)較多關(guān)注,支持和反對(duì)聲并存。
知名風(fēng)投Lux Capital聯(lián)合創(chuàng)始人兼合伙人Josh Wolfe轉(zhuǎn)發(fā)了這篇論文并分享了文章的主要觀點(diǎn):“Claude+DeepSeek看起來很聰明,但當(dāng)復(fù)雜性上升時(shí)它們就會(huì)……徹底崩潰”,“蘋果的看法是這些模型沒有推理能力,只是超級(jí)昂貴的模式匹配器,一旦我們超出它們的訓(xùn)練分布范圍,它們就會(huì)崩潰”……
美國人工智能領(lǐng)域知名意見領(lǐng)袖Gary Marcus也發(fā)文稱:“它(蘋果新論文)對(duì)大語言模型來說是相當(dāng)具有毀滅性的……大語言模型的擁護(hù)者已經(jīng)一定程度上承認(rèn)了這一打擊。”
他說:“蘋果的論文最根本地表明,無論你如何定義通用人工智能(AGI),大語言模型都無法取代優(yōu)秀的、規(guī)范明確的傳統(tǒng)算法?!盙ary Marcus的文章獲得了大量點(diǎn)贊轉(zhuǎn)發(fā)和超160條評(píng)論。高贊評(píng)論提到:“這篇論文是一項(xiàng)精妙的科學(xué)研究,但不幸的是,計(jì)算機(jī)科學(xué)界已經(jīng)失去了它的精髓?!?/p>
另一邊是對(duì)這篇論文猛烈的批評(píng)聲。
一位X平臺(tái)用戶截取論文關(guān)鍵內(nèi)容并稱:“所有這些都是胡說八道,但他們甚至懶得看輸出結(jié)果。這些模型實(shí)際上是在思維鏈中背誦算法,無論是純文本還是代碼。正如我在另一篇文章中解釋的那樣,不同游戲的步驟并不相同?!?/p>
他還認(rèn)為,蘋果團(tuán)隊(duì)對(duì)游戲復(fù)雜性的定義也令人困惑,因?yàn)楹觾?nèi)塔游戲只是比其他游戲多出指數(shù)級(jí)的步驟,這并不意味著河內(nèi)塔更難。
他復(fù)現(xiàn)了河內(nèi)塔游戲,由此發(fā)現(xiàn),所有模型在圓盤數(shù)量超過13個(gè)時(shí)的準(zhǔn)確率都會(huì)為 0,因?yàn)樗鼈儫o法輸出那么多(tokens)。
“你至少需要2^N-1步,并且輸出格式要求每步10個(gè)token+一些常量。此外,Sonnet 3.7的輸出限制為128k,DeepSeek R1為 64k,o3-mini為100k。這包括它們?cè)谳敵鲎罱K答案之前使用的推理token?!?/p>
一旦超過7個(gè)圓盤,這些推理模型就不會(huì)再去嘗試推理問題。它會(huì)說明問題是什么以及解決它的算法,然后輸出其解決方案,甚至不會(huì)考慮各個(gè)步驟。
他指出,即使對(duì)于n=9(9個(gè)圓盤)和n=10(10個(gè)圓盤),Claude 3.7 Thinking也會(huì)提前停止推理,因?yàn)樗J(rèn)為輸出太長了。準(zhǔn)確率的下降至少有一部分僅僅是因?yàn)槟P驼J(rèn)為這是浪費(fèi)時(shí)間而決定提前停止。
還有一位X平臺(tái)用戶稱:“這篇論文太爛了”,并以比喻“他們?cè)噲D用錘子敲入螺絲,然后寫了一篇論文,講述錘子實(shí)際上是如何成為固定物品的非常有限的工具”來質(zhì)疑實(shí)驗(yàn)設(shè)計(jì)的效度。
還一些觀點(diǎn)認(rèn)為,蘋果完全錯(cuò)過了AI的列車,才會(huì)來否定當(dāng)下的大模型前景。
結(jié)語:對(duì)推理模型提出質(zhì)疑,但實(shí)驗(yàn)具有局限性
通過這篇論文,蘋果團(tuán)隊(duì)對(duì)大型推理模型在已建立的數(shù)學(xué)基準(zhǔn)上的當(dāng)前評(píng)估范式提出了質(zhì)疑。
團(tuán)隊(duì)利用算法謎題環(huán)境設(shè)計(jì)了一個(gè)可控的實(shí)驗(yàn)測試平臺(tái),由此論述當(dāng)下先進(jìn)的推理模型仍無法開發(fā)出可泛化的問題解決能力,在不同環(huán)境中,準(zhǔn)確性最終會(huì)在超過特定復(fù)雜性后崩潰為零。
與此同時(shí),產(chǎn)業(yè)人士對(duì)論文實(shí)驗(yàn)設(shè)計(jì)邏輯、論述過程、示例選擇提出了較多質(zhì)疑。蘋果團(tuán)隊(duì)也承認(rèn)了研究的局限性:那就是謎題環(huán)境只代表了推理任務(wù)的一小部分,可能無法捕捉到現(xiàn)實(shí)世界或知識(shí)密集型推理問題的多樣性。同時(shí),團(tuán)隊(duì)的大多數(shù)實(shí)驗(yàn)依賴于對(duì)封閉前沿大型推理模型的黑盒API訪問,這限制了其分析內(nèi)部狀態(tài)或架構(gòu)組件的能力。
此外,確定性謎題模擬器的使用假設(shè)推理可以一步一步地完美驗(yàn)證。然而,在結(jié)構(gòu)較少的領(lǐng)域中,這種精確的驗(yàn)證可能不可行,從而限制了這種分析對(duì)其他更可泛化推理的可移植性。
來源:Apple、X平臺(tái)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.