最近高考剛結(jié)束,設(shè)想一下考數(shù)學(xué)的時(shí)候。
有一道極其繁瑣的數(shù)學(xué)題,要求你必須把解題的每一個(gè)步驟都詳細(xì)寫出來,包括每一次加減乘除的過程,而且還限制你只能用一張巴掌大的答題紙來書寫。
當(dāng)題目變得非常復(fù)雜時(shí),你可能會(huì)發(fā)現(xiàn)紙不夠用了,于是你告訴出題者:"我知道怎么解,但是紙不夠?qū)懲暾麄€(gè)過程。"然而,出題者卻因此認(rèn)為你根本不會(huì)做這道題。這聽起來是不是很荒謬?然而這正是最近一場(chǎng)關(guān)于人工智能推理能力的爭(zhēng)論。
2025年6月10日,來自O(shè)pen Philanthropy的Lawson發(fā)表了一篇題為《思維幻象的幻象:對(duì)Shojaee等人研究的評(píng)論》的論文,對(duì)另一項(xiàng)聲稱發(fā)現(xiàn)了大型推理模型存在根本性缺陷的研究提出了強(qiáng)烈質(zhì)疑。這場(chǎng)學(xué)術(shù)爭(zhēng)論不僅關(guān)乎AI技術(shù)的真實(shí)水平,而且告訴我們應(yīng)該如何正確評(píng)估人工智能的能力。
爭(zhēng)論的起源:AI真的在復(fù)雜問題上"崩潰"了嗎?
故事要從Shojaee等人的一項(xiàng)研究說起。這些研究者聲稱他們發(fā)現(xiàn)了一個(gè)令人震驚的現(xiàn)象:當(dāng)給大型推理模型出一些規(guī)劃類的難題時(shí),比如漢諾塔游戲或過河問題,模型在面對(duì)超過某個(gè)復(fù)雜度的題目時(shí),準(zhǔn)確率會(huì)突然"崩潰"到零。就像一個(gè)學(xué)生在簡(jiǎn)單算術(shù)上表現(xiàn)很好,但面對(duì)稍微復(fù)雜一點(diǎn)的題目就完全不會(huì)做了一樣。
漢諾塔游戲是一個(gè)經(jīng)典的益智游戲,你有三根柱子,其中一根上面從下到上疊著幾個(gè)大小不同的圓盤,大的在下面,小的在上面,就像一座寶塔。游戲的目標(biāo)是把所有圓盤移到另一根柱子上,但有兩個(gè)規(guī)則:一次只能移動(dòng)一個(gè)圓盤,而且大圓盤不能放在小圓盤上面。隨著圓盤數(shù)量的增加,需要的移動(dòng)次數(shù)會(huì)呈指數(shù)級(jí)增長:3個(gè)圓盤需要7步,4個(gè)圓盤需要15步,10個(gè)圓盤就需要1023步了。
Shojaee等人測(cè)試了各種AI模型解決這類問題的能力,結(jié)果發(fā)現(xiàn)了一個(gè)看似令人擔(dān)憂的現(xiàn)象:當(dāng)漢諾塔的圓盤數(shù)量增加到一定程度時(shí),所有模型的成功率都會(huì)突然降到零。他們將此現(xiàn)象稱為"準(zhǔn)確率崩潰",并認(rèn)為這揭示了大型推理模型存在根本性的推理局限。
作者Lawsen卻從這些實(shí)驗(yàn)中看出了不同的門道。他認(rèn)為這些所謂的推理失敗實(shí)際上更像是實(shí)驗(yàn)設(shè)計(jì)的問題,而不是AI模型本身的缺陷。就像前面提到的那個(gè)比喻,問題可能不在于學(xué)生不會(huì)做題,而在于給的紙張不夠大。
被誤解的聰明表現(xiàn):AI模型其實(shí)知道自己的限制
在深入分析那些據(jù)說失敗的AI回答時(shí),研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象。AI模型并不是真的不知道如何解決漢諾塔問題,相反,它們顯示出了令人驚訝的自我認(rèn)知能力。
一位名為@scaling01的用戶在Twitter上進(jìn)行的復(fù)現(xiàn)實(shí)驗(yàn)中,記錄下了AI模型的完整回答。當(dāng)面對(duì)復(fù)雜的漢諾塔問題時(shí),模型會(huì)明確表述:"這個(gè)模式會(huì)繼續(xù)下去,但為了避免回答過長,我就在這里停止了。"很像一個(gè)學(xué)生在考試中寫道:"我知道后面的步驟,但答題紙不夠了,所以我先寫到這里。"
這個(gè)發(fā)現(xiàn)非常重要,因?yàn)樗砻鰽I模型實(shí)際上理解解題的方法和模式,只是選擇不完整列舉所有步驟。這種行為更像是一種理性的自我限制,而不是能力缺陷。如果你要向別人解釋如何從北京步行到上海,你可能會(huì)說"先往南走,然后...",但你不會(huì)真的把每一條街道的轉(zhuǎn)彎都詳細(xì)描述出來,因?yàn)槟菢蛹炔粚?shí)用也不必要。
然而,原始研究的自動(dòng)化評(píng)估系統(tǒng)卻無法理解這種微妙之處。它們只會(huì)機(jī)械地檢查答案是否完整,就像一個(gè)嚴(yán)格的老師只看學(xué)生是否寫滿了所有空格,而不關(guān)心學(xué)生是否真正理解了問題。這種評(píng)估方式的局限性導(dǎo)致了對(duì)AI能力的嚴(yán)重誤判。
統(tǒng)計(jì)學(xué)陷阱:完美執(zhí)行的不可能性
為了更好地理解這個(gè)問題,讓我們用一個(gè)具體的例子來說明。假設(shè)你要抄寫一本10000字的書,而你每寫一個(gè)字都有0.1%的概率出錯(cuò)。那么,你完美無誤地抄完整本書的概率是多少呢?
根據(jù)概率論,這個(gè)概率等于(0.999)的10000次方,約等于0.005%,幾乎不可能實(shí)現(xiàn)。這意味著即使你是一個(gè)非常仔細(xì)的抄寫員,在處理如此長的文本時(shí),出現(xiàn)某個(gè)小錯(cuò)誤幾乎是不可避免的。
同樣的道理也適用于AI模型。當(dāng)要求它們輸出漢諾塔問題的完整解答時(shí),隨著問題復(fù)雜度的增加,需要輸出的文本長度也呈指數(shù)級(jí)增長。即使模型在每個(gè)小步驟上都有很高的準(zhǔn)確率,但當(dāng)需要完美執(zhí)行成千上萬個(gè)小步驟時(shí),出現(xiàn)某個(gè)微小錯(cuò)誤的概率就會(huì)變得很高。
這種現(xiàn)象在學(xué)術(shù)界被稱為"統(tǒng)計(jì)必然性"論證,一些研究者甚至以此為基礎(chǔ)聲稱大型語言模型的擴(kuò)展存在根本性限制。但這種論證忽略了一個(gè)重要前提:它假設(shè)模型無法識(shí)別和適應(yīng)自己的限制,而這個(gè)假設(shè)恰恰被前面提到的證據(jù)所推翻。
就像一個(gè)經(jīng)驗(yàn)豐富的作家知道如何在有限的篇幅內(nèi)傳達(dá)完整的思想一樣,AI模型也顯示出了類似的智慧。它們能夠識(shí)別何時(shí)應(yīng)該提供完整的逐步解答,何時(shí)應(yīng)該采用更簡(jiǎn)潔的表達(dá)方式。
不可能完成的任務(wù):當(dāng)評(píng)測(cè)本身就有問題
這場(chǎng)爭(zhēng)論中最讓人無語的發(fā)現(xiàn)可能是關(guān)于"過河問題"的部分。過河問題是另一類經(jīng)典的邏輯謎題,最著名的版本是"傳教士與食人族"問題:三個(gè)傳教士和三個(gè)食人族要過河,船只能載兩個(gè)人,而且任何一邊食人族的數(shù)量都不能超過傳教士,否則傳教士就會(huì)被吃掉。
Shojaee等人的研究測(cè)試了更復(fù)雜的版本,涉及6個(gè)或更多的角色,但仍然使用容量為3的船。然而,數(shù)學(xué)上已經(jīng)被證明,當(dāng)角色數(shù)量超過5個(gè)而船的容量仍為3時(shí),這類問題是無解的。這就像要求你用一個(gè)只能裝2升水的桶,一次性運(yùn)輸3升水一樣,在物理上根本不可能實(shí)現(xiàn)。
但是,原始研究的評(píng)估系統(tǒng)卻將這些無解問題當(dāng)作正常題目,然后因?yàn)槟P蜔o法解答而給出零分。
更離譜的是,當(dāng)AI模型正確地識(shí)別出這些問題無解時(shí),評(píng)估系統(tǒng)反而將這種正確的判斷標(biāo)記為錯(cuò)誤。這就像懲罰一個(gè)SAT求解器(一種專門判斷邏輯表達(dá)式是否可滿足的程序)因?yàn)樗鼘?duì)不可滿足的表達(dá)式返回?zé)o解結(jié)果一樣。
這個(gè)發(fā)現(xiàn)暴露了純粹程序化評(píng)估的一個(gè)根本缺陷:它們無法區(qū)分真正的推理失敗和對(duì)不可能任務(wù)的正確識(shí)別。在科學(xué)研究和日常生活中,能夠識(shí)別不可能的任務(wù)往往比盲目嘗試更有價(jià)值。
解決方案的巧思:換個(gè)角度看問題
面對(duì)這些評(píng)估問題,研究人員決定采用一種完全不同的方法來測(cè)試AI模型的真實(shí)能力。他們沒有要求模型輸出漢諾塔問題的每一步具體操作,而是請(qǐng)模型編寫一個(gè)程序來解決問題。
具體來說,他們給出了這樣的提示:"解決15個(gè)圓盤的漢諾塔問題。輸出一個(gè)Lua函數(shù),調(diào)用時(shí)可以打印出解決方案。"就像是改變了考試形式,從要求學(xué)生寫出長篇計(jì)算過程,變成要求他們寫出解題的公式或算法。
結(jié)果令人震驚。同樣的AI模型,包括Claude-3.7-Sonnet、Claude Opus 4、OpenAI o3和Google Gemini 2.5,在這種新的測(cè)試方式下表現(xiàn)出了極高的準(zhǔn)確率,而且生成的代碼都不超過5000個(gè)token。相比之下,按原來方式需要的token數(shù)量會(huì)是這個(gè)數(shù)字的十幾倍。
生成的解決方案都正確實(shí)現(xiàn)了遞歸算法,清晰地展示了模型對(duì)問題本質(zhì)的深刻理解。其實(shí)相當(dāng)于學(xué)生們不是不會(huì)解方程,而是之前的考試要求他們用最笨的方法來展示答案的問題。
這個(gè)實(shí)驗(yàn)的意義遠(yuǎn)不止于證明AI模型的能力。它揭示了一個(gè)更深層的問題:當(dāng)我們?cè)u(píng)估智能時(shí),評(píng)估方式本身可能比被評(píng)估的對(duì)象更重要。就像用錯(cuò)誤的標(biāo)尺測(cè)量物體會(huì)得出錯(cuò)誤的長度一樣,用不合適的方法評(píng)估智能也會(huì)得出誤導(dǎo)性的結(jié)論。
復(fù)雜度的真正含義:不是所有困難都一樣
為了更好地理解為什么AI模型在某些看似簡(jiǎn)單的問題上表現(xiàn)不佳,而在某些看似復(fù)雜的問題上卻游刃有余,我們需要重新審視復(fù)雜度這個(gè)概念。
原始研究使用"最小移動(dòng)次數(shù)"作為衡量問題復(fù)雜度的標(biāo)準(zhǔn),但這種方法混淆了機(jī)械執(zhí)行的復(fù)雜度與問題解決的難度。想象一下三種不同的任務(wù):建造一座高樓、解一道數(shù)學(xué)謎題、抄寫一本厚厚的字典。
建造高樓需要大量的材料和時(shí)間,但每一步的操作都相對(duì)簡(jiǎn)單和標(biāo)準(zhǔn)化,就像漢諾塔問題,雖然需要很多步驟,但每一步的決策都遵循簡(jiǎn)單的規(guī)則。解數(shù)學(xué)謎題可能只需要寫幾行字,但需要?jiǎng)?chuàng)造性思維和復(fù)雜推理,更像是過河問題,步驟少但每步都需要仔細(xì)思考。抄寫字典需要大量重復(fù)性工作,但不需要太多思考,類似于機(jī)械地執(zhí)行已知算法。
研究人員通過一個(gè)清晰的對(duì)比表格展示了這種差異。漢諾塔問題雖然需要指數(shù)級(jí)數(shù)量的移動(dòng)步驟,但在每一步的決策上幾乎不需要搜索,因?yàn)橄乱徊娇偸秋@而易見的。相比之下,過河問題雖然通常只需要幾十步,但每一步都需要在多個(gè)可能性中進(jìn)行選擇,這使它成為一個(gè)NP困難問題(一類計(jì)算復(fù)雜度很高的問題)。
這種理解幫助我們解釋了一個(gè)看似矛盾的現(xiàn)象:為什么AI模型能夠處理需要數(shù)百步操作的漢諾塔問題,卻可能在只需要幾步的過河問題上遇到困難。這不是因?yàn)槟P?不夠聰明",而是因?yàn)檫@兩類問題需要完全不同類型的認(rèn)知資源。
評(píng)估的藝術(shù):區(qū)分推理能力和打字能力
這場(chǎng)爭(zhēng)論的核心啟示可能是:我們需要重新思考如何評(píng)估人工智能的能力。傳統(tǒng)的評(píng)估方法往往過分關(guān)注輸出的完整性和形式的標(biāo)準(zhǔn)化,卻忽視了智能的本質(zhì)特征,理解、適應(yīng)和創(chuàng)新的能力。
當(dāng)我們?cè)u(píng)估一個(gè)人的音樂能力時(shí),會(huì)怎么做?我們可能會(huì)讓他演奏一首曲子,但如果他的鋼琴鍵盤突然壞了幾個(gè)鍵,我們不會(huì)因此認(rèn)為他不會(huì)音樂。相反,我們可能會(huì)提供其他樂器,或者讓他哼唱旋律。關(guān)鍵是要測(cè)試音樂理解和表達(dá)能力,而不是特定樂器的操作技巧。
同樣,當(dāng)評(píng)估AI的推理能力時(shí),我們應(yīng)該關(guān)注的是模型是否理解問題的本質(zhì),是否能夠制定有效的解決策略,而不是它是否能夠完美地執(zhí)行每一個(gè)微小的步驟。正如這項(xiàng)研究所顯示的,當(dāng)我們改變?cè)u(píng)估方式,要求模型展示算法理解而不是逐步執(zhí)行時(shí),它們的表現(xiàn)截然不同。
這種認(rèn)識(shí)對(duì)AI研究和應(yīng)用都有重要意義。在研究層面,它提醒我們?cè)O(shè)計(jì)評(píng)估實(shí)驗(yàn)時(shí)需要格外小心,確保測(cè)試的真正是我們想要測(cè)試的能力。在應(yīng)用層面,它建議我們應(yīng)該根據(jù)AI系統(tǒng)的特點(diǎn)來設(shè)計(jì)人機(jī)交互方式,而不是強(qiáng)制它們適應(yīng)為人類設(shè)計(jì)的交互模式。
研究人員為未來的工作提出了幾個(gè)重要建議。首先,設(shè)計(jì)能夠區(qū)分推理能力和輸出限制的評(píng)估方法。其次,在評(píng)估模型性能之前,需要驗(yàn)證問題本身是否可解。第三,使用反映計(jì)算難度而不僅僅是解決方案長度的復(fù)雜度指標(biāo)。最后,考慮多種解決方案表示形式,以區(qū)分算法理解和執(zhí)行能力。
更深層的反思:人工智能評(píng)估的未來
這場(chǎng)學(xué)術(shù)爭(zhēng)論背后反映的是一個(gè)更深層的問題:隨著AI系統(tǒng)變得越來越復(fù)雜和能干,我們的評(píng)估方法是否跟上了它們的發(fā)展步伐?
在AI發(fā)展的早期階段,評(píng)估相對(duì)簡(jiǎn)單,我們可以很容易地區(qū)分出能工作的系統(tǒng)和不能工作的系統(tǒng)。但現(xiàn)在的AI系統(tǒng)已經(jīng)展現(xiàn)出了某種形式的元認(rèn)知能力,它們能夠理解自己的限制,做出策略性選擇,甚至在某些情況下拒絕執(zhí)行不合理的任務(wù)。這種復(fù)雜性要求我們采用更加細(xì)致和人性化的評(píng)估方法。
傳統(tǒng)的基準(zhǔn)測(cè)試往往假設(shè)被測(cè)試的系統(tǒng)是被動(dòng)的,系統(tǒng)會(huì)機(jī)械地嘗試完成任何給定的任務(wù),無論任務(wù)是否合理。但現(xiàn)代AI系統(tǒng)更像是主動(dòng)的智能體,它們會(huì)評(píng)估任務(wù)的可行性,考慮資源限制,甚至質(zhì)疑任務(wù)的合理性。這種變化需要我們重新設(shè)計(jì)評(píng)估框架。
此外,這個(gè)案例還暴露了自動(dòng)化評(píng)估的局限性。雖然自動(dòng)化評(píng)估在處理大規(guī)模數(shù)據(jù)時(shí)非常有效,但它們往往缺乏理解上下文和識(shí)別微妙差異的能力。當(dāng)AI系統(tǒng)變得足夠復(fù)雜,能夠產(chǎn)生需要深度理解才能正確評(píng)估的輸出時(shí),純自動(dòng)化的評(píng)估就可能產(chǎn)生誤導(dǎo)性結(jié)果。
至頂AI實(shí)驗(yàn)室洞見
當(dāng)我們?cè)噲D評(píng)估智能時(shí),評(píng)估方法本身就是一門藝術(shù)。
當(dāng)我們看到關(guān)于AI失敗或突破的研究或者新聞時(shí),應(yīng)該深入了解測(cè)試條件和評(píng)估方法。就像在這個(gè)案例里,同樣的AI系統(tǒng)在不同的測(cè)試條件下可能表現(xiàn)截然不同。一個(gè)看似表明AI有重大缺陷的研究,可能實(shí)際上只是揭示了測(cè)試方法的問題。
無論是過分夸大AI的能力還是過分貶低它們,都可能基于不完整或有偏見的信息。真正理解AI的能力和局限需要仔細(xì)分析具體的測(cè)試場(chǎng)景和方法。
另外,我們需要理解AI系統(tǒng)的智能可能與人類智能有很大不同。人類在面對(duì)資源限制時(shí)會(huì)自然地采用簡(jiǎn)化策略,而早期的AI評(píng)估往往期望系統(tǒng)能夠在任何條件下都提供完整的答案。現(xiàn)代AI系統(tǒng)開始展現(xiàn)出類似人類的適應(yīng)性,這實(shí)際上是一個(gè)積極的發(fā)展,即使它可能在某些傳統(tǒng)測(cè)試中表現(xiàn)不佳。
就像那個(gè)紙張不夠用的比喻一樣,有時(shí)候看似的失敗實(shí)際上反映的是條件限制,而不是能力缺陷。當(dāng)AI系統(tǒng)說"為了避免回答過長,我就在這里停止"時(shí),它們展現(xiàn)的可能不是無能,而是一種智慧的自我認(rèn)知。
隨著AI系統(tǒng)變得越來越復(fù)雜,我們需要更加細(xì)致和人性化的方法來理解和評(píng)估它們。簡(jiǎn)單的對(duì)錯(cuò)判斷可能不再足夠,我們需要考慮上下文、意圖和策略選擇。
正如研究人員在結(jié)論中巧妙地總結(jié)的:"問題不在于大型推理模型能否推理,而在于我們的評(píng)估能否區(qū)分推理和打字。"
在AI快速發(fā)展的時(shí)代,保持開放、批判和細(xì)致的態(tài)度比以往任何時(shí)候都更重要。無論是研究人員、開發(fā)者還是普通用戶,我們都需要不斷更新我們理解和評(píng)估智能的方式,以跟上技術(shù)發(fā)展的步伐。
論文地址:https://www.arxiv.org/abs/2506.09250
本文來自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場(chǎng)景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&A
Q1. AI準(zhǔn)確率崩潰現(xiàn)象是什么?
A:Shojaee等人的研究發(fā)現(xiàn),大型推理模型(LRMs)在解決復(fù)雜規(guī)劃類問題(如漢諾塔游戲或過河問題)時(shí),當(dāng)問題復(fù)雜度超過一定閾值(如漢諾塔圓盤數(shù)量增加到一定程度),模型的準(zhǔn)確率會(huì)突然“崩潰”到零。這一現(xiàn)象被稱為“準(zhǔn)確率崩潰”,他們認(rèn)為這揭示了AI存在根本性的推理局限,類似于學(xué)生面對(duì)稍復(fù)雜的題目就完全不會(huì)做。
Q2. Lawson的論文如何反駁Shojaee等人研究的結(jié)論?
A:Lawson的論文《思維幻象的幻象:對(duì)Shojaee等人研究的評(píng)論》反駁道,AI的失敗并非能力缺陷,而是實(shí)驗(yàn)設(shè)計(jì)問題。具體來說,在Shojaee等人的測(cè)試中,AI模型(如Claude-3.7-Sonnet)實(shí)際上理解解題方法,但選擇不輸出所有步驟以避免過長響應(yīng)(如明確說“這個(gè)模式會(huì)繼續(xù)下去,但為了避免回答過長,我就在這里停止了”),這類似于學(xué)生因答題紙不夠而停止書寫。Lawson認(rèn)為,Shojaee等人的評(píng)估系統(tǒng)無法識(shí)別這種自我限制,導(dǎo)致誤判。
Q3. 應(yīng)該如何進(jìn)行AI推理能力評(píng)估?
A:研究人員提出了一種新評(píng)估方法:不再要求AI輸出完整步驟,而是讓模型編寫程序解決復(fù)雜問題(如要求AI生成Lua函數(shù)來解決15個(gè)圓盤的漢諾塔問題)。在這種方式下,同樣模型(包括Claude Opus 4、OpenAI o3和GoogleGemini2.5)表現(xiàn)出高準(zhǔn)確率,且生成的代碼簡(jiǎn)潔(不超過5000個(gè)token),證明AI理解算法本質(zhì)。這揭示了評(píng)估需區(qū)分“推理能力”和“輸出限制”,并考慮問題可行性(如避免測(cè)試無解任務(wù))。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.