相信使用過(guò) DeepSeek-R1 模型的人,對(duì)于它在給出答案之前的思考過(guò)程并不陌生,這也是包含 DeepSeek-R1 在內(nèi)的大型推理模型(LRM,Large Reasoning Model)備受推崇的原因之一。
然而,由蘋(píng)果公司六位研究人員組成的團(tuán)隊(duì)卻對(duì)此提出了質(zhì)疑。通過(guò)讓模型解答各種謎題,研究團(tuán)隊(duì)發(fā)現(xiàn) DeepSeek-R1、o3-mini 和 Claude-3.7-Sonnet-Thinking 這幾款前沿大型推理模型在超過(guò)某一復(fù)雜度閾值之后,它們的準(zhǔn)確率會(huì)出現(xiàn)全面崩潰。
(來(lái)源:https://ml-site.cdn-apple.com/papers/the-illusion)
值得注意的是,蘋(píng)果機(jī)器學(xué)習(xí)研究高級(jí)總監(jiān)薩米·本吉奧(Samy Bengio)是本次論文的共同作者。他不僅是圖靈獎(jiǎng)得主約書(shū)亞·本吉奧(Yoshua Bengio)的弟弟,還曾是 Google Brain 團(tuán)隊(duì)的首批成員之一。
(來(lái)源:資料圖)
X 上有一名網(wǎng)友總結(jié)稱(chēng),蘋(píng)果這是當(dāng)了一次加里·馬庫(kù)斯(Gary Marcus),其實(shí)加里·馬庫(kù)斯本人也在領(lǐng)英發(fā)帖肯定了蘋(píng)果這篇論文。他寫(xiě)道:“蘋(píng)果公司最新發(fā)表的關(guān)于大語(yǔ)言模型中‘推理’能力的論文頗具震撼力。我在一篇周末長(zhǎng)文中解釋了其中的原因(并探討了一種可能的反對(duì)意見(jiàn)),以說(shuō)明為何大家其實(shí)不應(yīng)感到太過(guò)驚訝。”
在加里·馬庫(kù)斯的“周末長(zhǎng)文”里他寫(xiě)道:“這篇蘋(píng)果公司的新論文進(jìn)一步佐證了我本人的批評(píng)觀點(diǎn):即便最新研發(fā)的所謂‘推理模型’已經(jīng)迭代超越 o1 版本,但在漢諾塔等經(jīng)典問(wèn)題上,它們依然無(wú)法實(shí)現(xiàn)分布外可靠推理。對(duì)于那些寄希望于‘推理能力’或‘推理時(shí)計(jì)算’能讓大語(yǔ)言模型重回正軌、擺脫單純規(guī)模擴(kuò)張卻屢屢失敗(始終無(wú)法產(chǎn)出配得上‘GPT-5’名號(hào)的技術(shù)突破)的研究者而言,這無(wú)疑是個(gè)壞消息。”
(來(lái)源:https://garymarcus.substack.com/p/a-knockout-blow)
那么,這到底是“壞消息”還是“好消息”,先從蘋(píng)果這篇論文的詳情說(shuō)起。
可以完成多達(dá) 100 個(gè)正確動(dòng)作,卻無(wú)法給出超過(guò) 5 步的正確操作
研究中,本次來(lái)自蘋(píng)果的研究團(tuán)隊(duì)發(fā)現(xiàn)了三種不同的推理模式:在低復(fù)雜度任務(wù)中,標(biāo)準(zhǔn)大語(yǔ)言模型的表現(xiàn)優(yōu)于大型推理模型;在中等復(fù)雜度任務(wù)中,大型推理模型表現(xiàn)更加出色;而在高復(fù)雜度任務(wù)中,兩類(lèi)模型均無(wú)法有效完成任務(wù)。
隨著問(wèn)題接近臨界復(fù)雜度,推理所需的努力反而出現(xiàn)了反直覺(jué)式的減少,這表明大型推理模型在計(jì)算規(guī)模的擴(kuò)展上可能存在一種固有上限。
研究團(tuán)隊(duì)表示,這些見(jiàn)解對(duì)有關(guān)大型推理模型能力的主流假設(shè)提出了挑戰(zhàn),并表明當(dāng)前方法可能在實(shí)現(xiàn)可泛化推理上存在根本性障礙。
最值得注意的是,研究團(tuán)隊(duì)觀察到了大型推理模型在執(zhí)行精確計(jì)算方面的局限性。例如,當(dāng)為模型提供數(shù)學(xué)益智游戲漢諾塔的求解算法時(shí),它們?cè)谶@個(gè)問(wèn)題上的性能并沒(méi)有提高。
此外,對(duì)模型首次失誤步驟的深入分析揭示了令人意外的行為模式。例如,模型可以在漢諾塔中完成多達(dá) 100 個(gè)正確的動(dòng)作,但在邏輯推理游戲渡河謎題中卻無(wú)法給出超過(guò) 5 步的正確操作。
總的來(lái)說(shuō),研究團(tuán)隊(duì)認(rèn)為這篇論文既凸顯了現(xiàn)有大型推理模型的優(yōu)勢(shì),也揭示了其局限性,主要研究結(jié)論有以下五個(gè):
其一,研究團(tuán)隊(duì)對(duì)當(dāng)前大型推理模型在既定數(shù)學(xué)基準(zhǔn)上的評(píng)估范式提出質(zhì)疑,并利用算法謎題環(huán)境設(shè)計(jì)了一個(gè)可控實(shí)驗(yàn)測(cè)試平臺(tái)。
其二,研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,即使是最先進(jìn)的大型推理模型(如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)也依然未能發(fā)展出可泛化的問(wèn)題解決能力。在不同環(huán)境中,當(dāng)問(wèn)題復(fù)雜度超過(guò)一定閾值時(shí),其準(zhǔn)確率最終會(huì)降至零。
其三,研究團(tuán)隊(duì)發(fā)現(xiàn)大型推理模型在推理能力上存在一個(gè)與問(wèn)題復(fù)雜度相關(guān)的擴(kuò)展極限,這一點(diǎn)可以從達(dá)到某個(gè)復(fù)雜度點(diǎn)后思維 token 數(shù)量呈現(xiàn)反直覺(jué)的下降趨勢(shì)中得到證實(shí)。
其四,研究團(tuán)隊(duì)對(duì)基于最終準(zhǔn)確率的當(dāng)前評(píng)估范式提出質(zhì)疑,分析顯示隨著問(wèn)題復(fù)雜度增加,與錯(cuò)誤解相比,正確解在推理過(guò)程中出現(xiàn)在更靠后的位置。
其五,研究團(tuán)隊(duì)揭示了大型推理模型在執(zhí)行精確計(jì)算能力方面的驚人局限,包括它們無(wú)法從顯式算法中獲益,以及在不同謎題類(lèi)型中推理的不一致性等。
大型推理模型的自我修正能力有限
據(jù)了解,大型推理模型——是由大語(yǔ)言模型衍生出專(zhuān)門(mén)針對(duì)推理任務(wù)優(yōu)化的新變體。
這些模型屬于新型技術(shù)產(chǎn)物,其核心特征在于獨(dú)特的“思維”機(jī)制,例如具備自我反思能力的思維鏈(CoT,Chain-of-Thought),并在多項(xiàng)推理基準(zhǔn)測(cè)試中展現(xiàn)出卓越性能。
這些模型的涌現(xiàn),標(biāo)志著大語(yǔ)言模型處理復(fù)雜推理與解決問(wèn)題的方式可能出現(xiàn)了范式轉(zhuǎn)變。有研究者認(rèn)為,這代表著向更通用的人工智能能力邁出了重要一步。
盡管已經(jīng)存在這些觀點(diǎn)和性能進(jìn)步,但大型推理模型的基本優(yōu)勢(shì)和局限性仍未得到充分理解。一個(gè)仍未得到解答的關(guān)鍵問(wèn)題是:這些大型推理模型是否具備泛化推理能力?還是它們只是在利用不同形式的模式匹配?
隨著問(wèn)題復(fù)雜度的增加,它們的性能會(huì)如何變化?在給定相同推理 token 計(jì)算預(yù)算的情況下,它們與不具備“思考”機(jī)制的標(biāo)準(zhǔn)大語(yǔ)言模型相比表現(xiàn)到底如何?
最重要的是,當(dāng)前推理方法的固有局限性是什么?要實(shí)現(xiàn)更強(qiáng)大的推理能力可能需要哪些改進(jìn)?
研究團(tuán)隊(duì)認(rèn)為,當(dāng)前評(píng)估范式的局限性導(dǎo)致人們?nèi)狈?duì)于這些問(wèn)題的系統(tǒng)性分析。現(xiàn)有評(píng)估主要側(cè)重于既定的數(shù)學(xué)基準(zhǔn)和編碼基準(zhǔn)。這些基準(zhǔn)固然具備一定價(jià)值,但是往往存在數(shù)據(jù)污染問(wèn)題,而且無(wú)法在不同場(chǎng)景和復(fù)雜度下提供可控的實(shí)驗(yàn)條件。
為了更嚴(yán)格地理解這些模型的推理行為,研究團(tuán)隊(duì)認(rèn)為需要一個(gè)能夠進(jìn)行受控實(shí)驗(yàn)的環(huán)境。
為此,他們并沒(méi)有采用類(lèi)似于數(shù)學(xué)題這樣的標(biāo)準(zhǔn)基準(zhǔn),而是采用了可控的謎題環(huán)境,即通過(guò)在保留核心邏輯的同時(shí)調(diào)整謎題元素,以便能夠系統(tǒng)地改變復(fù)雜度,并能檢查解決方案過(guò)程和內(nèi)部推理過(guò)程。
(來(lái)源:資料圖)
這些謎題具有以下特點(diǎn):
(1)能夠提供對(duì)于復(fù)雜度的精細(xì)控制;
(2)避免現(xiàn)有基準(zhǔn)中常見(jiàn)的污染;
(3)僅需依賴(lài)明確給定的規(guī)則,強(qiáng)調(diào)算法化推理能力;
(4)支持基于模擬器的嚴(yán)格評(píng)估,能夠?qū)崿F(xiàn)精確的解決方案檢查和詳細(xì)的故障分析。
通過(guò)實(shí)證研究,他們揭示了關(guān)于當(dāng)前大型推理模型的幾個(gè)關(guān)鍵發(fā)現(xiàn):
首先,盡管大型推理模型通過(guò)強(qiáng)化學(xué)習(xí)能夠?qū)W習(xí)復(fù)雜的自我反思機(jī)制,但它們未能為規(guī)劃任務(wù)開(kāi)發(fā)出可泛化的問(wèn)題解決能力,在超過(guò)一定的復(fù)雜度閾值后,性能會(huì)降至零。
其次,研究團(tuán)隊(duì)在等效推理計(jì)算下對(duì)大型推理模型和標(biāo)準(zhǔn)大模型的比較揭示了三種不同的推理機(jī)制。
第一種機(jī)制是:對(duì)于更簡(jiǎn)單、組合性較低的問(wèn)題,標(biāo)準(zhǔn)大模型表現(xiàn)出更高的效率和準(zhǔn)確性。
第二種機(jī)制是:隨著問(wèn)題復(fù)雜度的適度增加,大型推理模型獲得了優(yōu)勢(shì)。
第三種機(jī)制是:當(dāng)問(wèn)題隨著組合深度的增加而變得復(fù)雜時(shí),兩類(lèi)模型都經(jīng)歷了徹頭徹尾的性能崩潰。
(來(lái)源:資料圖)
值得注意的是,在接近這一失效臨界點(diǎn)時(shí),盡管大型推理模型的運(yùn)行遠(yuǎn)未達(dá)到生成長(zhǎng)度限制,但隨著問(wèn)題復(fù)雜度的增加,它們開(kāi)始減少推理投入(以推理時(shí)的 tokens 數(shù)量衡量)。
(來(lái)源:資料圖)
這表明,大型推理模型的推理能力存在一個(gè)根本性限制:其推理時(shí)間會(huì)隨著問(wèn)題復(fù)雜度的增長(zhǎng)而顯著增加。
此外,通過(guò)對(duì)中間推理軌跡的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)了與問(wèn)題復(fù)雜度相關(guān)的規(guī)律性現(xiàn)象,即在較簡(jiǎn)單的問(wèn)題中,推理模型往往能快速找到正確解,但卻仍會(huì)低效地繼續(xù)探索錯(cuò)誤選項(xiàng),這種現(xiàn)象便是人們常說(shuō)的“過(guò)度思考”。
在中等復(fù)雜度的問(wèn)題中,模型需要經(jīng)過(guò)對(duì)大量錯(cuò)誤路徑的廣泛探索后,才能找到正確解。而超過(guò)一定的復(fù)雜度閾值,模型完全無(wú)法找到正確解。
北京郵電大學(xué)副教授白婷告訴 DeepTech,跟人類(lèi)思維方式相近,對(duì)于復(fù)雜問(wèn)題,雖然不知道什么是正確的答案,但是很多時(shí)候知道什么是不正確的。具體而言,這跟求解空間大小有關(guān)系,簡(jiǎn)單問(wèn)題的求解空間因邏輯鏈條簡(jiǎn)短、特征匹配度高,正確解往往天然處于思維路徑的前端,而復(fù)雜問(wèn)題的解空間因涉及多維度變量耦合、邏輯層級(jí)嵌套而呈現(xiàn)指數(shù)級(jí)膨脹,求解空間龐大,客觀上表現(xiàn)為思維序列中的相對(duì)后置性。
(來(lái)源:資料圖)
推理模型的“思維”內(nèi)部發(fā)生了什么?
研究中,大多數(shù)實(shí)驗(yàn)都是在推理模型及對(duì)應(yīng)的非推理模型上進(jìn)行的,例如 Claude 3.7 Sonnet(有推理/無(wú)推理)和 DeepSeek-R1/V3。研究團(tuán)隊(duì)選擇這些模型是因?yàn)榕c OpenAI 的 o 系列等模型不同的是,它們?cè)试S訪問(wèn)思維 token。
對(duì)于每個(gè)謎題實(shí)例,研究團(tuán)隊(duì)生成 25 個(gè)樣本,并報(bào)告了每個(gè)模型的平均性能。
為了更深入地了解推理模型的思考過(guò)程,研究團(tuán)隊(duì)對(duì)它們的推理痕跡進(jìn)行了細(xì)致的分析。
期間,他們通過(guò)謎題實(shí)驗(yàn)環(huán)境的構(gòu)建,實(shí)現(xiàn)了對(duì)模型最終答案之外的深度解析,從而能夠?qū)ζ渖傻耐评碥壽E(即“思考過(guò)程”)進(jìn)行更精細(xì)的觀測(cè)與分析。
具體來(lái)說(shuō),他們借助謎題模擬器,對(duì)模型思維過(guò)程中探索的中間解進(jìn)行了提取與分析。
隨后,他們考察了這些中解的模式和特征、相對(duì)于推理過(guò)程中順序位置的正確性,以及這些模式如何隨著問(wèn)題復(fù)雜度的增加而演變。
對(duì)于這一分析,研究團(tuán)隊(duì)重點(diǎn)關(guān)注了 Claude 3.7 Sonnet 推理模型在謎題組實(shí)驗(yàn)中產(chǎn)生的推理痕跡。
對(duì)于痕跡中確定的每個(gè)中間解法,研究團(tuán)隊(duì)記錄了以下內(nèi)容:(1)其在推理軌跡中的相對(duì)位置(按總思維長(zhǎng)度歸一化),(2)經(jīng)研究團(tuán)隊(duì)的謎題模擬器驗(yàn)證的其正確性,(3)相應(yīng)問(wèn)題的復(fù)雜度。
這使得研究團(tuán)隊(duì)能夠描述整個(gè)推理過(guò)程中解決方案形成的進(jìn)展和準(zhǔn)確性。
(來(lái)源:資料圖)
研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于更簡(jiǎn)單的問(wèn)題,推理模型通常會(huì)在思考早期找到正確解,但隨后會(huì)繼續(xù)探索不正確的解決方法。
與正確解(綠色)相比,錯(cuò)誤解(紅色)的分布明顯向思維鏈末端偏移。隨著問(wèn)題復(fù)雜程度適度增加,這一趨勢(shì)發(fā)生逆轉(zhuǎn):模型首先探索錯(cuò)誤解,且大多在思考后期才得出正確解。這一次,與正確解(綠色)相比,錯(cuò)誤解(紅色)的分布更向下偏移。
最后,對(duì)于復(fù)雜度更高的問(wèn)題,模型開(kāi)始出現(xiàn)崩潰現(xiàn)象,這意味著模型在思考過(guò)程中無(wú)法生成任何正確解。
下圖呈現(xiàn)了在漢諾塔環(huán)境中,對(duì)思維序列分段(區(qū)間)內(nèi)解的準(zhǔn)確性進(jìn)行的補(bǔ)充分析。
(來(lái)源:資料圖)
可以觀察到,對(duì)于較簡(jiǎn)單的問(wèn)題(較小的 N 值),隨著思考的推進(jìn),解決方案的準(zhǔn)確性往往會(huì)下降或波動(dòng),這為過(guò)度思考現(xiàn)象提供了進(jìn)一步的證據(jù)。
然而,對(duì)于更復(fù)雜的問(wèn)題,這一趨勢(shì)會(huì)發(fā)生變化——解決方案的準(zhǔn)確性會(huì)隨著思考的推進(jìn)而提高,直至達(dá)到某個(gè)閾值。超過(guò)這個(gè)復(fù)雜度閾值,在“崩潰模式”下,模型的準(zhǔn)確率為零。
白婷告訴DeepTech,模型在復(fù)雜問(wèn)題中需要多次推理,在一直沒(méi)有正確解的前提下,模型推理機(jī)制中有可能采用了多次迭代推理生成效率優(yōu)化策略,或許是防止迭代過(guò)多的一種資源保護(hù)策略。因此,本次論文中的發(fā)現(xiàn)需要從模型實(shí)現(xiàn)層面去進(jìn)行細(xì)致的分析和驗(yàn)證。
白婷指出,大模型的推理過(guò)程本質(zhì)上是記憶模式的調(diào)用也是有可能的。 對(duì)于 DeepSeek-R1、o3-mini 這類(lèi)模型,其表現(xiàn)高度依賴(lài)訓(xùn)練數(shù)據(jù)中記憶模式的覆蓋范圍,當(dāng)問(wèn)題復(fù)雜度突破記憶模式的覆蓋閾值(如本次蘋(píng)果研究團(tuán)隊(duì)設(shè)計(jì)的可控謎題環(huán)境),模型便陷入 “零準(zhǔn)確率” 狀態(tài)。
雖然本次謎題環(huán)境允許對(duì)問(wèn)題復(fù)雜度進(jìn)行細(xì)粒度控制的受控實(shí)驗(yàn),但它們僅代表推理任務(wù)的一小部分,可能無(wú)法捕捉到現(xiàn)實(shí)世界或知識(shí)密集型推理問(wèn)題的多樣性。
需要指出的是,本研究主要基于黑箱 API 訪問(wèn)封閉的前沿大推理模型,這一限制使研究團(tuán)隊(duì)無(wú)法分析其內(nèi)部狀態(tài)或架構(gòu)組件。
此外,使用確定性謎題模擬器時(shí),研究團(tuán)隊(duì)假設(shè)推理可以一步一步地得到完美驗(yàn)證。然而,在結(jié)構(gòu)化程度較低的領(lǐng)域,這種精確的驗(yàn)證可能難以實(shí)現(xiàn),從而限制了該分析方法向更廣泛推理場(chǎng)景的遷移。
總的來(lái)說(shuō),研究團(tuán)隊(duì)通過(guò)可控的解謎環(huán)境,從問(wèn)題復(fù)雜度的角度考察了前沿大型推理模型。這一成果揭示了當(dāng)前模型的局限性:即盡管它們擁有復(fù)雜的自我反思機(jī)制,但這些模型在超過(guò)特定復(fù)雜度閾值后,仍然無(wú)法發(fā)展出可泛化的推理能力。研究團(tuán)隊(duì)認(rèn)為,本次成果或許能為研究這些模型的推理能力鋪平道路。
參考資料:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.