99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

蘋果分析R1遇到復雜度閾值后準確率崩潰問題,Gary Marcus聲援

0
分享至

相信使用過 DeepSeek-R1 模型的人,對于它在給出答案之前的思考過程并不陌生,這也是包含 DeepSeek-R1 在內的大型推理模型(LRM,Large Reasoning Model)備受推崇的原因之一。

然而,由蘋果公司六位研究人員組成的團隊卻對此提出了質疑。通過讓模型解答各種謎題,研究團隊發(fā)現(xiàn) DeepSeek-R1、o3-mini 和 Claude-3.7-Sonnet-Thinking 這幾款前沿大型推理模型在超過某一復雜度閾值之后,它們的準確率會出現(xiàn)全面崩潰。


(來源:https://ml-site.cdn-apple.com/papers/the-illusion)

值得注意的是,蘋果機器學習研究高級總監(jiān)薩米·本吉奧(Samy Bengio)是本次論文的共同作者。他不僅是圖靈獎得主約書亞·本吉奧(Yoshua Bengio)的弟弟,還曾是 Google Brain 團隊的首批成員之一。


(來源:資料圖)

X 上有一名網(wǎng)友總結稱,蘋果這是當了一次加里·馬庫斯(Gary Marcus),其實加里·馬庫斯本人也在領英發(fā)帖肯定了蘋果這篇論文。他寫道:“蘋果公司最新發(fā)表的關于大語言模型中‘推理’能力的論文頗具震撼力。我在一篇周末長文中解釋了其中的原因(并探討了一種可能的反對意見),以說明為何大家其實不應感到太過驚訝。”

在加里·馬庫斯的“周末長文”里他寫道:“這篇蘋果公司的新論文進一步佐證了我本人的批評觀點:即便最新研發(fā)的所謂‘推理模型’已經(jīng)迭代超越 o1 版本,但在漢諾塔等經(jīng)典問題上,它們依然無法實現(xiàn)分布外可靠推理。對于那些寄希望于‘推理能力’或‘推理時計算’能讓大語言模型重回正軌、擺脫單純規(guī)模擴張卻屢屢失敗(始終無法產出配得上‘GPT-5’名號的技術突破)的研究者而言,這無疑是個壞消息。”


(來源:https://garymarcus.substack.com/p/a-knockout-blow)

那么,這到底是“壞消息”還是“好消息”,先從蘋果這篇論文的詳情說起。



可以完成多達 100 個正確動作,卻無法給出超過 5 步的正確操作

研究中,本次來自蘋果的研究團隊發(fā)現(xiàn)了三種不同的推理模式:在低復雜度任務中,標準大語言模型的表現(xiàn)優(yōu)于大型推理模型;在中等復雜度任務中,大型推理模型表現(xiàn)更加出色;而在高復雜度任務中,兩類模型均無法有效完成任務。

隨著問題接近臨界復雜度,推理所需的努力反而出現(xiàn)了反直覺式的減少,這表明大型推理模型在計算規(guī)模的擴展上可能存在一種固有上限。

研究團隊表示,這些見解對有關大型推理模型能力的主流假設提出了挑戰(zhàn),并表明當前方法可能在實現(xiàn)可泛化推理上存在根本性障礙。

最值得注意的是,研究團隊觀察到了大型推理模型在執(zhí)行精確計算方面的局限性。例如,當為模型提供數(shù)學益智游戲漢諾塔的求解算法時,它們在這個問題上的性能并沒有提高。

此外,對模型首次失誤步驟的深入分析揭示了令人意外的行為模式。例如,模型可以在漢諾塔中完成多達 100 個正確的動作,但在邏輯推理游戲渡河謎題中卻無法給出超過 5 步的正確操作。

總的來說,研究團隊認為這篇論文既凸顯了現(xiàn)有大型推理模型的優(yōu)勢,也揭示了其局限性,主要研究結論有以下五個:

其一,研究團隊對當前大型推理模型在既定數(shù)學基準上的評估范式提出質疑,并利用算法謎題環(huán)境設計了一個可控實驗測試平臺。

其二,研究團隊的實驗表明,即使是最先進的大型推理模型(如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)也依然未能發(fā)展出可泛化的問題解決能力。在不同環(huán)境中,當問題復雜度超過一定閾值時,其準確率最終會降至零。

其三,研究團隊發(fā)現(xiàn)大型推理模型在推理能力上存在一個與問題復雜度相關的擴展極限,這一點可以從達到某個復雜度點后思維 token 數(shù)量呈現(xiàn)反直覺的下降趨勢中得到證實。

其四,研究團隊對基于最終準確率的當前評估范式提出質疑,分析顯示隨著問題復雜度增加,與錯誤解相比,正確解在推理過程中出現(xiàn)在更靠后的位置。

其五,研究團隊揭示了大型推理模型在執(zhí)行精確計算能力方面的驚人局限,包括它們無法從顯式算法中獲益,以及在不同謎題類型中推理的不一致性等。



大型推理模型的自我修正能力有限

據(jù)了解,大型推理模型——是由大語言模型衍生出專門針對推理任務優(yōu)化的新變體。

這些模型屬于新型技術產物,其核心特征在于獨特的“思維”機制,例如具備自我反思能力的思維鏈(CoT,Chain-of-Thought),并在多項推理基準測試中展現(xiàn)出卓越性能。

這些模型的涌現(xiàn),標志著大語言模型處理復雜推理與解決問題的方式可能出現(xiàn)了范式轉變。有研究者認為,這代表著向更通用的人工智能能力邁出了重要一步。

盡管已經(jīng)存在這些觀點和性能進步,但大型推理模型的基本優(yōu)勢和局限性仍未得到充分理解。一個仍未得到解答的關鍵問題是:這些大型推理模型是否具備泛化推理能力?還是它們只是在利用不同形式的模式匹配?

隨著問題復雜度的增加,它們的性能會如何變化?在給定相同推理 token 計算預算的情況下,它們與不具備“思考”機制的標準大語言模型相比表現(xiàn)到底如何?

最重要的是,當前推理方法的固有局限性是什么?要實現(xiàn)更強大的推理能力可能需要哪些改進?

研究團隊認為,當前評估范式的局限性導致人們缺乏對于這些問題的系統(tǒng)性分析。現(xiàn)有評估主要側重于既定的數(shù)學基準和編碼基準。這些基準固然具備一定價值,但是往往存在數(shù)據(jù)污染問題,而且無法在不同場景和復雜度下提供可控的實驗條件。

為了更嚴格地理解這些模型的推理行為,研究團隊認為需要一個能夠進行受控實驗的環(huán)境。

為此,他們并沒有采用類似于數(shù)學題這樣的標準基準,而是采用了可控的謎題環(huán)境,即通過在保留核心邏輯的同時調整謎題元素,以便能夠系統(tǒng)地改變復雜度,并能檢查解決方案過程和內部推理過程。


(來源:資料圖)

這些謎題具有以下特點:

(1)能夠提供對于復雜度的精細控制;

(2)避免現(xiàn)有基準中常見的污染;

(3)僅需依賴明確給定的規(guī)則,強調算法化推理能力;

(4)支持基于模擬器的嚴格評估,能夠實現(xiàn)精確的解決方案檢查和詳細的故障分析。

通過實證研究,他們揭示了關于當前大型推理模型的幾個關鍵發(fā)現(xiàn):

首先,盡管大型推理模型通過強化學習能夠學習復雜的自我反思機制,但它們未能為規(guī)劃任務開發(fā)出可泛化的問題解決能力,在超過一定的復雜度閾值后,性能會降至零。

其次,研究團隊在等效推理計算下對大型推理模型和標準大模型的比較揭示了三種不同的推理機制。

第一種機制是:對于更簡單、組合性較低的問題,標準大模型表現(xiàn)出更高的效率和準確性。

第二種機制是:隨著問題復雜度的適度增加,大型推理模型獲得了優(yōu)勢。

第三種機制是:當問題隨著組合深度的增加而變得復雜時,兩類模型都經(jīng)歷了徹頭徹尾的性能崩潰。


(來源:資料圖)

值得注意的是,在接近這一失效臨界點時,盡管大型推理模型的運行遠未達到生成長度限制,但隨著問題復雜度的增加,它們開始減少推理投入(以推理時的 tokens 數(shù)量衡量)。


(來源:資料圖)

這表明,大型推理模型的推理能力存在一個根本性限制:其推理時間會隨著問題復雜度的增長而顯著增加。

此外,通過對中間推理軌跡的分析,研究團隊發(fā)現(xiàn)了與問題復雜度相關的規(guī)律性現(xiàn)象,即在較簡單的問題中,推理模型往往能快速找到正確解,但卻仍會低效地繼續(xù)探索錯誤選項,這種現(xiàn)象便是人們常說的“過度思考”。

在中等復雜度的問題中,模型需要經(jīng)過對大量錯誤路徑的廣泛探索后,才能找到正確解。而超過一定的復雜度閾值,模型完全無法找到正確解。

北京郵電大學副教授白婷告訴 DeepTech,跟人類思維方式相近,對于復雜問題,雖然不知道什么是正確的答案,但是很多時候知道什么是不正確的。具體而言,這跟求解空間大小有關系,簡單問題的求解空間因邏輯鏈條簡短、特征匹配度高,正確解往往天然處于思維路徑的前端,而復雜問題的解空間因涉及多維度變量耦合、邏輯層級嵌套而呈現(xiàn)指數(shù)級膨脹,求解空間龐大,客觀上表現(xiàn)為思維序列中的相對后置性。


(來源:資料圖)



推理模型的“思維”內部發(fā)生了什么?

研究中,大多數(shù)實驗都是在推理模型及對應的非推理模型上進行的,例如 Claude 3.7 Sonnet(有推理/無推理)和 DeepSeek-R1/V3。研究團隊選擇這些模型是因為與 OpenAI 的 o 系列等模型不同的是,它們允許訪問思維 token。

對于每個謎題實例,研究團隊生成 25 個樣本,并報告了每個模型的平均性能。

為了更深入地了解推理模型的思考過程,研究團隊對它們的推理痕跡進行了細致的分析。

期間,他們通過謎題實驗環(huán)境的構建,實現(xiàn)了對模型最終答案之外的深度解析,從而能夠對其生成的推理軌跡(即“思考過程”)進行更精細的觀測與分析。

具體來說,他們借助謎題模擬器,對模型思維過程中探索的中間解進行了提取與分析。

隨后,他們考察了這些中解的模式和特征、相對于推理過程中順序位置的正確性,以及這些模式如何隨著問題復雜度的增加而演變。

對于這一分析,研究團隊重點關注了 Claude 3.7 Sonnet 推理模型在謎題組實驗中產生的推理痕跡。

對于痕跡中確定的每個中間解法,研究團隊記錄了以下內容:(1)其在推理軌跡中的相對位置(按總思維長度歸一化),(2)經(jīng)研究團隊的謎題模擬器驗證的其正確性,(3)相應問題的復雜度。

這使得研究團隊能夠描述整個推理過程中解決方案形成的進展和準確性。


(來源:資料圖)

研究團隊發(fā)現(xiàn),對于更簡單的問題,推理模型通常會在思考早期找到正確解,但隨后會繼續(xù)探索不正確的解決方法。

與正確解(綠色)相比,錯誤解(紅色)的分布明顯向思維鏈末端偏移。隨著問題復雜程度適度增加,這一趨勢發(fā)生逆轉:模型首先探索錯誤解,且大多在思考后期才得出正確解。這一次,與正確解(綠色)相比,錯誤解(紅色)的分布更向下偏移。

最后,對于復雜度更高的問題,模型開始出現(xiàn)崩潰現(xiàn)象,這意味著模型在思考過程中無法生成任何正確解。

下圖呈現(xiàn)了在漢諾塔環(huán)境中,對思維序列分段(區(qū)間)內解的準確性進行的補充分析。


(來源:資料圖)

可以觀察到,對于較簡單的問題(較小的 N 值),隨著思考的推進,解決方案的準確性往往會下降或波動,這為過度思考現(xiàn)象提供了進一步的證據(jù)。

然而,對于更復雜的問題,這一趨勢會發(fā)生變化——解決方案的準確性會隨著思考的推進而提高,直至達到某個閾值。超過這個復雜度閾值,在“崩潰模式”下,模型的準確率為零。

白婷告訴DeepTech,模型在復雜問題中需要多次推理,在一直沒有正確解的前提下,模型推理機制中有可能采用了多次迭代推理生成效率優(yōu)化策略,或許是防止迭代過多的一種資源保護策略。因此,本次論文中的發(fā)現(xiàn)需要從模型實現(xiàn)層面去進行細致的分析和驗證。

白婷指出,大模型的推理過程本質上是記憶模式的調用也是有可能的。 對于 DeepSeek-R1、o3-mini 這類模型,其表現(xiàn)高度依賴訓練數(shù)據(jù)中記憶模式的覆蓋范圍,當問題復雜度突破記憶模式的覆蓋閾值(如本次蘋果研究團隊設計的可控謎題環(huán)境),模型便陷入 “零準確率” 狀態(tài)。

雖然本次謎題環(huán)境允許對問題復雜度進行細粒度控制的受控實驗,但它們僅代表推理任務的一小部分,可能無法捕捉到現(xiàn)實世界或知識密集型推理問題的多樣性。

需要指出的是,本研究主要基于黑箱 API 訪問封閉的前沿大推理模型,這一限制使研究團隊無法分析其內部狀態(tài)或架構組件。

此外,使用確定性謎題模擬器時,研究團隊假設推理可以一步一步地得到完美驗證。然而,在結構化程度較低的領域,這種精確的驗證可能難以實現(xiàn),從而限制了該分析方法向更廣泛推理場景的遷移。

總的來說,研究團隊通過可控的解謎環(huán)境,從問題復雜度的角度考察了前沿大型推理模型。這一成果揭示了當前模型的局限性:即盡管它們擁有復雜的自我反思機制,但這些模型在超過特定復雜度閾值后,仍然無法發(fā)展出可泛化的推理能力。研究團隊認為,本次成果或許能為研究這些模型的推理能力鋪平道路。

參考資料:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
母親過度溺愛兒子,洗澡時兒子突然情緒激動:媽媽我要你永遠愛我

母親過度溺愛兒子,洗澡時兒子突然情緒激動:媽媽我要你永遠愛我

罪案洞察者
2025-04-11 09:20:55
典型案例 | 內蒙古自治區(qū)通遼市毀林毀草問題嚴重

典型案例 | 內蒙古自治區(qū)通遼市毀林毀草問題嚴重

生態(tài)環(huán)境部
2025-06-16 10:14:04
心理學:盡量不要跟身邊任何人,包括你的父母妻兒,分享這4件事

心理學:盡量不要跟身邊任何人,包括你的父母妻兒,分享這4件事

東林夕亭
2025-06-15 11:32:22
女子花50元網(wǎng)購一只鸚鵡,收貨后,女子和6歲兒子的身體出現(xiàn)異常

女子花50元網(wǎng)購一只鸚鵡,收貨后,女子和6歲兒子的身體出現(xiàn)異常

南權先生
2025-06-16 12:09:14
“球迷文化”不能成為辱罵挑釁的幌子 | 新京報快評

“球迷文化”不能成為辱罵挑釁的幌子 | 新京報快評

新京報
2025-06-16 17:09:02
大局已定!臺當局收回“兩國論”,統(tǒng)一或許就不用解放軍動手

大局已定!臺當局收回“兩國論”,統(tǒng)一或許就不用解放軍動手

關注財事
2025-06-15 11:08:12
老虎沖出馬戲團后叼走女童,擊斃后眾人掀開布:女童模樣卻大變樣

老虎沖出馬戲團后叼走女童,擊斃后眾人掀開布:女童模樣卻大變樣

嘉琪Feel
2025-06-16 04:46:02
能突能傳能組織!五星巴西新10號異軍突起,安切洛蒂和曼聯(lián)撿到寶

能突能傳能組織!五星巴西新10號異軍突起,安切洛蒂和曼聯(lián)撿到寶

體壇知道分子
2025-06-16 09:33:41
梅西點球失手,邁阿密國際0-0戰(zhàn)平非洲強隊

梅西點球失手,邁阿密國際0-0戰(zhàn)平非洲強隊

人間販夢者
2025-06-16 10:48:05
網(wǎng)傳女子家電費一年40多萬,網(wǎng)友:就說全球變暖賴不上窮人!

網(wǎng)傳女子家電費一年40多萬,網(wǎng)友:就說全球變暖賴不上窮人!

筆尖下的人生
2025-06-15 16:54:43
浙江錢老板52萬婚席賴賬后續(xù)!身份曝光!網(wǎng)友爆料:居然是慣犯?

浙江錢老板52萬婚席賴賬后續(xù)!身份曝光!網(wǎng)友爆料:居然是慣犯?

小嵩
2025-06-16 09:15:20
這才是“卡脖子”的大殺器!中國不賣了,價格立馬暴漲超300%

這才是“卡脖子”的大殺器!中國不賣了,價格立馬暴漲超300%

科技處長
2025-06-15 14:47:02
灰熊拆隊重建,湖人四換一,拿下賈倫杰克遜,輔佐盧卡和勒布朗

灰熊拆隊重建,湖人四換一,拿下賈倫杰克遜,輔佐盧卡和勒布朗

阿雄侃籃球
2025-06-16 15:21:05
被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現(xiàn)被炒到大幾萬

被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現(xiàn)被炒到大幾萬

小娛樂悠悠
2025-06-15 22:13:54
明確規(guī)定了!機關事業(yè)單位人員可從事這些副業(yè),無需擔心紀委查核

明確規(guī)定了!機關事業(yè)單位人員可從事這些副業(yè),無需擔心紀委查核

拾遺補闕
2025-05-28 09:46:41
一男子中7000萬大獎,5天后兌獎被索要證明文件,瞬間傻眼

一男子中7000萬大獎,5天后兌獎被索要證明文件,瞬間傻眼

蘭姐說故事
2025-06-07 10:00:14
日企加速撤離中國?在中國日本人學校學生人數(shù)5年來首次下降

日企加速撤離中國?在中國日本人學校學生人數(shù)5年來首次下降

隨波蕩漾的漂流瓶
2025-06-16 16:32:53
70歲老年人低密度脂蛋白3.9,需要吃他汀嗎?一文說清

70歲老年人低密度脂蛋白3.9,需要吃他汀嗎?一文說清

李藥師談健康
2025-06-16 13:21:23
四川宜賓發(fā)生地震

四川宜賓發(fā)生地震

中國基金報
2025-06-15 19:15:35
上個月,青島廣州兩法院的好心,為啥翻了車?

上個月,青島廣州兩法院的好心,為啥翻了車?

中央路知事
2025-06-16 16:10:51
2025-06-16 17:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15298文章數(shù) 513785關注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

以發(fā)動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

頭條要聞

以發(fā)動"最遠"打擊 夸耀擊落2300公里外伊朗空中加油機

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經(jīng)要聞

消費還是得靠00后

汽車要聞

智己LS7煥新版32.99萬正式上市 這次升級很大

態(tài)度原創(chuàng)

房產
教育
時尚
健康
家居

房產要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

教育要聞

第三屆成都中考多途徑升學教育展:三位專家支招 破解升學難題

最顯腿細的西裝短褲,這么穿更有女人味!

呼吸科專家破解呼吸道九大謠言!

家居要聞

遠行而歸 臺式極簡布局

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 碌曲县| 宜川县| 吉首市| 友谊县| 长宁区| 青岛市| 隆子县| 濉溪县| 商洛市| 饶河县| SHOW| 大宁县| 郸城县| 蕲春县| 阳春市| 永州市| 奉新县| 桦甸市| 微博| 张家界市| 庐江县| 嘉定区| 边坝县| 永福县| 怀远县| 朝阳区| 兴文县| 宁津县| 永清县| 龙陵县| 黄山市| 金川县| 德清县| 尼勒克县| 普安县| 瑞金市| 永和县| 莱芜市| 奇台县| 平邑县| 盐源县|