99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等“推理”模型根本沒有推理能力

0
分享至


最新重磅研究:蘋果并不認為推理模型比標準 LLM有重大突破

最新研究《思考的幻覺:通過問題復雜性視角理解推理模型的優勢與局限》中,蘋果對“大型語言模型已經具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設提出了質疑。蘋果公司的研究人員看到的并非認知領域的突破,而是一種幻覺:這些模型僅僅創造了思考的印象,而實際上并沒有穩定、可理解的思維過程


這篇研究批評的核心點是:當前最前沿的推理模型,在面對真正復雜的問題時,其推理能力會“斷崖式”崩潰,并且暴露出一種反直覺的“思考退化”現象,甚至連“照著算法抄作業”都做不好

現有評測方法的“陷阱”:為何需要新的實驗場?

目前,評估AI推理能力主要依賴于數學(如MATH、AIME)和編程等基準測試。然而,研究人員指出,這種方法存在兩大弊端:

數據污染(Data Contamination):這些基準測試的題目和答案很可能已經大量存在于模型的訓練數據中。模型可能只是“記住”了答案,而非真正“推理”出答案。論文中的數據顯示,模型在更新的AIME25數據集上的表現反而不如更早的AIME24,這與人類表現恰恰相反,強烈暗示了數據污染對評測結果的干擾

缺乏對“思考過程”的洞察:最終答案的正確與否,無法告訴我們模型是如何思考的,其思維鏈是高效、嚴謹還是充滿了冗余和錯誤

為了擺脫這些“陷阱”,蘋果的研究團隊轉向了一個更“純凈”的實驗場——可控的解謎環境

精巧的實驗設計:在“謎題”中量化AI的思考能力

研究團隊選取了四個經典的、邏輯結構穩定但復雜度可控的謎題:

漢諾塔(Tower of Hanoi):測試遞歸和規劃能力

跳棋(Checker Jumping):測試序列規劃

過河問題(River Crossing):測試約束滿足和規劃能力

積木世界(Blocks World):測試規劃和狀態管理

通過改變謎題的參數(如漢諾塔的盤子數量、過河問題的人數),研究人員可以精確地控制問題的組合復雜度,同時利用模擬器驗證模型生成的每一步操作是否合規,從而深入剖析其完整的“思考軌跡”

如圖示意:研究人員不僅評估最終答案,還提取并分析模型在 標簽內的中間步驟,以洞察其思維過程


核心發現

通過對一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對應的非思考版本)的詳盡測試,研究得到了幾個顛覆性的發現:

發現一:性能的三種“境界”——“思考”并非總是更優

當比較“思考”模型(LRM)和其標準LLM版本時,研究人員發現了三個截然不同的性能區間:

低復雜度區:對于簡單問題,標準模型反而更準確、更高效。LRM的“思考”顯得多余和累贅

中等復雜度區:隨著問題變難,LRM生成長思維鏈的優勢開始顯現,其性能超越標準模型

高復雜度區:當問題復雜度超過某個臨界點,兩種模型雙雙“崩潰”,準確率降至零。這表明,“思考”機制只是延緩了失敗的到來,并未解決根本性的能力瓶頸

如圖5所示:在低、中、高三種復雜度下,思考模型與非思考模型的性能對比,清晰地展示了三個不同區間的表現


發現二:“思考”的崩潰點與反直覺的“努力退化”

這是整篇論文最令人震驚的發現之一。研究顯示:

準確率斷崖式下跌:所有受測的LRM,在問題復雜度達到某個閾值后,準確率都會急劇下降至零

反直覺的“思考退化”:更奇怪的是,在接近這個“崩潰點”時,模型用于思考的計算量(即生成的思考token數量)非但沒有因問題變難而增加,反而開始顯著減少

如圖示意:隨著復雜度增加(橫軸),模型準確率(上排)最終歸零。與此同時,其思考長度(下排,以token計)在達到峰值后不增反降,仿佛在難題面前主動“放棄思考”


這表明,模型似乎存在一個內在的“縮放限制”。當它“預感到”問題過于困難無法解決時,即便有充足的計算預算(token limit),它也會選擇“躺平”,減少思考的努力

發現三:思維軌跡揭示的低效與掙扎

通過分析模型生成的“思考過程”,研究人員發現了其思維模式的深層問題:

簡單問題“過度思考”(Overthinking):在解決簡單謎題時,模型常常在很早的步驟就找到了正確答案,但之后仍會繼續生成大量冗余甚至錯誤的探索,浪費了大量計算資源

復雜問題“早期固執”(Early Fixation):在面對難題時,如果模型在早期犯了一個錯誤,它往往會固執地沿著錯誤的路徑繼續探索,很難自我糾正,最終導致失敗。

發現四:令人困惑的“執行”無能

研究人員還進行了一項關鍵實驗,其結果進一步暴露了模型推理能力的脆弱性

“抄作業”都不會:在漢諾塔任務中,研究人員直接在提示(prompt)中提供了完整的、一步不錯的解題算法,要求模型僅僅是“執行”這個算法。結果顯示,模型的表現沒有任何改善,依然在相同的復雜度點上崩潰。這表明,模型的瓶頸不僅在于“規劃”和“尋找”解決方案,更在于基礎的、符號化的邏輯步驟執行與驗證能力的缺失

能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問題,但在一個僅需11步的過河問題上卻早早失敗。這強烈暗示,模型的“推理能力”可能嚴重依賴于訓練數據中的常見模式(漢諾塔是教科書級的經典問題),而非通用的、可泛化的邏輯推理能力

蘋果的這項研究很明顯是潑冷水

當前LRM的“思考”機制,更像是一種復雜的啟發式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合復雜度問題時,會遭遇性能和“思考努力”的雙重崩潰,這可能源于其架構的根本限制,

最后蘋果強烈建議:

當前大模型的評估范式亟待革新:我們必須超越依賴于可能被污染的基準測試和最終答案準確率的評估方法,轉向更可控、更深入的過程分析,才能真正理解AI的能力邊界

大家怎么看這篇研究?

參考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
湖南前院長跳樓自殺第4天,兒子哭訴真實死因,惡心的一幕出現了

湖南前院長跳樓自殺第4天,兒子哭訴真實死因,惡心的一幕出現了

聯友說娛
2025-06-23 16:24:59
島內民調顯示:94%網友將投“不同意罷免”

島內民調顯示:94%網友將投“不同意罷免”

參考消息
2025-06-23 11:45:25
特朗普:如果他說了核武器,說了哪國向伊朗提供核彈,請通知我

特朗普:如果他說了核武器,說了哪國向伊朗提供核彈,請通知我

昨夜軍帖
2025-06-24 07:19:15
馬科斯:菲律賓不會屈服,如果中國采取行動,菲律賓不惜發動戰爭

馬科斯:菲律賓不會屈服,如果中國采取行動,菲律賓不惜發動戰爭

三分亮劍
2025-06-23 22:29:23
中國艾滋病人數達132.9萬!攜帶患者難以辨認,建議遠離這三種人

中國艾滋病人數達132.9萬!攜帶患者難以辨認,建議遠離這三種人

紀中百大事
2025-06-23 08:35:03
特朗普一炸,中伊3萬億投資血本無歸?中國早已預料到了這一天

特朗普一炸,中伊3萬億投資血本無歸?中國早已預料到了這一天

科技虎虎
2025-06-24 10:17:30
急了!張雪峰連續發文提醒考生,強調三遍,不要看分排名更重要

急了!張雪峰連續發文提醒考生,強調三遍,不要看分排名更重要

戶外阿毽
2025-06-24 01:39:43
張籽萱橫空出世,震驚各國媒體!中國女排已無需再召回丁霞刁琳宇

張籽萱橫空出世,震驚各國媒體!中國女排已無需再召回丁霞刁琳宇

金毛愛女排
2025-06-24 00:00:09
文胖:杜蘭特不斷拒絕其他交易方案,直到報價低到火箭無法拒絕的地步

文胖:杜蘭特不斷拒絕其他交易方案,直到報價低到火箭無法拒絕的地步

雷速體育
2025-06-24 09:21:25
可笑不?明明是她的成就,人民日報的標題里卻沒有她的姓名

可笑不?明明是她的成就,人民日報的標題里卻沒有她的姓名

娛樂故事
2025-06-22 12:11:43
廣東隊麻煩大了!官方通報重大違規,杜鋒恐受牽連,CBA要重罰

廣東隊麻煩大了!官方通報重大違規,杜鋒恐受牽連,CBA要重罰

宗介說體育
2025-06-24 11:39:53
全球90%都是日本生產,若斷供中國如何應對?別國為何無法生產?

全球90%都是日本生產,若斷供中國如何應對?別國為何無法生產?

答案在這兒
2025-06-23 14:01:26
6月24日,養老金調整通知下周發布?月入3500元能補發700元嗎?

6月24日,養老金調整通知下周發布?月入3500元能補發700元嗎?

王五說說看
2025-06-24 09:13:44
美國果然對中國動手了:轟炸伊朗,打從一開始就是針對中國的圈套

美國果然對中國動手了:轟炸伊朗,打從一開始就是針對中國的圈套

時光琉影8
2025-06-23 18:07:26
必須嚴懲!重慶動物園3女1男圍毆勸人者,打人者家族企業被扒

必須嚴懲!重慶動物園3女1男圍毆勸人者,打人者家族企業被扒

不寫散文詩
2025-06-24 01:42:28
尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

星宇共鳴
2025-05-21 17:58:05
兩岸統一喜訊!沒等我軍出手,關鍵時刻,大陸收到一份“大禮”

兩岸統一喜訊!沒等我軍出手,關鍵時刻,大陸收到一份“大禮”

熒惑手心
2025-06-23 09:09:28
拒絕投資“領導宣傳片”,四川功勛警察被捕

拒絕投資“領導宣傳片”,四川功勛警察被捕

有戲
2025-06-23 15:12:31
想不到!大名鼎鼎的安慶五星級大酒店,淪落到在外擺攤做外賣了…

想不到!大名鼎鼎的安慶五星級大酒店,淪落到在外擺攤做外賣了…

火山詩話
2025-06-24 09:36:16
“滿門被裁”,一家四口僅剩老媽還有工作了

“滿門被裁”,一家四口僅剩老媽還有工作了

螞蟻大喇叭
2025-06-22 19:05:41
2025-06-24 14:51:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
731文章數 320關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

外媒:內塔尼亞胡宣布與伊朗達成全面?;饏f議

頭條要聞

外媒:內塔尼亞胡宣布與伊朗達成全面停火協議

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護身符,李雪琴更多黑料被扒

財經要聞

以色列和伊朗同意全面停火!

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

游戲
教育
本地
手機
公開課

《死亡擱淺2》飯制評分宣傳圖:滿分霸屏成績亮眼!

教育要聞

一鍵直連大學招辦!99%家長不知道的陽光高考網隱藏功能!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

卷出手機電池新高度:榮耀 MTN-AN00 / AN80 曝光,額定 8100mAh

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 深水埗区| 金堂县| 武城县| 习水县| 通辽市| 中牟县| 泗洪县| 鄱阳县| 定襄县| 梓潼县| 沛县| 鄂州市| 胶南市| 乡宁县| 墨竹工卡县| 德保县| 孝感市| 黄冈市| 富民县| 封丘县| 库尔勒市| 临猗县| 沧州市| 天津市| 伽师县| 加查县| 屯昌县| 诏安县| 黑山县| 昌平区| 福贡县| 龙陵县| 桃江县| 弋阳县| 台中县| 治多县| 资兴市| 山西省| 筠连县| 泰安市| 怀柔区|