99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

天塌了!蘋果剛剛證明:DeepSeek,o3,Claude等“推理”模型根本沒有推理能力

0
分享至


最新重磅研究:蘋果并不認(rèn)為推理模型比標(biāo)準(zhǔn) LLM有重大突破

最新研究《思考的幻覺:通過問題復(fù)雜性視角理解推理模型的優(yōu)勢與局限》中,蘋果對“大型語言模型已經(jīng)具備真正的邏輯思維能力——即真正的“推理能力”——這一普遍存在的假設(shè)提出了質(zhì)疑。蘋果公司的研究人員看到的并非認(rèn)知領(lǐng)域的突破,而是一種幻覺:這些模型僅僅創(chuàng)造了思考的印象,而實(shí)際上并沒有穩(wěn)定、可理解的思維過程


這篇研究批評(píng)的核心點(diǎn)是:當(dāng)前最前沿的推理模型,在面對真正復(fù)雜的問題時(shí),其推理能力會(huì)“斷崖式”崩潰,并且暴露出一種反直覺的“思考退化”現(xiàn)象,甚至連“照著算法抄作業(yè)”都做不好

現(xiàn)有評(píng)測方法的“陷阱”:為何需要新的實(shí)驗(yàn)場?

目前,評(píng)估AI推理能力主要依賴于數(shù)學(xué)(如MATH、AIME)和編程等基準(zhǔn)測試。然而,研究人員指出,這種方法存在兩大弊端:

數(shù)據(jù)污染(Data Contamination):這些基準(zhǔn)測試的題目和答案很可能已經(jīng)大量存在于模型的訓(xùn)練數(shù)據(jù)中。模型可能只是“記住”了答案,而非真正“推理”出答案。論文中的數(shù)據(jù)顯示,模型在更新的AIME25數(shù)據(jù)集上的表現(xiàn)反而不如更早的AIME24,這與人類表現(xiàn)恰恰相反,強(qiáng)烈暗示了數(shù)據(jù)污染對評(píng)測結(jié)果的干擾

缺乏對“思考過程”的洞察:最終答案的正確與否,無法告訴我們模型是如何思考的,其思維鏈?zhǔn)歉咝А?yán)謹(jǐn)還是充滿了冗余和錯(cuò)誤

為了擺脫這些“陷阱”,蘋果的研究團(tuán)隊(duì)轉(zhuǎn)向了一個(gè)更“純凈”的實(shí)驗(yàn)場——可控的解謎環(huán)境

精巧的實(shí)驗(yàn)設(shè)計(jì):在“謎題”中量化AI的思考能力

研究團(tuán)隊(duì)選取了四個(gè)經(jīng)典的、邏輯結(jié)構(gòu)穩(wěn)定但復(fù)雜度可控的謎題:

漢諾塔(Tower of Hanoi):測試遞歸和規(guī)劃能力

跳棋(Checker Jumping):測試序列規(guī)劃

過河問題(River Crossing):測試約束滿足和規(guī)劃能力

積木世界(Blocks World):測試規(guī)劃和狀態(tài)管理

通過改變謎題的參數(shù)(如漢諾塔的盤子數(shù)量、過河問題的人數(shù)),研究人員可以精確地控制問題的組合復(fù)雜度,同時(shí)利用模擬器驗(yàn)證模型生成的每一步操作是否合規(guī),從而深入剖析其完整的“思考軌跡”

如圖示意:研究人員不僅評(píng)估最終答案,還提取并分析模型在 標(biāo)簽內(nèi)的中間步驟,以洞察其思維過程


核心發(fā)現(xiàn)

通過對一系列前沿模型(包括Claude 3.7 Sonnet、DeepSeek-R1及其對應(yīng)的非思考版本)的詳盡測試,研究得到了幾個(gè)顛覆性的發(fā)現(xiàn):

發(fā)現(xiàn)一:性能的三種“境界”——“思考”并非總是更優(yōu)

當(dāng)比較“思考”模型(LRM)和其標(biāo)準(zhǔn)LLM版本時(shí),研究人員發(fā)現(xiàn)了三個(gè)截然不同的性能區(qū)間:

低復(fù)雜度區(qū):對于簡單問題,標(biāo)準(zhǔn)模型反而更準(zhǔn)確、更高效。LRM的“思考”顯得多余和累贅

中等復(fù)雜度區(qū):隨著問題變難,LRM生成長思維鏈的優(yōu)勢開始顯現(xiàn),其性能超越標(biāo)準(zhǔn)模型

高復(fù)雜度區(qū):當(dāng)問題復(fù)雜度超過某個(gè)臨界點(diǎn),兩種模型雙雙“崩潰”,準(zhǔn)確率降至零。這表明,“思考”機(jī)制只是延緩了失敗的到來,并未解決根本性的能力瓶頸

如圖5所示:在低、中、高三種復(fù)雜度下,思考模型與非思考模型的性能對比,清晰地展示了三個(gè)不同區(qū)間的表現(xiàn)


發(fā)現(xiàn)二:“思考”的崩潰點(diǎn)與反直覺的“努力退化”

這是整篇論文最令人震驚的發(fā)現(xiàn)之一。研究顯示:

準(zhǔn)確率斷崖式下跌:所有受測的LRM,在問題復(fù)雜度達(dá)到某個(gè)閾值后,準(zhǔn)確率都會(huì)急劇下降至零

反直覺的“思考退化”:更奇怪的是,在接近這個(gè)“崩潰點(diǎn)”時(shí),模型用于思考的計(jì)算量(即生成的思考token數(shù)量)非但沒有因問題變難而增加,反而開始顯著減少

如圖示意:隨著復(fù)雜度增加(橫軸),模型準(zhǔn)確率(上排)最終歸零。與此同時(shí),其思考長度(下排,以token計(jì))在達(dá)到峰值后不增反降,仿佛在難題面前主動(dòng)“放棄思考”


這表明,模型似乎存在一個(gè)內(nèi)在的“縮放限制”。當(dāng)它“預(yù)感到”問題過于困難無法解決時(shí),即便有充足的計(jì)算預(yù)算(token limit),它也會(huì)選擇“躺平”,減少思考的努力

發(fā)現(xiàn)三:思維軌跡揭示的低效與掙扎

通過分析模型生成的“思考過程”,研究人員發(fā)現(xiàn)了其思維模式的深層問題:

簡單問題“過度思考”(Overthinking):在解決簡單謎題時(shí),模型常常在很早的步驟就找到了正確答案,但之后仍會(huì)繼續(xù)生成大量冗余甚至錯(cuò)誤的探索,浪費(fèi)了大量計(jì)算資源

復(fù)雜問題“早期固執(zhí)”(Early Fixation):在面對難題時(shí),如果模型在早期犯了一個(gè)錯(cuò)誤,它往往會(huì)固執(zhí)地沿著錯(cuò)誤的路徑繼續(xù)探索,很難自我糾正,最終導(dǎo)致失敗。

發(fā)現(xiàn)四:令人困惑的“執(zhí)行”無能

研究人員還進(jìn)行了一項(xiàng)關(guān)鍵實(shí)驗(yàn),其結(jié)果進(jìn)一步暴露了模型推理能力的脆弱性

“抄作業(yè)”都不會(huì):在漢諾塔任務(wù)中,研究人員直接在提示(prompt)中提供了完整的、一步不錯(cuò)的解題算法,要求模型僅僅是“執(zhí)行”這個(gè)算法。結(jié)果顯示,模型的表現(xiàn)沒有任何改善,依然在相同的復(fù)雜度點(diǎn)上崩潰。這表明,模型的瓶頸不僅在于“規(guī)劃”和“尋找”解決方案,更在于基礎(chǔ)的、符號(hào)化的邏輯步驟執(zhí)行與驗(yàn)證能力的缺失

能力極度不均衡:Claude 3.7 Sonnet模型能正確解決需要上百步的漢諾塔問題,但在一個(gè)僅需11步的過河問題上卻早早失敗。這強(qiáng)烈暗示,模型的“推理能力”可能嚴(yán)重依賴于訓(xùn)練數(shù)據(jù)中的常見模式(漢諾塔是教科書級(jí)的經(jīng)典問題),而非通用的、可泛化的邏輯推理能力

蘋果的這項(xiàng)研究很明顯是潑冷水

當(dāng)前LRM的“思考”機(jī)制,更像是一種復(fù)雜的啟發(fā)式搜索或模式匹配,而非人類意義上的、可泛化的邏輯推理,這些模型在處理高組合復(fù)雜度問題時(shí),會(huì)遭遇性能和“思考努力”的雙重崩潰,這可能源于其架構(gòu)的根本限制,

最后蘋果強(qiáng)烈建議:

當(dāng)前大模型的評(píng)估范式亟待革新:我們必須超越依賴于可能被污染的基準(zhǔn)測試和最終答案準(zhǔn)確率的評(píng)估方法,轉(zhuǎn)向更可控、更深入的過程分析,才能真正理解AI的能力邊界

大家怎么看這篇研究?

參考:

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?

用你的在看告訴我~

求贊

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
晚上10點(diǎn),泰山隊(duì)宣布2大新決定!崔康熙尷尬了

晚上10點(diǎn),泰山隊(duì)宣布2大新決定!崔康熙尷尬了

何老師呀
2025-06-26 00:45:49
湖北一班級(jí)40人,全員600分以上,兩個(gè)屏蔽生,什么原因這么強(qiáng)

湖北一班級(jí)40人,全員600分以上,兩個(gè)屏蔽生,什么原因這么強(qiáng)

飛魚的說說
2025-06-25 23:13:43
最新匯總!南大、東南等高校預(yù)估錄取分?jǐn)?shù)線出爐

最新匯總!南大、東南等高校預(yù)估錄取分?jǐn)?shù)線出爐

TOP大學(xué)來了
2025-06-25 16:18:10
津媒:申花有底氣不對首發(fā)輪換,這正是津門虎有心無力的地方

津媒:申花有底氣不對首發(fā)輪換,這正是津門虎有心無力的地方

懂球帝
2025-06-26 07:37:36
形勢嚴(yán)峻!35歲失業(yè)和45歲失業(yè)到底有什么不同?答案扎心…

形勢嚴(yán)峻!35歲失業(yè)和45歲失業(yè)到底有什么不同?答案扎心…

慧翔百科
2025-06-25 16:18:30
68歲“東方不敗”魯振順大爆離開TVB內(nèi)幕,無法工作與宣萱有關(guān)?

68歲“東方不敗”魯振順大爆離開TVB內(nèi)幕,無法工作與宣萱有關(guān)?

鄉(xiāng)野小珥
2025-06-26 05:52:47
“700分也上不了清北”,河南高考特控線535分,700分人數(shù)暴漲一倍

“700分也上不了清北”,河南高考特控線535分,700分人數(shù)暴漲一倍

妍妍教育日記
2025-06-25 16:24:45
北京國安大勝獲得半程冠軍,某國腳卻不興奮,球迷批評(píng)他還不接受

北京國安大勝獲得半程冠軍,某國腳卻不興奮,球迷批評(píng)他還不接受

呀古銅
2025-06-26 08:18:24
酒駕男子為逃避交警查車跳河身亡,妻子索賠200萬,法院判了

酒駕男子為逃避交警查車跳河身亡,妻子索賠200萬,法院判了

瀟湘晨報(bào)
2025-06-24 22:05:15
李澤楷旗下富衛(wèi)集團(tuán)香港IPO今起招股 擬全球發(fā)售9134.21萬股

李澤楷旗下富衛(wèi)集團(tuán)香港IPO今起招股 擬全球發(fā)售9134.21萬股

財(cái)聯(lián)社
2025-06-26 07:56:06
俄議員:俄有權(quán)從中國“收回”遼寧艦,中方務(wù)必拆掉武器停止軍用

俄議員:俄有權(quán)從中國“收回”遼寧艦,中方務(wù)必拆掉武器停止軍用

boss外傳
2025-04-15 09:35:03
炸裂!北京男子自曝500萬娶坐臺(tái)小姐,婚后她死性不改,長得一般

炸裂!北京男子自曝500萬娶坐臺(tái)小姐,婚后她死性不改,長得一般

深析古今
2025-06-24 22:03:24
成都1.1億元項(xiàng)目,工期延誤10天罰款3000萬?

成都1.1億元項(xiàng)目,工期延誤10天罰款3000萬?

喬益民
2025-06-26 07:11:10
Shams:籃網(wǎng)非常樂意將手中的5個(gè)首輪簽全部自用

Shams:籃網(wǎng)非常樂意將手中的5個(gè)首輪簽全部自用

雷速體育
2025-06-26 06:54:10
上賽季英超大馬丁與奧納納數(shù)據(jù):前者撲救成功率68.3%,后者66.9%

上賽季英超大馬丁與奧納納數(shù)據(jù):前者撲救成功率68.3%,后者66.9%

直播吧
2025-06-25 18:00:08
黃子韜孩子首曝光!徐藝洋懷孕時(shí)間線被扒,去年8月開始孕肚明顯

黃子韜孩子首曝光!徐藝洋懷孕時(shí)間線被扒,去年8月開始孕肚明顯

檸檬有娛樂
2025-06-25 10:43:20
日本毀滅級(jí)地震精準(zhǔn)預(yù)測到7月?屆時(shí)將死亡30萬人,損失300萬億

日本毀滅級(jí)地震精準(zhǔn)預(yù)測到7月?屆時(shí)將死亡30萬人,損失300萬億

說宇宙
2025-06-25 16:43:19
江蘇氣象發(fā)布:雷暴大風(fēng)或弱龍卷!強(qiáng)對流黃色預(yù)警!最高34℃

江蘇氣象發(fā)布:雷暴大風(fēng)或弱龍卷!強(qiáng)對流黃色預(yù)警!最高34℃

魯中晨報(bào)
2025-06-26 06:52:04
國家電力局長意外被捕!居然早成美國間諜,被捕時(shí)叫囂我是美國人,被判5年監(jiān)禁后驅(qū)離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時(shí)叫囂我是美國人,被判5年監(jiān)禁后驅(qū)離出境

大白聊IT
2025-06-14 22:40:59
你看不見的地方到底有多臟?網(wǎng)友:臟的根本無法想象!

你看不見的地方到底有多臟?網(wǎng)友:臟的根本無法想象!

特約前排觀眾
2025-06-26 00:10:04
2025-06-26 09:19:00
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
736文章數(shù) 322關(guān)注度
往期回顧 全部

科技要聞

英偉達(dá)股價(jià)大漲4%,再登全球第一

頭條要聞

特朗普:以伊沖突可能再次爆發(fā) 或許很快

頭條要聞

特朗普:以伊沖突可能再次爆發(fā) 或許很快

體育要聞

驚艷世俱杯的39歲少帥,一個(gè)另類的巴西人

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財(cái)經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

對話王媛:在世界的游樂場,一起龐巴迪

態(tài)度原創(chuàng)

數(shù)碼
游戲
親子
時(shí)尚
公開課

數(shù)碼要聞

愛馬仕版 Apple Watch 請繞開蘋果 watchOS 26 Beta 2

任天堂真的很嚴(yán)格!Switch2玩家因起名太騷被"ban機(jī)"

親子要聞

孩子燙傷后,并不是馬上去醫(yī)院!

吉井忍:慢跑在格子之外

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 佛教| 万盛区| 山阴县| 基隆市| 阜宁县| 乌兰察布市| 霍山县| 静安区| 赣州市| 略阳县| 西乌珠穆沁旗| 抚顺市| 巴南区| 万载县| 惠水县| 隆林| 上虞市| 漳浦县| 龙南县| 辛集市| 汕头市| 夏津县| 南乐县| 泰和县| 常山县| 孟村| 定日县| 广河县| 三原县| 眉山市| 霍邱县| 南木林县| 巴里| 贵港市| 民县| 丽水市| 平利县| 名山县| 吉首市| 偏关县| 北川|