99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<button id="2e6cc"></button>

<dfn id="2e6cc"><var id="2e6cc"><label id="2e6cc"></label></var></dfn>

<pre id="2e6cc"><big id="2e6cc"></big></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

AI連續劇！從「錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

2025-06-20 17:05:12　來源: 量子位

北京舉報

0

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

蘋果團隊一篇論文，現已升級成AI圈“論文連續劇”。

《思維的錯覺》：大模型推理會崩潰。

《思維的錯覺的錯覺》：大模型崩潰是錯覺。

《思維的錯覺的錯覺的錯覺》：大模型還是會崩潰。

起初，蘋果團隊發了一篇論文炮轟所有大模型推理都是假象，遇到高復雜度長推理問題時都會崩潰，即使給他們足夠的時間和計算資源。

這篇文章引起了廣泛關注，有人支持也有人質疑。

在質疑的人中，有一位網友與Claude Opus“合作”寫了一篇長達5頁的文章，來說明大模型這種明顯的崩潰是人為因素造成的。

沒多久，第三篇文章也來了，這篇綜合了前兩篇的觀點，贊同大模型崩潰是實驗設計不合理這一人為因素造成的，但也強調模型在非常長的逐步執行中仍然會出錯，盡管方法有所改進，但脆弱性依然存在。

也就是說，大模型在推理過程中還是會崩潰。

基于上次的經驗，網友猜測第三篇文章的第一作者或許是Gemini Pro～

讓我們來看看這部“連續劇”到底在“演”什么。

大模型推理到底會不會崩潰

最新的這篇文章對前兩篇內容進行了雙重審視，得出的結論是：你倆說的都有道理。

認同第二篇的三個關鍵修正

原研究的觀點是：當題目難度超過臨界點時，大模型推理會崩潰。

蘋果的原研究是通過設計4類謎題環境（漢諾塔、跳棋交換、過河問題、積木世界），系統觀察模型在不同復雜度下的行為變化。

他們進行了大量實驗，對比“會思考”和“不思考”的模型組合。

發現在低復雜度任務中，那些“不思考”標準語言模型實際上表現得更好。

隨著任務難度進入中等水平，“會思考”的推理模型開始顯現優勢。

當問題復雜度繼續增加并超過某個臨界點時，無論是推理模型還是標準模型都會經歷完全的性能崩潰，準確率直線下降至零，甚至會減少思考token。

比如漢諾塔問題，在超過大約8個盤后，標準模型和推理模型都崩潰到0%，推理模型的輸出token甚至更少，這表明當前的思維鏈擴展在較小深度之外就失效了。

第二篇認為這里面有三個測試瑕疵，token預算限制、評估誤判、以及謎題設計的數學不可解性。

于是，作者進行了模型重新驗證。

替代表示法的有效性：當要求模型以Lua函數等緊湊形式輸出漢諾塔解法時（而非枚舉所有步驟），測試模型（如Claude-3.7-Sonnet、Gemini 2.5）在N=15時仍能保持高準確率，且token消耗遠低于上下文限制（<5000token），證明模型具備遞歸算法理解能力，失敗源于格式約束而非推理缺陷。
復雜度指標的誤用：原研究以 “組合深度”（最小移動步數）衡量復雜度，但漢諾塔雖需指數級步數，每步決策復雜度僅為O(1)，而積木世界因涉及最優解搜索（NP難問題），實際難度更高。模型在長序列漢諾塔問題中的表現優于短序列積木問題，印證了 “解長度≠計算復雜度” 的觀點。

結論就是，原研究的 “崩潰” 本質上是實驗設計對模型輸出限制、謎題不可解性和復雜度誤判的綜合結果，而非LRMs（推理模型）的根本性推理局限。

最新的第三篇認同了第二篇的三個關鍵修正。

大模型在面對高復雜度長推理時還是避免不了“崩潰”

雖然認為第二篇的反駁有道理，但該作者又指出：

第二篇的實驗測試的是算法知識檢索與代碼生成，而非原實驗的 “連續執行與狀態追蹤”。

模型可能因訓練數據包含漢諾塔算法而成功生成函數，但無法證明其能無錯執行3萬余步（如N=15的32767步）。

也就是說，雖然漢諾塔每步規則很簡單，但模型仍可能因中間步驟誤差累積導致失敗。

原研究中，即使向模型提供算法提示，它仍表現為崩潰，暗示瓶頸在于執行保真度而非解法發現。

簡單來說就是，雖然token限制是直接原因，但模型在長序列任務中的失敗反映了 “持續高保真執行” 的內在缺陷。

并且，模型在接近 “崩潰點” 時會提前減少推理投入（如推理token數下降），這一現象無法僅用token限制解釋。

也就是說，即使修正了測試設計并提供了足夠的輸出空間，模型一旦將逐步計劃擴展到數千步，仍然會開始失去對計劃的追蹤。

因此，這位作者認為大模型在維持非常長的推理鏈方面仍然存在真正的弱點。

這或許需要后續的研究跟進。

One More Thing

目前，這部“連續劇”已經發展到了第三集，有些網友看熱鬧不嫌事兒大，表示想快進到第四集！

你認為第四集會是什么劇情呢？

參考鏈接：
[1]https://x.com/rohanpaul_ai/status/1930968053027578199
[2]https://x.com/rohanpaul_ai/status/1933296859730301353
[3]https://x.com/rohanpaul_ai/status/1935746720144544157

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，華為盤古大模型5.5問世！推理、智能體能力大爆發

機器之心Pro 2025-06-20 22:42:45
0 跟貼 0
推薦大模型來了？OneRec論文：端到端訓練如何同時吃掉效果與成本

機器之心Pro 2025-06-19 17:49:43
0 跟貼 0

中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
0 跟貼 0

國產SOTA新模型精準get“畫(3+6)條命的動物” | 開源

量子位 2025-06-20 16:05:39
0 跟貼 0
Large Avatar Model：單圖打造寫實3D交互數字人，跨平臺驅動渲染

機器之心Pro 2025-06-20 19:31:34
0 跟貼 0

視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2

線性擴散模型LiT，極簡線性注意力助力擴散模型AIPC時代端側部署

機器之心Pro 2025-02-01 15:01:13
2 跟貼 2
14款大模型能耗爆炸：DeepSeek竟然第一

智東西 2025-06-20 20:41:17
0 跟貼 0

AI寫完85%的代碼！字節研發負責人和TRAE合作的首個項目官宣開源

新智元 2025-06-20 10:34:22
11 跟貼 11
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
ChatGPT用多了會變傻！MIT招募大學生做實驗論證，用得越多人越笨

量子位 2025-06-20 22:35:35
1 跟貼 1
余承東發布純血鴻蒙2.0！功能演示叫好一片，安卓和蘋果都不香了

量子位 2025-06-20 23:03:20
12 跟貼 12
最前線 | 同傳翻譯“人機大戰”實測：AI翻譯精準度領先，人類譯員流暢性占優

36氪 2025-06-20 10:25:14
0 跟貼 0
Meta推出新款AI智能眼鏡，399美元搶攻運動市場

財聯社 2025-06-20 23:16:16
0 跟貼 0
郎咸平：談伊以沖突，分析透徹！終于等到郎教授說伊以的事兒了！

長河小吏 2025-06-20 07:45:03
7989 跟貼 7989
本科生推翻姚期智40年前的猜想，提出哈希表算法突破搜索效率極限

DeepTech深科技 2025-02-11 13:24:34
16 跟貼 16
對話 | 探索AI創業“無人區”的階躍星辰

鈦媒體APP 2025-06-20 14:07:07
0 跟貼 0
中科大與華為提出首個生成式多階段統一框架，性能全面超越 SOTA

機器之心Pro 2025-06-20 19:36:00
2 跟貼 2
5歲兒子走丟，女子慌張哭泣，巡邏城管出手相助

環球網資訊 2025-06-20 11:31:02
355 跟貼 355
微型小說：突破邊界

華文原創小說 2025-06-21 00:04:48
0 跟貼 0
李飛飛團隊提出架構設計新思路！直接“嫁接”預訓練模型關鍵組件

量子位 2025-06-20 14:02:42
3 跟貼 3
肖戰《藏海傳》爆火反哺舊作，上演爆火連續劇，憑實力二度圈粉

淡淡閑聊 2025-06-19 21:43:33
11 跟貼 11
年輕的和珅只因說了一句謎題，竟被皇上一眼看中，從此改變人生

時光說劇 2025-06-19 14:55:29
3 跟貼 3
上海中考題目求a-b=多少？家人們這道題太難了，怎么辦啊

公考客棧店小二 2025-06-19 10:00:00
9 跟貼 9
150 萬、應急管理垂直領域大模型關鍵技術研究大單

云頭條 2025-06-20 21:24:23
0 跟貼 0
西影路小學舉辦"松影"數學學科節

陽光報陽光網 2025-06-17 11:33:14
0 跟貼 0
美國底牌徹底暴露，不是核彈也不是航母群，真正的底牌藏在日本

一飲山河 2025-06-19 10:54:10
0 跟貼 0
安徽宿州哄搶土豆事件，當地村民站出來發聲，聽聽他說的！

中書省的世界觀 2025-06-20 07:14:49
3426 跟貼 3426
湖北農科院招聘被指“蘿卜坑”，紀委回應稱入圍者與一處長有親屬關系

現代快報 2025-06-20 12:33:43
3680 跟貼 3680
小型連續劇《捉奸細》1：泄密

放心去唱 2025-06-20 13:13:58
0 跟貼 0
迷你連續劇這哪是姐姐回來了啊,看這架勢是財神爺回來了(第三集)

祭懷蓮 2025-06-21 01:19:50
0 跟貼 0
我國《四大名著》改編的電視連續劇主題曲聯唱，經典傳唱，永恒

呆毛隆隆 2025-06-19 16:38:52
0 跟貼 0
對話退學北大又考上清華的河南小伙：我有點狂妄，不是一個好學生，為改善家人生活而努力學習

極目新聞 2025-06-20 15:14:23
2593 跟貼 2593
你們說，媽媽的這番推理正確嗎？

吃貨小小貓咪 2025-06-19 00:06:58
0 跟貼 0
從戰場到工地，消失的41萬鐵軍：鐵道兵為何退出解放軍序列？

深度看歷史 2025-06-19 13:28:55
0 跟貼 0
真正的匪徒從不怕被檢查

快樂追劇吧 2025-06-20 17:30:56
1 跟貼 1
西太平洋上的鋼鐵交響：雙航母編隊如何改寫區域博弈規則

一窺究竟 2025-06-19 17:55:14
0 跟貼 0
藍星三大錯覺-“中國行我也行，美國已經衰落，大俄即將入土”

東風寄的千愁 2025-06-20 03:33:04
0 跟貼 0
把員工當成家人，員工才能真正的為公司用心的公作#劇情#人性

建哥哥一導演 2025-06-18 20:07:27
0 跟貼 0
殲-36+霹靂21，四千公里打擊圈，顛覆空戰規則

春曉暖語聲 2025-06-20 01:10:56
0 跟貼 0

中東戰火點燃避險狂潮，美元有望創下一個多月以來最大的單周漲幅

中東戰火點燃避險狂潮，美元有望創下一個多月以來最大的單周漲幅

新浪財經

2025-06-20 14:31:53

救護車800公里收2.8w，家屬「震驚」，衛健委“調查結果”來了

救護車800公里收2.8w，家屬「震驚」，衛健委“調查結果”來了

醫客

2025-06-20 12:14:12

警惕，嚴重可致死！見到這種瓶子，請立即報警丨“天府小妹微普法” 第259期

警惕，嚴重可致死！見到這種瓶子，請立即報警丨“天府小妹微普法” 第259期

達州婦聯

2025-06-10 18:47:56

Nature子刊：無需節食，僅限制這種氨基酸，7天減重30%，并逆轉代謝炎癥

Nature子刊：無需節食，僅限制這種氨基酸，7天減重30%，并逆轉代謝炎癥

醫諾維

2025-06-20 16:49:51

外界不懂京東！劉強東談公司沒有死掉的原因：全球僅5家零售公司成本做到10%，中國只有京東一家

外界不懂京東！劉強東談公司沒有死掉的原因：全球僅5家零售公司成本做到10%，中國只有京東一家

金融界

2025-06-18 20:11:22

三明市副市長、公安局局長柳建忠，赴泉州履新（附簡歷）

三明市副市長、公安局局長柳建忠，赴泉州履新（附簡歷）

魯中晨報

2025-06-20 19:13:16

株洲市委：堅決擁護省委決定

新京報

2025-06-20 10:26:11

有人評價周總理是“偉大的馬克思主義者”，汪東興：刪掉這幾個字

有人評價周總理是“偉大的馬克思主義者”，汪東興：刪掉這幾個字

南書房

2025-06-20 16:55:03

俞敏洪要虧死了！在線人數1400多人，頓頓離開后的直播間慘不忍睹

俞敏洪要虧死了！在線人數1400多人，頓頓離開后的直播間慘不忍睹

火山詩話

2025-06-20 18:17:23

發廊一店員跪著給顧客洗頭，男顧客很享受，網友：感覺有些擦邊

發廊一店員跪著給顧客洗頭，男顧客很享受，網友：感覺有些擦邊

唐小糖說情感

2025-06-17 09:40:21

底層百姓越來越感覺到社保已經變成他們買不起的奢侈品！

底層百姓越來越感覺到社保已經變成他們買不起的奢侈品！

逍遙論經

2025-06-15 10:25:36

汪峰“殺瘋了”！和寧靜牽手慶生，撕碎章子怡的體面，森林北更慘

汪峰“殺瘋了”！和寧靜牽手慶生，撕碎章子怡的體面，森林北更慘

小娛樂悠悠

2025-06-19 15:21:27

看到李夢的處境，才明白李夢不是輸給宮魯鳴，是被現實請下了牌桌

看到李夢的處境，才明白李夢不是輸給宮魯鳴，是被現實請下了牌桌

鋭娛之樂

2025-06-19 10:18:13

這屆618證明了消費者沒有任何忠誠度

這屆618證明了消費者沒有任何忠誠度

星球商業評論

2025-06-20 22:18:56

強烈建議對未成年人失蹤失聯一律啟動命案機制查找！

強烈建議對未成年人失蹤失聯一律啟動命案機制查找！

兵叔評說

2025-06-16 23:10:29

美記：現在雷霆壓力很大，要么奪冠要么成為史上最慘烈翻車現場之一

美記：現在雷霆壓力很大，要么奪冠要么成為史上最慘烈翻車現場之一

雷速體育

2025-06-20 18:10:24

濟南大千佛山腳下一棟別墅降價第二次拍賣，被人980萬買下了

濟南大千佛山腳下一棟別墅降價第二次拍賣，被人980萬買下了

天天話事

2025-06-19 15:58:17

上海小伙蹲公園哭了，資產千萬卻遭服務員嫌：你在我們農村也難找

上海小伙蹲公園哭了，資產千萬卻遭服務員嫌：你在我們農村也難找

米果說識

2025-06-18 08:50:03

是否又意外？大帝開始加速結束戰爭，特朗普說巴鐵元帥同意打伊

是否又意外？大帝開始加速結束戰爭，特朗普說巴鐵元帥同意打伊

邵旭峰域

2025-06-20 11:53:23

“最大輸家”已浮現！中印談判結束

“最大輸家”已浮現！中印談判結束

君君文談

2025-06-20 18:02:03

追蹤人工智能動態

10705文章數 176170關注度

往期回顧全部

科技要聞

余承東：鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體：佩通坦錄音泄密一聲"叔叔"恐致其聯合政府瓦解

頭條要聞

媒體：佩通坦錄音泄密一聲"叔叔"恐致其聯合政府瓦解

體育要聞

周通：2年前想過退役，沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光！葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型一汽奧迪A5L正式開啟預售

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

數碼

旅游

手機

公開課

呼吸科專家破解呼吸道九大謠言！

數碼要聞

Meta 推出 Oakley Meta HSTN 智能眼鏡，399 美元起

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

手機要聞

首發麒麟8020芯片！華為nova 14系列上市24天銷量破100萬臺

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：荣成市| 婺源县| 长寿区| 柳州市| 龙山县| 印江| 太保市| 安福县| 达日县| 米泉市| 丰镇市| 桦川县| 鞍山市| 缙云县| 武义县| 邵阳县| 雅江县| 神木县| 新宾| 洱源县| 民和| 伊通| 历史| 嘉禾县| 临朐县| 连江县| 阿尔山市| 二连浩特市| 大理市| 高青县| 海林市| 军事| 思南县| 吉水县| 霸州市| 青海省| 平塘县| 伊川县| 新民市| 蓬安县| 兰西县|

<samp id="xqz0z"><mark id="xqz0z"></mark></samp>

<abbr id="xqz0z"></abbr>

<meter id="xqz0z"></meter>

<code id="xqz0z"><form id="xqz0z"></form></code>

<ul id="xqz0z"><center id="xqz0z"></center></ul>