99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI連續劇!從「錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

蘋果團隊一篇論文,現已升級成AI圈“論文連續劇”。

《思維的錯覺》:大模型推理會崩潰。

《思維的錯覺的錯覺》:大模型崩潰是錯覺。

《思維的錯覺的錯覺的錯覺》:大模型還是會崩潰。



起初,蘋果團隊發了一篇論文炮轟所有大模型推理都是假象,遇到高復雜度長推理問題時都會崩潰,即使給他們足夠的時間和計算資源。



這篇文章引起了廣泛關注,有人支持也有人質疑。

在質疑的人中,有一位網友與Claude Opus“合作”寫了一篇長達5頁的文章,來說明大模型這種明顯的崩潰是人為因素造成的。





沒多久,第三篇文章也來了,這篇綜合了前兩篇的觀點,贊同大模型崩潰是實驗設計不合理這一人為因素造成的,但也強調模型在非常長的逐步執行中仍然會出錯,盡管方法有所改進,但脆弱性依然存在。

也就是說,大模型在推理過程中還是會崩潰。

基于上次的經驗,網友猜測第三篇文章的第一作者或許是Gemini Pro~





讓我們來看看這部“連續劇”到底在“演”什么。

大模型推理到底會不會崩潰

最新的這篇文章對前兩篇內容進行了雙重審視,得出的結論是:你倆說的都有道理。

認同第二篇的三個關鍵修正
原研究的觀點是:當題目難度超過臨界點時,大模型推理會崩潰。

蘋果的原研究是通過設計4類謎題環境(漢諾塔、跳棋交換、過河問題、積木世界),系統觀察模型在不同復雜度下的行為變化。

他們進行了大量實驗,對比“會思考”和“不思考”的模型組合。

發現在低復雜度任務中,那些“不思考”標準語言模型實際上表現得更好。

隨著任務難度進入中等水平,“會思考”的推理模型開始顯現優勢。

當問題復雜度繼續增加并超過某個臨界點時,無論是推理模型還是標準模型都會經歷完全的性能崩潰,準確率直線下降至零,甚至會減少思考token。



比如漢諾塔問題,在超過大約8個盤后,標準模型和推理模型都崩潰到0%,推理模型的輸出token甚至更少,這表明當前的思維鏈擴展在較小深度之外就失效了。



第二篇認為這里面有三個測試瑕疵,token預算限制、評估誤判、以及謎題設計的數學不可解性。

于是,作者進行了模型重新驗證。

  • 替代表示法的有效性:當要求模型以Lua函數等緊湊形式輸出漢諾塔解法時(而非枚舉所有步驟),測試模型(如Claude-3.7-Sonnet、Gemini 2.5)在N=15時仍能保持高準確率,且token消耗遠低于上下文限制(<5000token),證明模型具備遞歸算法理解能力,失敗源于格式約束而非推理缺陷。
  • 復雜度指標的誤用:原研究以 “組合深度”(最小移動步數)衡量復雜度,但漢諾塔雖需指數級步數,每步決策復雜度僅為O(1),而積木世界因涉及最優解搜索(NP難問題),實際難度更高。模型在長序列漢諾塔問題中的表現優于短序列積木問題,印證了 “解長度≠計算復雜度” 的觀點。



結論就是,原研究的 “崩潰” 本質上是實驗設計對模型輸出限制、謎題不可解性和復雜度誤判的綜合結果,而非LRMs(推理模型)的根本性推理局限。

最新的第三篇認同了第二篇的三個關鍵修正。



大模型在面對高復雜度長推理時還是避免不了“崩潰”

雖然認為第二篇的反駁有道理,但該作者又指出:

第二篇的實驗測試的是算法知識檢索與代碼生成,而非原實驗的 “連續執行與狀態追蹤”。

模型可能因訓練數據包含漢諾塔算法而成功生成函數,但無法證明其能無錯執行3萬余步(如N=15的32767步)。

也就是說,雖然漢諾塔每步規則很簡單,但模型仍可能因中間步驟誤差累積導致失敗。

原研究中,即使向模型提供算法提示,它仍表現為崩潰,暗示瓶頸在于執行保真度而非解法發現。

簡單來說就是,雖然token限制是直接原因,但模型在長序列任務中的失敗反映了 “持續高保真執行” 的內在缺陷。

并且,模型在接近 “崩潰點” 時會提前減少推理投入(如推理token數下降),這一現象無法僅用token限制解釋。

也就是說,即使修正了測試設計并提供了足夠的輸出空間,模型一旦將逐步計劃擴展到數千步,仍然會開始失去對計劃的追蹤。

因此,這位作者認為大模型在維持非常長的推理鏈方面仍然存在真正的弱點。

這或許需要后續的研究跟進。

One More Thing

目前,這部“連續劇”已經發展到了第三集,有些網友看熱鬧不嫌事兒大,表示想快進到第四集!





你認為第四集會是什么劇情呢?

參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1930968053027578199
[2]https://x.com/rohanpaul_ai/status/1933296859730301353
[3]https://x.com/rohanpaul_ai/status/1935746720144544157

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中東戰火點燃避險狂潮,美元有望創下一個多月以來最大的單周漲幅

中東戰火點燃避險狂潮,美元有望創下一個多月以來最大的單周漲幅

新浪財經
2025-06-20 14:31:53
救護車800公里收2.8w,家屬「震驚」,衛健委“調查結果”來了

救護車800公里收2.8w,家屬「震驚」,衛健委“調查結果”來了

醫客
2025-06-20 12:14:12
警惕,嚴重可致死!見到這種瓶子,請立即報警丨“天府小妹微普法” 第259期

警惕,嚴重可致死!見到這種瓶子,請立即報警丨“天府小妹微普法” 第259期

達州婦聯
2025-06-10 18:47:56
Nature子刊:無需節食,僅限制這種氨基酸,7天減重30%,并逆轉代謝炎癥

Nature子刊:無需節食,僅限制這種氨基酸,7天減重30%,并逆轉代謝炎癥

醫諾維
2025-06-20 16:49:51
外界不懂京東!劉強東談公司沒有死掉的原因:全球僅5家零售公司成本做到10%,中國只有京東一家

外界不懂京東!劉強東談公司沒有死掉的原因:全球僅5家零售公司成本做到10%,中國只有京東一家

金融界
2025-06-18 20:11:22
三明市副市長、公安局局長柳建忠,赴泉州履新(附簡歷)

三明市副市長、公安局局長柳建忠,赴泉州履新(附簡歷)

魯中晨報
2025-06-20 19:13:16
株洲市委:堅決擁護省委決定

株洲市委:堅決擁護省委決定

新京報
2025-06-20 10:26:11
有人評價周總理是“偉大的馬克思主義者”,汪東興:刪掉這幾個字

有人評價周總理是“偉大的馬克思主義者”,汪東興:刪掉這幾個字

南書房
2025-06-20 16:55:03
俞敏洪要虧死了!在線人數1400多人,頓頓離開后的直播間慘不忍睹

俞敏洪要虧死了!在線人數1400多人,頓頓離開后的直播間慘不忍睹

火山詩話
2025-06-20 18:17:23
發廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

發廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

唐小糖說情感
2025-06-17 09:40:21
底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

逍遙論經
2025-06-15 10:25:36
汪峰“殺瘋了”!和寧靜牽手慶生,撕碎章子怡的體面,森林北更慘

汪峰“殺瘋了”!和寧靜牽手慶生,撕碎章子怡的體面,森林北更慘

小娛樂悠悠
2025-06-19 15:21:27
看到李夢的處境,才明白李夢不是輸給宮魯鳴,是被現實請下了牌桌

看到李夢的處境,才明白李夢不是輸給宮魯鳴,是被現實請下了牌桌

鋭娛之樂
2025-06-19 10:18:13
這屆618證明了消費者沒有任何忠誠度

這屆618證明了消費者沒有任何忠誠度

星球商業評論
2025-06-20 22:18:56
強烈建議對未成年人失蹤失聯一律啟動命案機制查找!

強烈建議對未成年人失蹤失聯一律啟動命案機制查找!

兵叔評說
2025-06-16 23:10:29
美記:現在雷霆壓力很大,要么奪冠要么成為史上最慘烈翻車現場之一

美記:現在雷霆壓力很大,要么奪冠要么成為史上最慘烈翻車現場之一

雷速體育
2025-06-20 18:10:24
濟南大千佛山腳下一棟別墅降價第二次拍賣,被人980萬買下了

濟南大千佛山腳下一棟別墅降價第二次拍賣,被人980萬買下了

天天話事
2025-06-19 15:58:17
上海小伙蹲公園哭了,資產千萬卻遭服務員嫌:你在我們農村也難找

上海小伙蹲公園哭了,資產千萬卻遭服務員嫌:你在我們農村也難找

米果說識
2025-06-18 08:50:03
是否又意外?大帝開始加速結束戰爭,特朗普說巴鐵元帥同意打伊

是否又意外?大帝開始加速結束戰爭,特朗普說巴鐵元帥同意打伊

邵旭峰域
2025-06-20 11:53:23
“最大輸家”已浮現!中印談判結束

“最大輸家”已浮現!中印談判結束

君君文談
2025-06-20 18:02:03
2025-06-21 06:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10705文章數 176170關注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

健康
數碼
旅游
手機
公開課

呼吸科專家破解呼吸道九大謠言!

數碼要聞

Meta 推出 Oakley Meta HSTN 智能眼鏡,399 美元起

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

首發麒麟8020芯片!華為nova 14系列上市24天銷量破100萬臺

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 荣成市| 婺源县| 长寿区| 柳州市| 龙山县| 印江| 太保市| 安福县| 达日县| 米泉市| 丰镇市| 桦川县| 鞍山市| 缙云县| 武义县| 邵阳县| 雅江县| 神木县| 新宾| 洱源县| 民和| 伊通| 历史| 嘉禾县| 临朐县| 连江县| 阿尔山市| 二连浩特市| 大理市| 高青县| 海林市| 军事| 思南县| 吉水县| 霸州市| 青海省| 平塘县| 伊川县| 新民市| 蓬安县| 兰西县|