99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<legend id="sbd5p"><li id="sbd5p"><menuitem id="sbd5p"></menuitem></li></legend>

<p id="sbd5p"></p>

<sub id="sbd5p"></sub>

<cite id="sbd5p"></cite>

<style id="sbd5p"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

蘋果炮轟AI推理遭打臉，GitHub大佬神怒懟！復雜任務≠推理能力

2025-06-09 18:06:09　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導讀】最近，蘋果再次發文指出LLM推理的根本缺陷。相關解讀，一夜刷屏。然而，GitHub高級軟件工程師怒不可遏，怒斥相關「流言」。

最近，蘋果公司發表了預印本論文，指出推理大模型存在重大缺陷。

昨天，Ruben Hassid發布了相關解讀的X帖子，認為這是項突破性研究：

蘋果證明了Claude等AI推理模型，根本不會思考。

這種解讀在社交平臺上廣泛傳播，瀏覽量已超過1000萬，且仍在持續增長。

但這種解讀翻車了！

在Reddit和黑客新聞，網友紛紛表示論文爭議太大。

左右滑動查看

GitHub高級工程師Sean Goedecke，對該論文持保留態度，盡管他也認為語言模型不是通往超級智能（ASI）的理想路徑。

最直接的例證是：當用DeepSeek-V3測試時，模型直接拒絕了要執行上千步的謎題推演

——這并非推理能力崩潰，反而說明模型具備對自身能力邊界的認知！

雖然Samy沒有獲得圖靈獎，聲望不及Yoshua，但其在谷歌學術上的引用次數已超過九萬次，是Jeff Dean等知名學者的合作者。

這也不是蘋果第一次指出LLM推理有問題，但這次在各大社交平臺上得到了廣泛傳播。

左右滑動查看

那么蘋果的新論文到底展示了什么？我們又該如何看待語言模型？

要理解這場爭議的核心，我們先看看蘋果論文到底說了什么。

蘋果到底說了什么？

這篇論文開篇就提出，在數學和編程基準測試中，大家不要太在意推理模型的表現，因為：

（a）這些基準測試存在污染；
（b）在數學和編程任務上，無法運行高質量實驗，因為這些任務缺乏簡明的復雜度量標準。

因此，蘋果的研究團隊選擇使用四種人工謎題（puzzle）環境（漢諾塔的變體），再次評估了推理模型，難度從最簡單的單盤漢諾塔逐步上升到二十盤漢諾塔。

漢諾塔（Tower of Hanoi）是根據一個傳說形成的數學問題：

有三根桿子A，B，C。A桿上有N個（N>1）穿孔圓盤，盤的尺寸由下到上依次變小。

要求按下列規則將所有圓盤移至C桿:

（1）每次只能移動一個圓盤；

（2）大盤不能疊在小盤上面?？蓪A盤臨時置于B桿，也可將從A桿移出的圓盤重新移回A桿，但都必須遵循上述兩條規則。

問題為：應該以何種方式移動？最少要移動多少次？

例如，他們對比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1：

這個對比模式在所有推理/非推理模型對、以及所有謎題任務中基本一致。

論文得出以下幾個核心結論：

對非常簡單的謎題，非推理模型表現相當甚至更好，因為推理模型有時會「想太多」而導致錯誤。
對中等難度的謎題，推理模型明顯更強。
一旦任務復雜度足夠高，即使是推理模型也無法給出正確答案，不管你給它多長時間。

接下來，論文分析了推理模型的內部思維軌跡，驗證了上述結論：

在簡單問題中，正確答案幾乎立刻出現；

在中等問題中，需要更多推理步驟；

而在最困難的問題中，則根本不會出現。

論文還指出，隨著問題復雜度增加，一旦模型無法解決問題，開始「躺平摸魚」：

模型不會繼續投入更多token來解題，而是直接「放棄」，停止推理。

最后，論文嘗試直接將正確的謎題求解算法輸入模型，期望這能提高其推理能力。

結果只是「有一點用」：部分模型可以多解出一個盤，但整體效果并不顯著。

總結來看，該論文得出以下結論：

推理模型存在復雜度「天花板」，一旦超出，性能明顯下降。
推理模型可能存在「內在計算擴展上限」，證據是：模型在達到一定復雜度時，會選擇放棄。
推理模型不擅長計算性任務，因為即使將算法直接給它們，也沒用。

這樣理解：不對

對蘋果的這篇論文，Sean Goedecke有三大質疑：

首先，漢諾塔這類謎題不是判斷「推理能力」的好例子；

其次，推理模型的復雜性閾值，不一定是固定的；

最后，存在復雜度閾值≠模型「并不真正具備推理能力」。

謎題不是好例子

相比數學和編程，漢諾塔是一個更糟糕的推理測試案例。

如果擔心數學和編程基準測試存在訓練數據污染，那為何選擇訓練數據中存在解法的知名謎題？

這是Sean Goedecke對論文最主要的不滿。

論文卻得出結論「給模型提供解法，也沒有提高效果」。

這件事讓他感到驚訝：

漢諾塔算法在模型訓練數據中反復出現。

所以，給模型算法幫助當然不大——

模型早已經知道算法是什么了！

另外，推理模型是有針對性地被訓練用于數學和編程任務的，而不是用于謎題。

也許謎題在某種程度上可以代表推理能力，但也可能根本不相關。

從另一個角度，他完全可以相信：模型在處理數學題或寫代碼時具備更完善的內部工具鏈，而不具備用于謎題的工具。

用謎題來測推理能力，等同于說「GPT-3.5之后，寫彼特拉克式十四行詩沒有明顯進步，所以語言模型并沒真正取得進展」。

彼得拉克式十四行，又稱意大利十四行詩。詩標準意式十四行詩由14個十一音節詩行組成，分為前后兩部分：前八行（octave）與后六行（sestet）

漢諾塔確實比數學問題更容易縮放復雜度，但正因為這個原因就選它，給人一種「路燈效應」的感覺

——不是因為它最好，而是因為它最方便。

路燈效應，指人們傾向于只在最容易尋找的地方進行搜索

復雜度閾值未必固定

假設語言模型在超過一定復雜性點后確實會放棄，就像它們在超過十個盤子的漢諾塔時一樣。

換言之，假設之前對謎題作為測試例子的質疑是錯誤的，而蘋果的論文確實具有普適性。

那么，這是否意味著模型無法處理超出某一復雜度的問題？

Sean Goedecke將蘋果論文中的一些提示詞輸入DeepSeek-R1，以下是簡化版的推理軌跡開頭：

好的，我需要解一個有10個盤的漢諾塔問題。

讓我思考如何處理這個問題。我記得經典解法是遞歸步驟……

n個盤的標準解法需要2^n-1步。對于10個盤是1023步。但手動列出每一步幾乎不可能。

所以我需要一種系統化方法來逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……

請注意，模型立即決定「手動生成所有這些步驟是不可能的」，因為這需要跟蹤上千個步驟。

于是它開始尋找「聰明的捷徑」，但最終失敗。

這里的關鍵見解是，超過一定復雜性閾值后，模型決定有太多的步驟需要推理，于是開始尋找巧妙的捷徑。

模型所面對的任務其實已悄然轉變：從「逐步推理完成」變為「發明一種能跳過推理的通用方案」。

從測試來看，即使在較低的盤子數量下，DeepSeek-R1也會抱怨幾句，說「這會很繁瑣」，即使你明確要求它逐步列出解法。

這是可以理解的：推理模型是為推理而訓練的，不是為執行數千次機械步驟而訓練的。

那么，對于漢諾塔謎題來說，真的存在復雜性閾值嗎？

實際上，大家并不知道模型是否能夠堅持完成千步序列。

我們所知道的是，模型不想這樣做。

順帶一提，這也解釋了一個「奇怪」的發現：

當問題變得更難時，模型使用的推理token反而減少。

因為任務如果只需幾十步，它會積極推理；如果需要幾百甚至上千步，它就選擇放棄。

注意：Sean Goedecke沒有訪問其他推理模型軌跡的權限——

如果它們表現不同，那么他愿意承認在這個觀點上他是錯誤的。

復雜任務失敗≠0推理能力

假設到目前為止的一切都是錯誤的：

謎題真的是測試推理的好例子，推理模型真的有個固定的復雜性閾值。

這是否意味著模型不能推理？

當然，這并不意味著模型不能推理！

當然不是！

看到網絡上的一些熱評，Sean Goedecke情難自禁，簡直要瘋了。

多少人能真正坐下來，準確寫出一千步的漢諾塔解法？

肯定有一些人可以，但也有很多人完全不行。

我們會因此說那些人「不具備推理能力」嗎？

當然不會！

他們只是缺乏足夠的耐心與專注，從而無法做到手動執行一千次算法而已。

即便只能推理到第十步，未能完成第十一步，也依然體現了推理能力。

能推理三步，也依然是推理，哪怕你無法看清第四步。

這也許不是「超人級」的推理，但絕對屬于人類推理能力。

嚴格說來，這對論文可能不太公平——

它本身并沒有明確說模型「根本不能推理」（除非你把標題當真）。

然而，互聯網上這么說的人太多了，所以他認為值得討論一下。

總結

蘋果的論文《思維的幻覺》，不是特別好。

Sean Goedecke的主要反對意見是，他不認為推理模型像論文暗示的那樣不擅長這些謎題：

從我自己的測試來看，模型早早決定幾百個算法步驟太多，甚至不值得嘗試，所以它們拒絕開始。

你不能比較八盤漢諾塔和十盤漢諾塔，因為你比較的是「模型能否完成算法」和「模型能否想出一個避免完成算法的解決方案」。

更加一般性地，他不相信謎題是評估推理能力的好試驗場，因為

（a）它們不是人工智能實驗室的重點領域，

（b）它們需要像計算機一樣遵循算法，而不是需要解決數學問題的那種推理。

Sean Goedecke認為，推理模型并非像論文暗示的那樣不擅長這類謎題。

在他的測試中，模型在面對上百步算法時，往往主動放棄，而非能力崩潰。

他強調，放棄并不意味著無法推理——

就像人類在面對高度重復、枯燥任務時也可能選擇中止。

這種行為更多體現的是認知邊界，而非思維能力的缺失。

因此，他不認同將「未完成復雜任務」等同于「不具備推理能力」的觀點。

這篇論文并非一無是處，Sean Goedecke認為它有下列亮點：

推理模型在簡單問題上有時會「想太多」，表現不如非推理模型，這一點很有趣；
模型在長算法執行過程中「放棄」的現象也很有意思，盡管它可能并不能很好地說明其普遍推理能力；
他喜歡「問題三階段」這一觀點：簡單、中等可推理、以及復雜到模型會放棄的階段。如果某種模型可以被訓練成「永不放棄」，那將非常有趣。

無論如何，蘋果的研究提供了重要提醒：

當前語言模型的推理能力遠非「通用智能」。

那么，該如何定義「推理」？

又如何測試「思維」？

這可能是下一代AI必須直面的核心問題。

參考資料：

https://www.seangoedecke.com/illusion-of-thinking/

https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/

https://x.com/RubenHssd/status/1931389580105925115

https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/

https://news.ycombinator.com/item?id=44203562

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

美發射的鉆地彈目前僅美國擁有被指威力僅次于核武器

上游新聞 2025-06-22 12:57:48
12757 跟貼 12757
伊朗議會贊成關閉霍爾木茲海峽

央視新聞客戶端 2025-06-22 21:21:24
20240 跟貼 20240

請停止為過去的地主資本家歌功頌德！這是何等荒謬，又是何等無知

剛哥說法365 2025-06-21 15:33:24
10501 跟貼 10501

宿遷隊遭鹽城高中生門將“零封”，火出圈的17歲門將偶像是意大利門神布馮

揚子晚報 2025-06-22 08:40:41
201 跟貼 201
山西長治：有人闖進飯店，直接將酒搬走，宣稱長治飯店絕對禁止酒

偵姐有料 2025-06-22 07:10:21
8021 跟貼 8021

常州五連敗被“剃光頭”，一景區推出“光頭免票”：沒頭發就行，性別無限制

極目新聞 2025-06-22 18:26:28
155 跟貼 155

杜家毫率中央第九指導組進駐內蒙古，自治區黨委書記孫紹騁表態

政知新媒體 2025-06-22 20:37:00
40 跟貼 40
楊驍婷調任廣東云浮市委副書記

政知新媒體 2025-06-22 10:23:50
61 跟貼 61

四川一男子花2個月開鑿“奧特曼石窟”，當地稱將調查核實

FM93浙江交通之聲 2025-06-22 19:41:10
77 跟貼 77
外交部發布視頻：回家

新華社 2025-06-22 18:24:30
51 跟貼 51
杭州一家長氣瘋，大一的女兒買個手機殼這么貴！評論區炸鍋

魯中晨報 2025-06-22 11:17:10
818 跟貼 818
以色列升級全國戒備狀態

新華社 2025-06-22 09:53:19
3402 跟貼 3402
杜蘭特得知被交易的現場反應來了！笑得都繃不住了！

直播吧 2025-06-23 01:26:40
0 跟貼 0
伊朗人民苦神棍久矣！

廖保平 2025-06-22 08:56:17
0 跟貼 0
上海樂高樂園突發！4D影院頂部突然噴水，觀眾衣服褲子全部淋濕...官方致歉

魯中晨報 2025-06-22 08:09:08
1235 跟貼 1235
以色列股市基準TA-125指數開漲1%，創下歷史新高

每日經濟新聞 2025-06-22 15:10:21
0 跟貼 0
價格大漲！漲幅超黃金！賣爆了

魯中晨報 2025-06-22 07:29:22
241 跟貼 241
“自爆”炸爛座椅！這些車內“易爆隱患”快清除

環球網資訊 2025-06-22 14:22:07
207 跟貼 207
美政府恢復辦理外國學生簽證

央視新聞客戶端 2025-06-19 07:15:05
354 跟貼 354
勁爆！清華姚字班大神、量化投資大佬李新野，撕懟父親

雄韜視線 2025-06-23 01:57:01
2 跟貼 2
宇樹科技王興興：做一棵照亮別人的“科技樹”

澎湃新聞 2025-06-22 08:01:41
382 跟貼 382
錯失6個盤點!王欣瑜1-2萬卓索娃無緣柏林站女單冠軍

網易體育 2025-06-22 20:27:24
0 跟貼 0
抓了！你知道國家中醫藥局長撈多少錢嗎

不正確 2025-06-22 14:04:58
0 跟貼 0

汪峰牽著森林北的手逛kkv，35歲森林北像18歲，汪峰對她有點摳

汪峰牽著森林北的手逛kkv，35歲森林北像18歲，汪峰對她有點摳

楊哥歷史

2025-06-22 15:28:26

2-0大冷！WTA排名亂了：一人飆升63名，王欣瑜換教練后開掛

2-0大冷！WTA排名亂了：一人飆升63名，王欣瑜換教練后開掛

何老師呀

2025-06-22 12:23:47

俄外交部：莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄外交部：莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄羅斯衛星通訊社

2025-06-22 16:07:30

8歲女童持續嘔吐活蟲一個多月，元兇竟來自衛生間！很多家庭都有，趕緊清除

8歲女童持續嘔吐活蟲一個多月，元兇竟來自衛生間！很多家庭都有，趕緊清除

魯中晨報

2025-06-22 09:41:08

白宮高級官員：特朗普21日下達了襲擊伊朗核設施的最終命令

白宮高級官員：特朗普21日下達了襲擊伊朗核設施的最終命令

財聯社

2025-06-23 01:42:21

連扳3球逆轉+加時絕殺！99年老隊24年后重返西甲，球迷沖進場狂歡

連扳3球逆轉+加時絕殺！99年老隊24年后重返西甲，球迷沖進場狂歡

我愛英超

2025-06-22 06:41:49

曝易夢玲王勉戀愛！女方被偶遇后刪首爾行程，兩人更多細節被扒

曝易夢玲王勉戀愛！女方被偶遇后刪首爾行程，兩人更多細節被扒

萌神木木

2025-06-22 22:36:46

A股：股民要做好準備，周末突發利空，今天A股怎么辦？

A股：股民要做好準備，周末突發利空，今天A股怎么辦？

奔走的股票

2025-06-23 00:26:41

女子炫耀800萬蘭博基尼掛墻上，餐桌150萬，一年電費40萬遭封禁

女子炫耀800萬蘭博基尼掛墻上，餐桌150萬，一年電費40萬遭封禁

漢史趣聞

2025-06-21 14:47:35

荔枝的“死對頭”，醫生提醒：二者萬不可同吃，吃荔枝禁忌要牢記

荔枝的“死對頭”，醫生提醒：二者萬不可同吃，吃荔枝禁忌要牢記

阿龍美食記

2025-06-16 15:19:56

“禁酒令”走到了“懸崖”，該“勒馬”了

“禁酒令”走到了“懸崖”，該“勒馬”了

小江科普

2025-06-21 19:57:51

A股：全體股民做好準備！明天周一，股市走勢展望！

A股：全體股民做好準備！明天周一，股市走勢展望！

悠然安晴

2025-06-22 09:22:04

永旺夢樂城店預計于9月30日停止營業！屆時或將更名“鑫嘉匯”

永旺夢樂城店預計于9月30日停止營業！屆時或將更名“鑫嘉匯”

新豐臺

2025-06-22 22:50:56

老百姓覺悟了？河北農村重現排隊磨面，面粉中有十幾種添加劑嗎？

老百姓覺悟了？河北農村重現排隊磨面，面粉中有十幾種添加劑嗎？

馬蹄燙嘴說美食

2025-06-17 13:30:28

全城狂歡！香港特首宣布，接下來這些通通免費！

全城狂歡！香港特首宣布，接下來這些通通免費！

港漂圈

2025-06-22 19:06:36

美國總統特使喊話馬斯克：今后幾周在伊朗免費開通“星鏈”

美國總統特使喊話馬斯克：今后幾周在伊朗免費開通“星鏈”

界面新聞

2025-06-22 16:52:28

美國“參戰”，以伊局勢更復雜了 | 新京報專欄

美國“參戰”，以伊局勢更復雜了 | 新京報專欄

新京報評論

2025-06-22 14:25:51

每年70萬人因肺癌而死！再次勸告：天熱寧可吹吹風扇，也別做6事

每年70萬人因肺癌而死！再次勸告：天熱寧可吹吹風扇，也別做6事

嘆為觀止易

2025-06-17 11:44:21

巴西熱氣球墜毀致8死：3人相擁而亡，13人奇跡生還

巴西熱氣球墜毀致8死：3人相擁而亡，13人奇跡生還

荊楚寰宇文樞

2025-06-22 23:29:48

最強贅婿生存法則：貝克漢姆長子憑啥拿下120億富婆，理由很簡單

最強贅婿生存法則：貝克漢姆長子憑啥拿下120億富婆，理由很簡單

聯友說娛

2025-06-22 10:19:26

AI產業主平臺領航智能+時代

12929文章數 66077關注度

往期回顧全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利香港站3勝1負收官

娛樂要聞

離婚四年！趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售嵐圖FREE+正式下線

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

教育

藝術

時尚

軍事航空

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

教育要聞

2026qs排名完整名單公布后，申請難度會暴漲的幾所英國大學！

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

伊姐周日熱推：電視劇《完美的救贖》；電視劇《書卷一夢》......

軍事要聞

美對伊行動細節：使用14枚巨型鉆地彈

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：同德县| 贵阳市| 平昌县| 湖南省| 福鼎市| 左贡县| 石家庄市| 五常市| 汝城县| 鸡泽县| 万载县| 永福县| 三都| 镇雄县| 迁西县| 拜泉县| 龙门县| 清原| 基隆市| 临漳县| 华池县| 扎赉特旗| 灯塔市| 吉安市| 长乐市| 视频| 保德县| 鸡东县| 保定市| 土默特左旗| 潼关县| 太谷县| 探索| 贡觉县| 获嘉县| 威远县| 黄石市| 泸溪县| 廉江市| 漯河市| 古交市|