99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

蘋果炮轟AI推理遭打臉,GitHub大佬神怒懟!復雜任務≠推理能力

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】最近,蘋果再次發文指出LLM推理的根本缺陷。相關解讀,一夜刷屏。然而,GitHub高級軟件工程師怒不可遏,怒斥相關「流言」。

最近,蘋果公司發表了預印本論文,指出推理大模型存在重大缺陷。

昨天,Ruben Hassid發布了相關解讀的X帖子,認為這是項突破性研究:

蘋果證明了Claude等AI推理模型,根本不會思考。

這種解讀在社交平臺上廣泛傳播,瀏覽量已超過1000萬,且仍在持續增長。


但這種解讀翻車了!

在Reddit和黑客新聞,網友紛紛表示論文爭議太大。






左右滑動查看

GitHub高級工程師Sean Goedecke,對該論文持保留態度,盡管他也認為語言模型不是通往超級智能(ASI)的理想路徑。

最直接的例證是:當用DeepSeek-V3測試時,模型直接拒絕了要執行上千步的謎題推演

——這并非推理能力崩潰,反而說明模型具備對自身能力邊界的認知!


雖然Samy沒有獲得圖靈獎,聲望不及Yoshua,但其在谷歌學術上的引用次數已超過九萬次,是Jeff Dean等知名學者的合作者。


這也不是蘋果第一次指出LLM推理有問題,但這次在各大社交平臺上得到了廣泛傳播。




左右滑動查看

那么蘋果的新論文到底展示了什么?我們又該如何看待語言模型?

要理解這場爭議的核心,我們先看看蘋果論文到底說了什么。

蘋果到底說了什么?

這篇論文開篇就提出,在數學和編程基準測試中,大家不要太在意推理模型的表現,因為:

  • (a)這些基準測試存在污染;

  • (b)在數學和編程任務上,無法運行高質量實驗,因為這些任務缺乏簡明的復雜度量標準。

因此,蘋果的研究團隊選擇使用四種人工謎題(puzzle)環境(漢諾塔的變體),再次評估了推理模型,難度從最簡單的單盤漢諾塔逐步上升到二十盤漢諾塔。


漢諾塔(Tower of Hanoi)是根據一個傳說形成的數學問題:

有三根桿子A,B,C。A桿上有N個(N>1)穿孔圓盤,盤的尺寸由下到上依次變小。

要求按下列規則將所有圓盤移至C桿:

(1)每次只能移動一個圓盤;

(2)大盤不能疊在小盤上面??蓪A盤臨時置于B桿,也可將從A桿移出的圓盤重新移回A桿,但都必須遵循上述兩條規則。

問題為:應該以何種方式移動?最少要移動多少次?

例如,他們對比了非推理模型DeepSeek-V3與推理模型DeepSeek-R1:


這個對比模式在所有推理/非推理模型對、以及所有謎題任務中基本一致。

論文得出以下幾個核心結論:

  • 對非常簡單的謎題,非推理模型表現相當甚至更好,因為推理模型有時會「想太多」而導致錯誤。

  • 對中等難度的謎題,推理模型明顯更強。

  • 一旦任務復雜度足夠高,即使是推理模型也無法給出正確答案,不管你給它多長時間。

接下來,論文分析了推理模型的內部思維軌跡,驗證了上述結論:

在簡單問題中,正確答案幾乎立刻出現;

在中等問題中,需要更多推理步驟;

而在最困難的問題中,則根本不會出現。

論文還指出,隨著問題復雜度增加,一旦模型無法解決問題,開始「躺平摸魚」:

模型不會繼續投入更多token來解題,而是直接「放棄」,停止推理。

最后,論文嘗試直接將正確的謎題求解算法輸入模型,期望這能提高其推理能力。

結果只是「有一點用」:部分模型可以多解出一個盤,但整體效果并不顯著。

總結來看,該論文得出以下結論:

  1. 推理模型存在復雜度「天花板」,一旦超出,性能明顯下降。

  2. 推理模型可能存在「內在計算擴展上限」,證據是:模型在達到一定復雜度時,會選擇放棄。

  3. 推理模型不擅長計算性任務,因為即使將算法直接給它們,也沒用。

這樣理解:不對

對蘋果的這篇論文,Sean Goedecke有三大質疑:

首先,漢諾塔這類謎題不是判斷「推理能力」的好例子;

其次,推理模型的復雜性閾值,不一定是固定的;

最后,存在復雜度閾值≠模型「并不真正具備推理能力」。


謎題不是好例子

相比數學和編程,漢諾塔是一個更糟糕的推理測試案例。

如果擔心數學和編程基準測試存在訓練數據污染,那為何選擇訓練數據中存在解法的知名謎題?


這是Sean Goedecke對論文最主要的不滿。

論文卻得出結論「給模型提供解法,也沒有提高效果」。

這件事讓他感到驚訝:

漢諾塔算法在模型訓練數據中反復出現。

所以,給模型算法幫助當然不大——

模型早已經知道算法是什么了!

另外,推理模型是有針對性地被訓練用于數學和編程任務的,而不是用于謎題。

也許謎題在某種程度上可以代表推理能力,但也可能根本不相關。

從另一個角度,他完全可以相信:模型在處理數學題或寫代碼時具備更完善的內部工具鏈,而不具備用于謎題的工具。

用謎題來測推理能力,等同于說「GPT-3.5之后,寫彼特拉克式十四行詩沒有明顯進步,所以語言模型并沒真正取得進展」。


彼得拉克式十四行,又稱意大利十四行詩。詩標準意式十四行詩由14個十一音節詩行組成,分為前后兩部分:前八行(octave)與后六行(sestet)

漢諾塔確實比數學問題更容易縮放復雜度,但正因為這個原因就選它,給人一種「路燈效應」的感覺

——不是因為它最好,而是因為它最方便


路燈效應,指人們傾向于只在最容易尋找的地方進行搜索

復雜度閾值未必固定

假設語言模型在超過一定復雜性點后確實會放棄,就像它們在超過十個盤子的漢諾塔時一樣。

換言之,假設之前對謎題作為測試例子的質疑是錯誤的,而蘋果的論文確實具有普適性。

那么,這是否意味著模型無法處理超出某一復雜度的問題?

Sean Goedecke將蘋果論文中的一些提示詞輸入DeepSeek-R1,以下是簡化版的推理軌跡開頭:

好的,我需要解一個有10個盤的漢諾塔問題。

讓我思考如何處理這個問題。我記得經典解法是遞歸步驟……

n個盤的標準解法需要2^n-1步。對于10個盤是1023步。但手動列出每一步幾乎不可能。

所以我需要一種系統化方法來逐步列出每一步。讓我回憶一下漢諾塔的迭代解法……

請注意,模型立即決定「手動生成所有這些步驟是不可能的」,因為這需要跟蹤上千個步驟。

于是它開始尋找「聰明的捷徑」,但最終失敗。

這里的關鍵見解是,超過一定復雜性閾值后,模型決定有太多的步驟需要推理,于是開始尋找巧妙的捷徑

模型所面對的任務其實已悄然轉變:從「逐步推理完成」變為「發明一種能跳過推理的通用方案」

從測試來看,即使在較低的盤子數量下,DeepSeek-R1也會抱怨幾句,說「這會很繁瑣」,即使你明確要求它逐步列出解法。

這是可以理解的:推理模型是為推理而訓練的,不是為執行數千次機械步驟而訓練的。

那么,對于漢諾塔謎題來說,真的存在復雜性閾值嗎?

實際上,大家并不知道模型是否能夠堅持完成千步序列。

我們所知道的是,模型不想這樣做。

順帶一提,這也解釋了一個「奇怪」的發現:

當問題變得更難時,模型使用的推理token反而減少。

因為任務如果只需幾十步,它會積極推理;如果需要幾百甚至上千步,它就選擇放棄。

注意:Sean Goedecke沒有訪問其他推理模型軌跡的權限——

如果它們表現不同,那么他愿意承認在這個觀點上他是錯誤的。

復雜任務失敗≠0推理能力

假設到目前為止的一切都是錯誤的:

謎題真的是測試推理的好例子,推理模型真的有個固定的復雜性閾值。

這是否意味著模型不能推理?

當然,這并不意味著模型不能推理!

當然不是!

看到網絡上的一些熱評,Sean Goedecke情難自禁,簡直要瘋了。

多少人能真正坐下來,準確寫出一千步的漢諾塔解法?

肯定有一些人可以,但也有很多人完全不行。

我們會因此說那些人「不具備推理能力」嗎?

當然不會!

他們只是缺乏足夠的耐心與專注,從而無法做到手動執行一千次算法而已。

即便只能推理到第十步,未能完成第十一步,也依然體現了推理能力。

能推理三步,也依然是推理,哪怕你無法看清第四步。

這也許不是「超人級」的推理,但絕對屬于人類推理能力

嚴格說來,這對論文可能不太公平——

它本身并沒有明確說模型「根本不能推理」(除非你把標題當真)。

然而,互聯網上這么說的人太多了,所以他認為值得討論一下。

總結

蘋果的論文《思維的幻覺》,不是特別好。

Sean Goedecke的主要反對意見是,他不認為推理模型像論文暗示的那樣不擅長這些謎題:

從我自己的測試來看,模型早早決定幾百個算法步驟太多,甚至不值得嘗試,所以它們拒絕開始。

你不能比較八盤漢諾塔和十盤漢諾塔,因為你比較的是「模型能否完成算法」和「模型能否想出一個避免完成算法的解決方案」。

更加一般性地,他不相信謎題是評估推理能力的好試驗場,因為

(a)它們不是人工智能實驗室的重點領域,

(b)它們需要像計算機一樣遵循算法,而不是需要解決數學問題的那種推理。

Sean Goedecke認為,推理模型并非像論文暗示的那樣不擅長這類謎題。

在他的測試中,模型在面對上百步算法時,往往主動放棄,而非能力崩潰。

他強調,放棄并不意味著無法推理——

就像人類在面對高度重復、枯燥任務時也可能選擇中止。

這種行為更多體現的是認知邊界,而非思維能力的缺失

因此,他不認同將「未完成復雜任務」等同于「不具備推理能力」的觀點。

這篇論文并非一無是處,Sean Goedecke認為它有下列亮點:

  • 推理模型在簡單問題上有時會「想太多」,表現不如非推理模型,這一點很有趣;

  • 模型在長算法執行過程中「放棄」的現象也很有意思,盡管它可能并不能很好地說明其普遍推理能力;

  • 他喜歡「問題三階段」這一觀點:簡單、中等可推理、以及復雜到模型會放棄的階段。如果某種模型可以被訓練成「永不放棄」,那將非常有趣。

無論如何,蘋果的研究提供了重要提醒:

當前語言模型的推理能力遠非「通用智能」。

那么,該如何定義「推理」?

又如何測試「思維」?

這可能是下一代AI必須直面的核心問題。

參考資料:

https://www.seangoedecke.com/illusion-of-thinking/

https://www.linkedin.com/feed/update/urn:li:activity:7337332564367462400/

https://x.com/RubenHssd/status/1931389580105925115

https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/

https://news.ycombinator.com/item?id=44203562


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
汪峰牽著森林北的手逛kkv,35歲森林北像18歲,汪峰對她有點摳

汪峰牽著森林北的手逛kkv,35歲森林北像18歲,汪峰對她有點摳

楊哥歷史
2025-06-22 15:28:26
2-0大冷!WTA排名亂了:一人飆升63名,王欣瑜換教練后開掛

2-0大冷!WTA排名亂了:一人飆升63名,王欣瑜換教練后開掛

何老師呀
2025-06-22 12:23:47
俄外交部:莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄外交部:莫斯科強烈譴責烏克蘭無人機出現在哈薩克斯坦上空

俄羅斯衛星通訊社
2025-06-22 16:07:30
8歲女童持續嘔吐活蟲一個多月,元兇竟來自衛生間!很多家庭都有,趕緊清除

8歲女童持續嘔吐活蟲一個多月,元兇竟來自衛生間!很多家庭都有,趕緊清除

魯中晨報
2025-06-22 09:41:08
白宮高級官員:特朗普21日下達了襲擊伊朗核設施的最終命令

白宮高級官員:特朗普21日下達了襲擊伊朗核設施的最終命令

財聯社
2025-06-23 01:42:21
連扳3球逆轉+加時絕殺!99年老隊24年后重返西甲,球迷沖進場狂歡

連扳3球逆轉+加時絕殺!99年老隊24年后重返西甲,球迷沖進場狂歡

我愛英超
2025-06-22 06:41:49
曝易夢玲王勉戀愛!女方被偶遇后刪首爾行程,兩人更多細節被扒

曝易夢玲王勉戀愛!女方被偶遇后刪首爾行程,兩人更多細節被扒

萌神木木
2025-06-22 22:36:46
A股:股民要做好準備,周末突發利空,今天A股怎么辦?

A股:股民要做好準備,周末突發利空,今天A股怎么辦?

奔走的股票
2025-06-23 00:26:41
女子炫耀800萬蘭博基尼掛墻上,餐桌150萬,一年電費40萬遭封禁

女子炫耀800萬蘭博基尼掛墻上,餐桌150萬,一年電費40萬遭封禁

漢史趣聞
2025-06-21 14:47:35
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
“禁酒令”走到了“懸崖”,該“勒馬”了

“禁酒令”走到了“懸崖”,該“勒馬”了

小江科普
2025-06-21 19:57:51
A股:全體股民做好準備!明天周一,股市走勢展望!

A股:全體股民做好準備!明天周一,股市走勢展望!

悠然安晴
2025-06-22 09:22:04
永旺夢樂城店預計于9月30日停止營業!屆時或將更名“鑫嘉匯”

永旺夢樂城店預計于9月30日停止營業!屆時或將更名“鑫嘉匯”

新豐臺
2025-06-22 22:50:56
老百姓覺悟了?河北農村重現排隊磨面,面粉中有十幾種添加劑嗎?

老百姓覺悟了?河北農村重現排隊磨面,面粉中有十幾種添加劑嗎?

馬蹄燙嘴說美食
2025-06-17 13:30:28
全城狂歡!香港特首宣布,接下來這些通通免費!

全城狂歡!香港特首宣布,接下來這些通通免費!

港漂圈
2025-06-22 19:06:36
美國總統特使喊話馬斯克:今后幾周在伊朗免費開通“星鏈”

美國總統特使喊話馬斯克:今后幾周在伊朗免費開通“星鏈”

界面新聞
2025-06-22 16:52:28
美國“參戰”,以伊局勢更復雜了 | 新京報專欄

美國“參戰”,以伊局勢更復雜了 | 新京報專欄

新京報評論
2025-06-22 14:25:51
每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

每年70萬人因肺癌而死!再次勸告:天熱寧可吹吹風扇,也別做6事

嘆為觀止易
2025-06-17 11:44:21
巴西熱氣球墜毀致8死:3人相擁而亡,13人奇跡生還

巴西熱氣球墜毀致8死:3人相擁而亡,13人奇跡生還

荊楚寰宇文樞
2025-06-22 23:29:48
最強贅婿生存法則:貝克漢姆長子憑啥拿下120億富婆,理由很簡單

最強贅婿生存法則:貝克漢姆長子憑啥拿下120億富婆,理由很簡單

聯友說娛
2025-06-22 10:19:26
2025-06-23 03:00:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

手機
教育
藝術
時尚
軍事航空

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

軍事要聞

美對伊行動細節:使用14枚巨型鉆地彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 同德县| 贵阳市| 平昌县| 湖南省| 福鼎市| 左贡县| 石家庄市| 五常市| 汝城县| 鸡泽县| 万载县| 永福县| 三都| 镇雄县| 迁西县| 拜泉县| 龙门县| 清原| 基隆市| 临漳县| 华池县| 扎赉特旗| 灯塔市| 吉安市| 长乐市| 视频| 保德县| 鸡东县| 保定市| 土默特左旗| 潼关县| 太谷县| 探索| 贡觉县| 获嘉县| 威远县| 黄石市| 泸溪县| 廉江市| 漯河市| 古交市|