99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Claude與人類共著論文,蘋果再遭打臉!實驗黑幕曝光

0
分享至

  

  新智元報道

  編輯:peter東 桃子

  【新智元導讀】蘋果一篇論文,再遭打臉。研究員聯手Claude Opus用一篇4頁論文再反擊,揭露實驗設計漏洞,甚至指出部分測試無解卻讓模型「背鍋」的華點。

  幾天前,蘋果怒斥大模型根本不會推理論文,引發全網無數討論與爭議。

  在許多人看來,沒有站在AI前沿的人, 卻質疑當今最領先推理模型o3-mini、DeepSeek-R1推理能力,實在沒有說服力。

  論文一出,備受質疑。

  

  一位研究員發文稱,其研究方法并不可靠,比如通過在數學題中添加無關內容測試模型的表現。

  最近,Open Philanthropy研究人員聯手Anthropic發表的一篇論文——The Illusion of the Illusion of Thinking,再次將矛頭指向蘋果。

  

  論文地址:https://arxiv.org/pdf/2506.09250

  這篇僅4頁論文一針見血,揭露了蘋果論文在漢諾塔實驗、自動評估框架,以及「過河」基準測試中的三大缺陷。

  甚至,文中還指出部分測試用例在數學上無解,模型卻因此被誤判為「推理失敗」。

  更引人注目的是,論文作者之一,還有一個是AI——Claude Opus。

  

  論文中,具體指出了哪些問題,讓我們一探究竟。

  推理大模型失敗,是非戰之罪

  在The illusion of thinking中,作者給出了四個例子,說明當問題的尺度變大時,大模型的表現變得越來越差。

  他們據此得出結論:大模型實際上只是在進行著模式匹配,從訓練數據集中找出對該問題的已有解答。

  

  漢諾塔問題示例

  然而Lawsen和Claude指出上述研究中,推理大模型失敗源頭在于token數超過了模型的上限。

  例如,在漢諾塔的任務中,模型必須打印指數級數量的步驟——僅15個盤子就需要超過32,000次移動,這導致它們達到輸出上限。

  Sonnet 3.7的輸出限制是128k,DeepSeek R1是64K,以及o3-mini是100k token。

  這包括他們在輸出最終答案之前使用的推理token,所有模型在超過13個盤子的情況下都會出現0準確率,僅僅因為它們無法輸出那么多!

  

  不同大模型能夠應對的漢諾塔盤子數,不考慮任何推理token,大模型最大可解決規模為DeepSeek: 12個盤子,Sonnet 3.7和o3-mini為13個盤子

  在使用Claude測試時,作者觀察到當問題規模過大時,它們甚至不會進行推理,而是會說,「由于移動次數眾多,我將解釋解決方案方法」,而不是逐一列出所有32,767次移動。

  針對非常小的問題(大約5-6個盤子)的,大模型會進行推理。

  之后,它只是:重復問題,重復算法,打印步驟,然后到了9-10個盤子時,這時模型遇到了其輸出的上限,這時,模型也許應該給出回復,「我寫不下2^n_圓盤-1步,這超過了我的輸出上限」。

  

  不同尺度的問題,大模型輸出的token數在9-10個盤子時達到峰值

  此外,大模型給出的解答之所以是錯誤的,可能的原因是在每一步推理過程中,大模型由于其是概念模型,會忘記之前選定的盤子。

  即使大模型每一步選對正確盤子的概率是99.99%,當盤子數超過11%個時,大模型給出正確回答的概率,也會呈現指數衰減。

  這意味著即使大模型能夠進行推理,但由于其在推理過程中,某漢諾塔盤頂的盤子編號從A記錯成了B,也會導致其給出的指令無法執行。

  而當前的評價要求大模型給出的回答完全沒有錯誤,這樣的評價標準,未免有些過于嚴苛了。

  

  大模型不同觀察準確性下,隨著問題復雜度增長其回答準確性的變化

  至于The illusion of thinking文中列出的另一案例過河問題(River Crossing),當問題變為n=6時,問題在數學上就是無解的,這樣的不可解的問題數目并不少。將大模型面對這些不可解問題的失敗,當做大模型缺少推理能力的證據,這樣做無疑是不妥的。

  除了指出The illusion of thinking中的評價缺陷,最新論文也指出對大模型推理能力對正確評價方法。

  即不是讓大模型逐行編寫每個步驟時,而是其給出一個Lua程序去解答問題,然后運行大模型給出的程序,再判斷程序的輸出否是正確的解答。

  結果顯示,Claude-3.7-Sonnet,Claude Opus 4,OpenAI o3,Google Gemini 2.5都能夠在5000個token的限制下,輸出能得到正確解答的程序,準確率極高。

  這完全消除了所謂的推理能力崩潰現象,表明模型并非未能進行推理。它們只是未能遵循一個人為的、過于嚴格的評分標準。

  LLM推理能力引熱議

  蘋果發布「思考的幻覺」論文的時間,恰逢WWDC之前,這進一步加劇了其影響力,使得其被廣泛討論。

  這其中就包含不少批評的聲音,比如有人暗示蘋果在大模型方面落后于OpenAI和谷歌等競爭對手,可能試圖降低人們的期望。

  他們戲稱,提出了一些關于「這一切都是假的,毫無意義」的研究,可以挽救蘋果在Siri等表現不佳的AI產品上的聲譽。

  

  還有人批評道,即使是人類,也大多無法準確無誤的寫出針對13個盤子的漢諾塔問題的一步步解法,如果沒有進行這樣的比較,蘋果又如何知道這樣隨著問題規模變大而遇到的準確性下降,不會出現在人類身上。

  

  而法國高效能AI初創公司Pleias的工程師Alexander Doria指出思考的幻覺一文略了細微差別,認為模型可能在學習部分啟發式方法,而不是簡單地匹配模式。

  

  而賓夕法尼亞大學沃頓商學院專注于人工智能的教授Ethan Mollick認為,認為大語言模型正在「遇到瓶頸」的觀點為時過早,并將此比作那些未能應驗的關于「模型崩潰」的類似主張。

  上述爭議凸顯了一個日益增長的共識:設計合理的大模型評估方案,如今與模型設計同等重要。

  要求大模型枚舉每一步可能更多地考驗它們的輸出上限而非規劃能力,而輸出程序化答案或給予大模型外部臨時工作區則能更清晰地展現其實際推理能力。

  該案例還突出了開發者在部署自主系統時面臨的實際限制——上下文窗口、輸出預算和任務表述可能決定或破壞用戶可見的性能。對于在企業技術決策者構建基于推理大模型的應用而言,這場辯論不僅僅是學術性的。它提出了關于在生產工作流程中何時、何地以及如何信任這些模型的關鍵問題——尤其是在任務涉及長規劃鏈或需要精確的逐步輸出時。

  如果一個模型在處理復雜提示時看似「失敗」,問題可能不在于其推理能力,而在于任務如何被構建、需要多少輸出,或模型能訪問多少內存。這對于構建如協作者、自主代理或決策支持系統等工具的產業尤其相關,在這些產業中,可解釋性和任務復雜性都可能很高。

  理解上下文窗口、token預算以及評估中使用的評分標準對于可靠的系統設計至關重要。開發者可能需要考慮外部化內存、分塊推理步驟或使用函數或代碼等壓縮輸出,而不是完整的語言解釋。

  更重要的是,這篇論文的爭議提醒我們,基準測試與現實應用并不相同。

  企業團隊應謹慎避免過度依賴那些不能反映實際應用場景的合成基準測試——或者那些無意中限制模型展示其能力的基準測試。對機器學習研究人員來說,一個重要的啟示是:在宣稱一個人工智能里程碑或訃告之前,務必確保測試本身沒有將系統置于一個太小而無法思考的框框之中。

  參考資料:

  https://arxiv.org/pdf/2506.09250

  https://lawsen.substack.com/p/when-your-joke-paper-goes-viral

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗為何不主動倒向中國?

伊朗為何不主動倒向中國?

華山穹劍
2025-06-20 21:02:05
重大逆轉!伊朗, 援兵到了!

重大逆轉!伊朗, 援兵到了!

大嘴說天下
2025-06-21 22:05:04
恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

體育就你秀
2025-06-22 18:05:03
那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

叨嘮
2025-06-23 02:10:06
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

漢唐光輝
2025-06-22 16:55:34
2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

青途歷史
2025-06-20 20:34:06
大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

鋭娛之樂
2025-06-21 18:57:06
河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

懂球帝
2025-06-22 21:38:54
去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

小嵩
2025-06-21 09:47:30
蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

IT之家
2025-06-21 13:59:18
僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

上觀新聞
2025-06-22 14:22:07
真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

魚樂大使
2025-06-22 10:25:57
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

李春光
2025-06-22 11:55:02
感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

特約前排觀眾
2025-06-22 00:05:08
罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

獵火照狼山
2025-06-22 21:01:45
美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

環球網資訊
2025-06-22 18:05:59
周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

娛樂看阿敞
2025-06-21 15:45:31
過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

直播吧
2025-06-22 21:59:14
2025-06-23 02:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

藝術
健康
親子
數碼
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

親子要聞

我與兒子與同學之間的稱呼

數碼要聞

曝索尼PS6將采用全新AMD架構:光追、AI性能翻倍

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湘西| 东兰县| 理塘县| 全南县| 罗源县| 阿克| 乐山市| 克东县| 独山县| 丽水市| 宜川县| 龙井市| 贡嘎县| 屏东市| 张家港市| 益阳市| 大庆市| 横峰县| 建始县| 凌云县| 青川县| 申扎县| 南开区| 应用必备| 通州市| 如皋市| 镇沅| 洛川县| 潞西市| 甘谷县| 昌都县| 崇阳县| 通山县| 土默特左旗| 凤阳县| 唐海县| 台中县| 工布江达县| 宁陵县| 铁力市| 临西县|