99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude與人類共著論文,蘋果再遭打臉!實(shí)驗(yàn)黑幕曝光

0
分享至


新智元報(bào)道

編輯:peter東 桃子

【新智元導(dǎo)讀】蘋果一篇論文,再遭打臉。研究員聯(lián)手Claude Opus用一篇4頁論文再反擊,揭露實(shí)驗(yàn)設(shè)計(jì)漏洞,甚至指出部分測(cè)試無解卻讓模型「背鍋」的華點(diǎn)。

幾天前,蘋果怒斥大模型根本不會(huì)推理論文,引發(fā)全網(wǎng)無數(shù)討論與爭(zhēng)議。

在許多人看來,沒有站在AI前沿的人, 卻質(zhì)疑當(dāng)今最領(lǐng)先推理模型o3-mini、DeepSeek-R1推理能力,實(shí)在沒有說服力。

論文一出,備受質(zhì)疑。


一位研究員發(fā)文稱,其研究方法并不可靠,比如通過在數(shù)學(xué)題中添加無關(guān)內(nèi)容測(cè)試模型的表現(xiàn)。

最近,Open Philanthropy研究人員聯(lián)手Anthropic發(fā)表的一篇論文——The Illusion of the Illusion of Thinking,再次將矛頭指向蘋果。


論文地址:https://arxiv.org/pdf/2506.09250

這篇僅4頁論文一針見血,揭露了蘋果論文在漢諾塔實(shí)驗(yàn)、自動(dòng)評(píng)估框架,以及「過河」基準(zhǔn)測(cè)試中的三大缺陷。

甚至,文中還指出部分測(cè)試用例在數(shù)學(xué)上無解,模型卻因此被誤判為「推理失敗」。

更引人注目的是,論文作者之一,還有一個(gè)是AI——Claude Opus。


論文中,具體指出了哪些問題,讓我們一探究竟。

推理大模型失敗,是非戰(zhàn)之罪

在The illusion of thinking中,作者給出了四個(gè)例子,說明當(dāng)問題的尺度變大時(shí),大模型的表現(xiàn)變得越來越差。

他們據(jù)此得出結(jié)論:大模型實(shí)際上只是在進(jìn)行著模式匹配,從訓(xùn)練數(shù)據(jù)集中找出對(duì)該問題的已有解答。


漢諾塔問題示例

然而Lawsen和Claude指出上述研究中,推理大模型失敗源頭在于token數(shù)超過了模型的上限。

例如,在漢諾塔的任務(wù)中,模型必須打印指數(shù)級(jí)數(shù)量的步驟——僅15個(gè)盤子就需要超過32,000次移動(dòng),這導(dǎo)致它們達(dá)到輸出上限。

Sonnet 3.7的輸出限制是128k,DeepSeek R1是64K,以及o3-mini是100k token。

這包括他們?cè)谳敵鲎罱K答案之前使用的推理token,所有模型在超過13個(gè)盤子的情況下都會(huì)出現(xiàn)0準(zhǔn)確率,僅僅因?yàn)樗鼈儫o法輸出那么多!


不同大模型能夠應(yīng)對(duì)的漢諾塔盤子數(shù),不考慮任何推理token,大模型最大可解決規(guī)模為DeepSeek: 12個(gè)盤子,Sonnet 3.7和o3-mini為13個(gè)盤子

在使用Claude測(cè)試時(shí),作者觀察到當(dāng)問題規(guī)模過大時(shí),它們甚至不會(huì)進(jìn)行推理,而是會(huì)說,「由于移動(dòng)次數(shù)眾多,我將解釋解決方案方法」,而不是逐一列出所有32,767次移動(dòng)。

針對(duì)非常小的問題(大約5-6個(gè)盤子)的,大模型會(huì)進(jìn)行推理。

之后,它只是:重復(fù)問題,重復(fù)算法,打印步驟,然后到了9-10個(gè)盤子時(shí),這時(shí)模型遇到了其輸出的上限,這時(shí),模型也許應(yīng)該給出回復(fù),「我寫不下2^n_圓盤-1步,這超過了我的輸出上限」。


不同尺度的問題,大模型輸出的token數(shù)在9-10個(gè)盤子時(shí)達(dá)到峰值

此外,大模型給出的解答之所以是錯(cuò)誤的,可能的原因是在每一步推理過程中,大模型由于其是概念模型,會(huì)忘記之前選定的盤子。

即使大模型每一步選對(duì)正確盤子的概率是99.99%,當(dāng)盤子數(shù)超過11%個(gè)時(shí),大模型給出正確回答的概率,也會(huì)呈現(xiàn)指數(shù)衰減。

這意味著即使大模型能夠進(jìn)行推理,但由于其在推理過程中,某漢諾塔盤頂?shù)谋P子編號(hào)從A記錯(cuò)成了B,也會(huì)導(dǎo)致其給出的指令無法執(zhí)行。

而當(dāng)前的評(píng)價(jià)要求大模型給出的回答完全沒有錯(cuò)誤,這樣的評(píng)價(jià)標(biāo)準(zhǔn),未免有些過于嚴(yán)苛了。


大模型不同觀察準(zhǔn)確性下,隨著問題復(fù)雜度增長其回答準(zhǔn)確性的變化

至于The illusion of thinking文中列出的另一案例過河問題(River Crossing),當(dāng)問題變?yōu)閚=6時(shí),問題在數(shù)學(xué)上就是無解的,這樣的不可解的問題數(shù)目并不少。將大模型面對(duì)這些不可解問題的失敗,當(dāng)做大模型缺少推理能力的證據(jù),這樣做無疑是不妥的。

除了指出The illusion of thinking中的評(píng)價(jià)缺陷,最新論文也指出對(duì)大模型推理能力對(duì)正確評(píng)價(jià)方法。

即不是讓大模型逐行編寫每個(gè)步驟時(shí),而是其給出一個(gè)Lua程序去解答問題,然后運(yùn)行大模型給出的程序,再判斷程序的輸出否是正確的解答。

結(jié)果顯示,Claude-3.7-Sonnet,Claude Opus 4,OpenAI o3,Google Gemini 2.5都能夠在5000個(gè)token的限制下,輸出能得到正確解答的程序,準(zhǔn)確率極高。

這完全消除了所謂的推理能力崩潰現(xiàn)象,表明模型并非未能進(jìn)行推理。它們只是未能遵循一個(gè)人為的、過于嚴(yán)格的評(píng)分標(biāo)準(zhǔn)。

LLM推理能力引熱議

蘋果發(fā)布「思考的幻覺」論文的時(shí)間,恰逢WWDC之前,這進(jìn)一步加劇了其影響力,使得其被廣泛討論。

這其中就包含不少批評(píng)的聲音,比如有人暗示蘋果在大模型方面落后于OpenAI和谷歌等競(jìng)爭(zhēng)對(duì)手,可能試圖降低人們的期望。

他們戲稱,提出了一些關(guān)于「這一切都是假的,毫無意義」的研究,可以挽救蘋果在Siri等表現(xiàn)不佳的AI產(chǎn)品上的聲譽(yù)。


還有人批評(píng)道,即使是人類,也大多無法準(zhǔn)確無誤的寫出針對(duì)13個(gè)盤子的漢諾塔問題的一步步解法,如果沒有進(jìn)行這樣的比較,蘋果又如何知道這樣隨著問題規(guī)模變大而遇到的準(zhǔn)確性下降,不會(huì)出現(xiàn)在人類身上。


而法國高效能AI初創(chuàng)公司Pleias的工程師Alexander Doria指出思考的幻覺一文略了細(xì)微差別,認(rèn)為模型可能在學(xué)習(xí)部分啟發(fā)式方法,而不是簡(jiǎn)單地匹配模式。


而賓夕法尼亞大學(xué)沃頓商學(xué)院專注于人工智能的教授Ethan Mollick認(rèn)為,認(rèn)為大語言模型正在「遇到瓶頸」的觀點(diǎn)為時(shí)過早,并將此比作那些未能應(yīng)驗(yàn)的關(guān)于「模型崩潰」的類似主張。

上述爭(zhēng)議凸顯了一個(gè)日益增長的共識(shí):設(shè)計(jì)合理的大模型評(píng)估方案,如今與模型設(shè)計(jì)同等重要。

要求大模型枚舉每一步可能更多地考驗(yàn)它們的輸出上限而非規(guī)劃能力,而輸出程序化答案或給予大模型外部臨時(shí)工作區(qū)則能更清晰地展現(xiàn)其實(shí)際推理能力。

該案例還突出了開發(fā)者在部署自主系統(tǒng)時(shí)面臨的實(shí)際限制——上下文窗口、輸出預(yù)算和任務(wù)表述可能決定或破壞用戶可見的性能。對(duì)于在企業(yè)技術(shù)決策者構(gòu)建基于推理大模型的應(yīng)用而言,這場(chǎng)辯論不僅僅是學(xué)術(shù)性的。它提出了關(guān)于在生產(chǎn)工作流程中何時(shí)、何地以及如何信任這些模型的關(guān)鍵問題——尤其是在任務(wù)涉及長規(guī)劃鏈或需要精確的逐步輸出時(shí)。

如果一個(gè)模型在處理復(fù)雜提示時(shí)看似「失敗」,問題可能不在于其推理能力,而在于任務(wù)如何被構(gòu)建、需要多少輸出,或模型能訪問多少內(nèi)存。這對(duì)于構(gòu)建如協(xié)作者、自主代理或決策支持系統(tǒng)等工具的產(chǎn)業(yè)尤其相關(guān),在這些產(chǎn)業(yè)中,可解釋性和任務(wù)復(fù)雜性都可能很高。

理解上下文窗口、token預(yù)算以及評(píng)估中使用的評(píng)分標(biāo)準(zhǔn)對(duì)于可靠的系統(tǒng)設(shè)計(jì)至關(guān)重要。開發(fā)者可能需要考慮外部化內(nèi)存、分塊推理步驟或使用函數(shù)或代碼等壓縮輸出,而不是完整的語言解釋。

更重要的是,這篇論文的爭(zhēng)議提醒我們,基準(zhǔn)測(cè)試與現(xiàn)實(shí)應(yīng)用并不相同。

企業(yè)團(tuán)隊(duì)?wèi)?yīng)謹(jǐn)慎避免過度依賴那些不能反映實(shí)際應(yīng)用場(chǎng)景的合成基準(zhǔn)測(cè)試——或者那些無意中限制模型展示其能力的基準(zhǔn)測(cè)試。對(duì)機(jī)器學(xué)習(xí)研究人員來說,一個(gè)重要的啟示是:在宣稱一個(gè)人工智能里程碑或訃告之前,務(wù)必確保測(cè)試本身沒有將系統(tǒng)置于一個(gè)太小而無法思考的框框之中。

參考資料:

https://arxiv.org/pdf/2506.09250

https://lawsen.substack.com/p/when-your-joke-paper-goes-viral


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

高圓圓雖然很漂亮,但到這個(gè)年齡還是少穿這種露肉的衣服好。

TVB的四小花
2025-06-12 10:14:51
香港黃道益活絡(luò)油被“活洛油”撞衫 企業(yè):僅在香港生產(chǎn)制造

香港黃道益活絡(luò)油被“活洛油”撞衫 企業(yè):僅在香港生產(chǎn)制造

南方都市報(bào)
2025-06-16 18:59:10
安徽500畝土豆遭村民哄搶預(yù)計(jì)近100萬斤 警方已立案

安徽500畝土豆遭村民哄搶預(yù)計(jì)近100萬斤 警方已立案

極目新聞
2025-06-16 13:20:51
周通:妻子鼓勵(lì)我換個(gè)生活狀態(tài);簽約奧克蘭城一頓咖啡就成了

周通:妻子鼓勵(lì)我換個(gè)生活狀態(tài);簽約奧克蘭城一頓咖啡就成了

懂球帝
2025-06-16 11:24:23
大決戰(zhàn)關(guān)鍵時(shí)刻,三位兵團(tuán)司令犯錯(cuò),毛主席震怒:此戰(zhàn)我親自指揮

大決戰(zhàn)關(guān)鍵時(shí)刻,三位兵團(tuán)司令犯錯(cuò),毛主席震怒:此戰(zhàn)我親自指揮

仙女愛歷史
2025-06-16 21:49:54
237死1590多傷!伊以死傷慘重,以色列總理:接受美國要求就停戰(zhàn)

237死1590多傷!伊以死傷慘重,以色列總理:接受美國要求就停戰(zhàn)

阿芒娛樂說
2025-06-16 13:15:14
中國女籃麻煩來了!李夢(mèng)離隊(duì)后收3個(gè)壞消息,事關(guān)亞洲杯與日本隊(duì)

中國女籃麻煩來了!李夢(mèng)離隊(duì)后收3個(gè)壞消息,事關(guān)亞洲杯與日本隊(duì)

章蠞戶外
2025-06-16 14:07:28
女生手電筒照手驚現(xiàn)腫瘤!網(wǎng)友神評(píng)論救命,醫(yī)生:再晚就危險(xiǎn)!

女生手電筒照手驚現(xiàn)腫瘤!網(wǎng)友神評(píng)論救命,醫(yī)生:再晚就危險(xiǎn)!

呱呱群眾
2025-04-21 21:19:18
雖不愿承認(rèn),但必須接受!明日柏林站首秀,鄭欽文將面臨路苦戰(zhàn)!

雖不愿承認(rèn),但必須接受!明日柏林站首秀,鄭欽文將面臨路苦戰(zhàn)!

田先生籃球
2025-06-16 15:08:31
定了!選址街子古鎮(zhèn)

定了!選址街子古鎮(zhèn)

崇州看點(diǎn)
2025-06-16 20:07:36
明示姆巴佩!皇馬新帥強(qiáng)勢(shì)發(fā)聲!拒絕通融,考慮變陣,沖歐冠三連

明示姆巴佩!皇馬新帥強(qiáng)勢(shì)發(fā)聲!拒絕通融,考慮變陣,沖歐冠三連

阿泰希特
2025-06-16 15:06:41
《劍星》有80多款福利Mod 金亨泰稱不會(huì)進(jìn)行限制

《劍星》有80多款福利Mod 金亨泰稱不會(huì)進(jìn)行限制

3DM游戲
2025-06-16 17:13:21
尊重在哪里?名記建議快船給哈登2年7900萬 第二年僅1000萬保障

尊重在哪里?名記建議快船給哈登2年7900萬 第二年僅1000萬保障

老王大話體育
2025-06-16 23:15:13
巴黎航展上以色列攻擊性武器展館周圍被筑起黑色隔離墻,以國防部抨擊法方

巴黎航展上以色列攻擊性武器展館周圍被筑起黑色隔離墻,以國防部抨擊法方

環(huán)球網(wǎng)資訊
2025-06-16 18:12:38
拒絕1年350萬!索要2年1.11億!杜威二少有望重聚,哈登進(jìn)退兩難

拒絕1年350萬!索要2年1.11億!杜威二少有望重聚,哈登進(jìn)退兩難

世界體育圈
2025-06-16 17:12:31
鼻子修復(fù)得七七八八了,蘋果肌又移位,金晨這張臉成無底洞

鼻子修復(fù)得七七八八了,蘋果肌又移位,金晨這張臉成無底洞

素衣讀史
2025-06-16 11:44:01
高考錄取狀態(tài)出現(xiàn)“這4個(gè)字”,大概率不會(huì)被錄取,25考生盡早了解

高考錄取狀態(tài)出現(xiàn)“這4個(gè)字”,大概率不會(huì)被錄取,25考生盡早了解

妍妍教育日記
2025-06-14 11:49:09
以色列安全部門“大腦”在伊朗導(dǎo)彈襲擊中受損,其以研發(fā)尖端軍事武器聞名

以色列安全部門“大腦”在伊朗導(dǎo)彈襲擊中受損,其以研發(fā)尖端軍事武器聞名

紅星新聞
2025-06-16 18:22:25
皇馬放棄梅西接班人?皇馬不愿回購800萬天才,2個(gè)關(guān)鍵原因曝光

皇馬放棄梅西接班人?皇馬不愿回購800萬天才,2個(gè)關(guān)鍵原因曝光

貝塔說體育
2025-06-16 14:55:41
如果伊朗輸?shù)暨@場(chǎng)戰(zhàn)爭(zhēng),全球局勢(shì)必出現(xiàn)劇變!中國該如何應(yīng)對(duì)?

如果伊朗輸?shù)暨@場(chǎng)戰(zhàn)爭(zhēng),全球局勢(shì)必出現(xiàn)劇變!中國該如何應(yīng)對(duì)?

李光滿說
2025-06-15 19:45:15
2025-06-17 00:00:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12890文章數(shù) 66072關(guān)注度
往期回顧 全部

科技要聞

雷軍:?戒O1芯片還要再做5年、10年

頭條要聞

美突然大規(guī)模向中東調(diào)兵 媒體:美國實(shí)際上已部分參戰(zhàn)

頭條要聞

美突然大規(guī)模向中東調(diào)兵 媒體:美國實(shí)際上已部分參戰(zhàn)

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財(cái)經(jīng)要聞

618國補(bǔ)貼錢反漲價(jià) 美的深陷價(jià)格魔術(shù)漩渦

汽車要聞

榮威M7 DMH外觀官圖發(fā)布 預(yù)計(jì)將于下半年正式上市

態(tài)度原創(chuàng)

游戲
健康
旅游
親子
軍事航空

《光與影》透露未來更新方向!中文配音指日可待?

呼吸科專家破解呼吸道九大謠言!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

保護(hù)孩子寶媽必學(xué),請(qǐng)把安全教育放在第一位!

軍事要聞

俄羅斯暫停駐伊朗領(lǐng)事工作 宣布從伊朗撤僑

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 济南市| 信丰县| 中山市| 库车县| 师宗县| 兖州市| 漳平市| 泌阳县| 桂阳县| 崇明县| 平谷区| 乳山市| 若尔盖县| 稷山县| 寻乌县| 道孚县| 新沂市| 宣武区| 宁武县| 克东县| 万安县| 洛阳市| 荣成市| 朝阳县| 阿拉善盟| 邵武市| 江西省| 黄浦区| 滨海县| 朝阳县| 周至县| 永善县| 红原县| 广元市| 武冈市| 九江县| 托克逊县| 织金县| 中山市| 太原市| 博湖县|